第三部分自我控制：1975~1988年 - 第12章计划者与行动者 - 《“错误”的行为》

第12章计划者与行动者
- 图6 吃能量棒的快感

第12章计划者与行动者

当我开始认真思考自我控制问题时，我发现可供查阅的经济学文献很少。像大多数研究生一样，我对上一章提到的那些早期学者的研究知之甚少。研究生们几乎很少阅读30年前的著作，并且当时也没有什么新的研究成果发表。不过，我还是从三位学者那里获得了灵感，其中一位是经济学家，另外两位是心理学家。

我找到的唯一有关自我控制问题的经济学论文出自美国西北大学的经济学家罗伯特·斯特罗茨（Robert Strotz）之手。虽然很多经济学家一直在使用萨缪尔森建立的贴现效用模型，但除了斯特罗茨之外，几乎没有人注意到萨缪尔森提出的时间偏好的动态不一致性问题。

在这篇发表于1955年的论文中，斯特罗茨深入研究了这个问题：一个人的偏好要满足哪些数学性质，才能保证他一旦制订计划，就不再想改变。我们无须详述论文的细节，只要阐明一点即可：唯有一种情况（即贴现率符合指数函数的特点）可以保证时间的一致性。像萨缪尔森一样，斯特罗茨也担心这个条件无法满足。

正是因为这种担心，斯特罗茨想起了荷马的有关奥德修斯和塞壬女妖的神话，这已成为一个必谈话题，几乎所有研究自我控制问题的学者——不管是哲学家、心理学家，还是经济学家——最终都会谈到这个古老的传说。这一次，我也不例外。

我们先简要回顾一下这个故事。用今天的话说，塞壬女妖们就是一支完全由女子组成的摇滚乐队。没有哪个水手能够抵挡住她们美妙歌声的诱惑，但那些被歌声吸引驾船驶向岩石的水手最终都难逃一死。奥德修斯既想亲耳听听她们的歌声，又想活下去。他设计了一个包含两个步骤的计划：^[1]第一步是确保水手们不会听到塞壬女妖们的歌声，所以他让水手们用蜡封住耳朵。第二步是让水手把他绑在桅杆上，这样他既能听到歌声，又不会因禁不住诱惑而送命。

这个故事展现了当人们面对自我控制问题时可以使用的两个重要方法。对水手来说，方法就是移除会诱使他们送命的因素——眼不见，心不烦。对奥德修斯本人来说，他选择了“承诺策略”（commitment strategy）：他限制了自己的选择，以防止自我毁灭。这就像拿走那个装腰果的碗一样。斯特罗茨承认自己也用了承诺策略，以适应按月发放工资的情况：“我选择将年薪分成12个月领取的方式，而非9个月。”

1978年我在思考自我控制问题时，离斯特罗茨的论文发表已经过去了20多年，而且经济学领域似乎没有其他人对此感兴趣。（不过，托马斯·谢林很快就加入进来了。）我转向心理学领域寻求灵感。当然，我以为心理学领域肯定有很多关于延迟满足研究的论文，但是我错了。虽然现在有很多心理学家对自我控制问题很感兴趣，但在20世纪70年代末却并非如此。不过，我确实挖到了两个宝藏。

第一个是现在已广为人知的心理学家沃尔特·米歇尔（Walter Mischel）的研究。米歇尔当时在斯坦福大学工作，并在校园里的一家托儿所做了一项实验。实验人员让一个（四五岁的）孩子到一个房间里，给他两个选择：一个是较小的奖励，马上就可以得到；另一个是较大的奖励，但要过一会儿才能得到。奖励是一些好吃的食物，比如棉花糖或奥利奥饼干。实验人员告诉那个孩子，他可以现在或在任何他想吃的时候吃一块奥利奥饼干，但如果他能等到实验人员回来，就可以得到三块饼干。孩子可以随时摁铃，这样实验人员就会回来，但他只能得到较小的奖励。

大多数孩子都觉得这个任务极其困难，不过所处的环境也对结果有很大影响。在某些实验中，好吃的就放在孩子们面前的盘子里。奥利奥饼干之于孩子们，与塞壬女妖的歌声之于奥德修斯一样，具有很大的诱惑力。但是，如果孩子们看不到奖励（心里也不会那么着急），那么他们平均可以坚持11分钟。如果让他们想一些有趣的事情而不是那些奖励，孩子们就可以等待更长的时间。

这些实验最早实施于20世纪60年代末70年代初。大约10年后，米歇尔及其同事觉得追踪一下当年参加实验的实验对象会很有趣，于是他们尽力联系到了500多位实验对象，最后大约有1/3的人同意每过10年就接受一次他们的采访。令人惊讶的是，一个孩子在实验中等待时间的长短可以很好地预测他人生中很多重要事件的结果，比如高考成绩、职业发展和吸毒的状况。这个结果十分惊人，因为米歇尔本人此前曾做过大量实验，而结果均表明，所谓的人格特征连当前的行为都无法准确预测，更不用说预测未来的行为了。

米歇尔保留了一些棉花糖实验的珍贵录像，展现了孩子们在自我控制方面的困难。我对其中的一个小孩十分好奇，他所处的环境最为不利，三块奥利奥饼干就摆在他的面前。等了一会儿之后，他再也忍不住了，但他并没有摁铃，而是小心地掰开饼干，舔里面的白色夹心，再把饼干合到一起，并尽可能摆好三块饼干以免被发现。我想，这个小孩长大后也许会成为又一个诈骗犯伯纳德·麦道夫（Bernard Madoff）。

我挖到的另一个宝藏是精神科医生乔治·安斯利（George Ainslie）。他在退伍军人医院工作，闲暇时会做一些研究。安斯利于1975年发表了一篇论文，总结了当时有关自我控制问题的所有学术研究成果，我在斯坦福大学那一年仔细研读了这篇论文。

从安斯利的论文中，我了解到有很多研究老鼠、鸽子等动物的延迟满足的论文。有一项实验与米歇尔的棉花糖实验相似，实验人员给每种动物两个选择：一个是即时的小奖励，一个是延迟的大奖励。动物们必须用爪子或嘴触动控制杆才能得到奖励。通过长期的训练，动物们会了解延迟的时长，以及触动哪个控制杆能得到多少食物。实验人员通过改变延迟的时长以及奖励的大小，来预测动物的时间偏好。大多数实验发现，动物的行为也符合会让人们产生偏好反转的贴现率的特点。动物的贴现率符合双曲函数的特点，并且也存在自我控制问题！^[2]

安斯利的论文还用很大篇幅讨论了解决自我控制问题的不同策略。其中一种方法是承诺，比如前文提到的拿走腰果或把自己绑在桅杆上。另一种方法是提高屈服于诱惑的成本，比如，如果你想戒烟，你可以写一张大额支票给一个经常能看见你的人，如果他看见你抽烟你就要给他兑现支票。你也可以与自己打赌，安斯利将这种做法称为“自己单方押注”。你可以告诉自己：“除非完成（你可能想延迟完成的任务），否则今晚不准打开电视看比赛。”

在斯特罗茨、米歇尔和安斯利的启发下，我开始建立概念框架来讨论这些仍被经济学家视为经济学领域的问题。我想问的一个重要的理论问题是：如果我知道自己的偏好将会改变（我不会像自己想的那样，只吃几颗腰果，而是吃掉整碗腰果），那么何时以及为什么我会采取措施限制自己未来的选择？

我们都有改变主意的时候，但是一般来说，我们并不会采取非常手段去阻止自己偏离最初的计划。你想要坚持原计划的唯一原因在于，你有足够的理由认为如果你改变自己的偏好，将会是一个错误。

拿走腰果是很明智的行为，因为吃掉整碗腰果会破坏你的胃口，而且你也不愿意让自己的晚餐被腰果毁掉。同样，米歇尔的棉花糖实验中的孩子也可以聪明地告诉实验人员：“下次当你有奥利奥要发放的时候，请不要给我‘现在可以吃一块”的选项，甚至不要提到奥利奥这个词。只要在15分钟后把三块奥利奥拿给我就好了。”

在思考这些问题的过程中，我偶尔读到了社会科学家唐纳德·麦金托什（Donald McIntosh）的一句话，它对我影响很大。“如果我们不假设思想中含有一个以上的能量体系，并且这些体系从某种程度上说是彼此独立的，想要做到自我控制就是自相矛盾的。”这句话源自《人类社会的根基》（The Foundations of Human Society）这本鲜为人知的书。我不记得是怎么读到这句话的，但在我看来这句话显然很有道理。从本质上说，自我控制意味着冲突。就像探戈舞一样，（至少）要两个人才能跳。也许我需要建立一个包含两个自我的模型。

虽然这一想法很吸引我，但任何双重自我模型都有一个不利之处：经济学家认为它太激进了，心理学家则认为它太过时了——从没有绝妙的结合。几乎没有经济学家意识到亚当·斯密对“激情”和“公正的旁观者”的论述，我刚开始做这项研究时也是如此。对大多数经济学家而言，这种想法是怪异的，而当时的心理学家也不再追捧弗洛伊德（Freud）的本我、自我与超我。另外，现在流行的双系统模型当时尚未出现。^[3]因为有所顾虑，我悄悄地在朋友圈中阐述我的想法。该理论的雏形出现在我的《消费者选择的实证理论》一文中，但我知道我需要一些更正式的方法，从经济学理论角度讲就是可信的数学方法。因此，我找到了当时也在罗切斯特大学任职的数理经济学家赫什·谢弗林，请他做我的合作伙伴。

多年来，我和很多人合作过，赫什是我的第一位合著者。他擅长数学，当我们开始讨论这些问题时，他不认为我的想法过于疯狂。其实赫什的想法更重要，因为很容易找到数学比我好的经济学家。我和赫什在很多方面都截然不同，赫什严肃、严谨、勤奋，有宗教信仰，甚至学习过百科全书式的古老犹太法典《塔木德》。而赫什的这些优点我一种也没有，但我们仍相处得十分融洽。最重要的是，赫什会被我的笑话逗乐。我们在一起工作时，就像卡尼曼和特沃斯基一样，可以无休止地谈话。当我们开始起草第一篇论文时，对每句话都会充分讨论，这和我之前看到的卡尼曼和特沃斯基的工作状态一样。当我们同在罗切斯特大学期间我们开始了研究，但随后我去了康奈尔大学，赫什则去了阳光明媚的南加州的圣塔克拉拉大学，那里离斯坦福大学不远。虽然我们只合作了两篇论文，但赫什已经迷上了行为经济学，并且很快与他在圣塔克拉拉大学的同事、行为金融学家迈尔·斯塔特曼（Meir Statman）开启了极为成功的合作之旅。

我们的模型其实建立在一个隐喻的基础上。我们提出，在任何时候一个人的内心之中都有两个自我，一个是具有前瞻性的“计划者”，他关心未来并且有很好的打算；另一个是不顾一切的“行动者”，他只活在当下。^[4]这种行为模型的关键问题是，如何描述两个自我之间的关系。一种方法是利用数学和经济学的分支“博弈论”作为核心模型，让相互作用的计划者和行动者扮演博弈双方。但我们否决了该方法，因为我们认为行动者不会参与决策。他更像一个活在当下、具有激情的人，他会对摆在面前的事物做出反应，不断消费直到满足为止。相反，我们根据组织理论选择了委托–代理模型。我们之所以选择这个模型，毫无疑问是受到了代理理论的影响，我在罗切斯特大学商学院授课时该理论正是学者们讨论的热点。1976年，迈克尔·詹森和时任商学院院长的威廉·麦克林已经就此话题写了一篇很有名气的论文。我不知道他们会不会同意我们这样应用他们的理论，但这正是有趣的地方。

在委托–代理模型中，委托人是老板，通常是一家公司的所有者，代理人则是老板授权做事的人。在一家公司中，代理人知道的比委托人多，但委托人如果监视代理人的所有行为，代价就会很高，情势也会变得十分紧张。在这种模型中，代理人尽可能付出最小的努力去赚到最多的钱。相应地，公司会采取一系列规定和手段（比如激励方案和记账系统），尽可能降低因委托人和代理人之间的利益冲突而产生的成本。例如，销售人员的薪酬以佣金为主，他们必须上交记录出差费用的发票，并且不得乘坐飞机头等舱。

在我们注重个人内在特征的模型中，代理人是一组寿命很短的行动者。具体说来，我们假设每个时间段，比如每天，都会有一个新的行动者。该行动者想要享受生活，十分自私，根本不关心未来。相反，计划者是奉行利他主义的。她^[5]所在意的是一系列可以从行动者那里获得的效用。（我们可以把她想象成仁慈的独裁者。）她希望所有行动者从整体上越快乐越好，但她也要对行动者的行为实施一定的控制，尤其是在行动者的欲望被激起时，比如食欲、性欲、喝酒的欲望，或者天气晴朗时突然想出去闲逛一天。

计划者有两套方法可以用来影响行动者的行为。她可以用（金钱或其他方面的）奖惩措施来影响行动者的决定，但同时将决定权留给行动者；她还可以实施强制性措施，比如承诺策略，来限制行动者的选择。

让我们举一个精心设计的简单案例。假设哈里（Harry）独自在一个偏远的小木屋里野营，与外界断绝了一切联系。一架小型飞机送他到达那里，将在10天后接走他。一开始他有很多食物（水也是充足的），但是一头饥饿的熊来到这里，几乎吃掉了所有食物，只留下10根能量棒，可能是它没有注意到能量棒，抑或是能量棒不合它的胃口。因为无法与外界联络，哈里又不擅长寻找食物，在飞机来接他之前，他只能依靠这10根能量棒过活。当然，哈里的头脑里也有一个计划者和一个行动者，计划者会如何处理这个问题呢？

假设计划者对待每个行动者的消费都是公平的（所以不会对未来行动者的消费进行贴现）。食物给行动者带来的边际效用是递减的，也就是说，第一根能量棒比第二根带来的快乐更多，以此类推，当他吃到的能量棒不能再带来任何快感时就会停下来。在这种情况下，计划者会认为最好的做法就是一天吃一根能量棒，这样10个行动者都会获得同样的效用。^[6]换句话说，计划者会像理性经济人那样，如果按照生命周期假设，将会平均分配能量棒。从某种程度上说，计划者会尽量使行动者像经济人一样行事。如果技术上可行，计划者会采取承诺策略，不让行动者有自由选择的机会，从而消除异常行为的风险。如果小木屋里有10个可编程的保险箱，每个保险箱都会在特定的时刻打开，这种情况最理想。^[7]从计划者的角度讲，这可能是最好的结果。

但是，这间小木屋不可能有这些保险柜，在这种情况下计划者会怎么做呢？如果把10根能量棒都放在橱柜里，可以随时拿来吃，那么会发生什么情况呢？如果计划者不干预，第一个行动者就根本不会关心未来行动者的福利，他会一直吃，直到吃饱为止；也就是说，直到再吃一口能量棒就会减少他的幸福感为止。我们假设这发生在他吃了三根能量棒之后。第二天，行动者又吃了三根能量棒，第三天的行动者也是一样。当第四天到来时，行动者早餐时吃了一根能量棒，也是最后一根，他很快就饿了，剩余的时间再也没有任何快乐而言。

不管怎样，计划者都会防止行动者在最初几天狂吃能量棒。如果没有承诺策略可实施，在我们的模型中，计划者唯一可以使用的方法就是“内疚”。通过计划者或是父母、社会的教导，行动者会因为不给未来的行动者留些吃的而备感内疚。不过，实施这一方法的代价很高。在能量棒这个例子中，计划者不可能在行动者吃掉第一个能量棒时就让他感到内疚。

在图6中，峰值最高的那条曲线代表吃能量棒没有任何内疚感的行动者所获得的效用，这时行动者会吃到效用最大时为止，即吃完第三根能量棒的时候。第二高的那条曲线表明，因为产生了一定的内疚感，行动者吃完第二根能量棒后就不再吃了，而峰值最低的那条曲线表明，行动者吃完第一根后就不再吃了。我们需要注意一点，当运用了“内疚”的方法时，生活的乐趣就减少了，因为让行动者少吃能量棒的唯一方法就是减少吃能量棒的快感。另外一种思考方式是“运用意志力是需要努力的”。

图6 吃能量棒的快感

以上分析说明，如果可以建立和推行完善的规则，生活会更加美好。使用可编程的保险箱，每个里面存放一根能量棒，这会比让人产生内疚感的吃法更令人满意。斯特罗茨也做到了这一点，他让雇主将年薪按12个月平均发放，即从当年9月到第二年8月，而不是从当年9月到第二年5月按9个月发放。如果按照后者支付，钱就会更早到账而被花掉。但是，他必须在每个学年存足够的钱，以备暑期之需，以及用于家庭度假了。

那么，我们为什么不凡事都使用规则呢？其中一个原因是，从外部强加的规则并不容易建立。即使你每晚订一份健康外卖到家，但仍然没有什么能够阻止你再订一份比萨。另外，即使有类似的规则，它们也缺乏灵活性。如果斯特罗茨教授选择分9个月领取薪水，钱到账更早，他就可以利用这些钱买一些冬季打折商品，比如一台新的割草机，这些商品在夏天时的价钱更高。但是，如果分12个月领取薪水，他可能就没有足够的预算去买那台割草机。当然，从另一方面说，如果他想早点儿拿到钱，就必须有足够的自制力，才能让钱一直花到明年夏天。

同样的方法也适用于公司。如果委托人明确知道代理人在各种情况下应该如何做，她就可以制作一份规则手册，不允许代理人违反这些规则。但是，假设有一个层级较低的代理人，他完全按照规则手册去完成工作，毫无决策权。如果他遇到一件明显应该做的事，但因之前没有预见到，所以是规则“不允许做的”。碰到这种情况时，我们肯定都会觉得很懊恼。

当然，公司和个人还有其他控制方法，比如记录每项支出。在公司里，这些方法被称为记账。同样，正如我们前文提到的，人们会使用心理账户，再借助信封、玻璃罐、退休金计划等，以达到同样的目的。因为人们不会像理性经济人那样认为金钱是可替代的，所以这些记账策略是可行的。

我要郑重说明一点，我和赫什并不认为人们的心里真的有两个自我。这只是一个假设性模型，意在提供一种有用的方法来研究自控力问题。因为有人认为计划者位于大脑前额叶皮层，该区域与有意识的理性思考有关，而行动者位于大脑边缘系统，所以在撰写第二篇论文时我和赫什加了一个脚注。对于了解双系统模型的人来说，以卡尼曼在《思考，快与慢》中描述的模型为例，我们可以认为计划者属于重在反省与深思的慢系统（系统2），而行动者属于以冲动与直觉为特点的快系统（系统1）。神经学的最新研究对这种解读提供了支持，但是，从实用性角度来讲，该模型是否具有心理学依据并不重要。这只是一种比喻，有助于我们了解如何将自控力问题融入经济学研究中。

现在，我仍然认为计划者–行动者模型是帮助研究自我控制问题最有用的工具，但这并不一定是下一代行为经济学家喜欢的标准模型。1997年，哈佛大学行为经济学家戴维·莱布森（David Laibson）发表了他的博士论文，率先提出了选择模型。还有两位经济学家马修·雷宾（Matthew Rabin）和泰德·奥多诺休（Ted O’Donoghue）详细阐述了这一方法。现在大多数经济学家只用两个罗马字母β和δ表示这一模型，β和δ代表模型中的两个重要变量。与计划者–行动者模型相比，β-δ模型最大的优势在于其数学简约性。该模型在萨缪尔森模型的基础上做了尽可能小的改动，描述了自我控制这一重要的问题。

现在我们通过一种简单方法来看看β-δ模型的原理。假设对于未来的任意时间段而言，一个人不会进行时间贴现，也就是说贴现率为零。注意，此处的“未来”与现在距离很远，不能算作“稍后”。不过，“现在”的任何事物都是效用很大且极具诱惑力的，而“稍后”的任何事物的效用仅有现在的一半。用前文提到的温网比赛为例，今年第一轮比赛的效用值为100，而明年或者以后的比赛效用将仅为50。这是因为与稍后的时间相比，经济主体过于看重现在，从而产生时间偏好的动态不一致性。

即使在这个高度简化的模型中，也可以说明跨期选择的很多微妙而有趣之处。这些微妙之处部分取决于人们是否意识到了自我控制问题。当戴维·莱布森撰写第一篇此类论文时，他假设经济主体都是“十分老成练达的”，也就是说，他们知道自己有这样的时间偏好。作为一名研究生，想用一篇有关行为经济学理论（当时该领域基本上无人知晓）的论文找到工作，戴维这样描述他的模型是很明智的。戴维模型中的主体属于纯粹的经济人，除了一个细节之外，即他们的时间偏好都存在问题。当奥多诺休和雷宾决定加入对这一领域的研究群体时，他们采用了更为激进的方法。在他们的模型中，主体都有对现在的时间偏好但却不自知，这样的主体被视为“天真的人”。

这些简单模型都未能完全准确地描述人类行为，这一点儿也不奇怪。他们三人认为，“真理”其实位于两个极端之间，即部分“天真”，对此我表示认同。我们大多数人都意识到自己存在自我控制问题，但却低估了这些问题的严重性。我们究竟处事有多老练，对于这个问题我们想得都太天真了。尤其是，我们都有乔治·勒文施泰因所说的“情绪温差”（hot-cold empathy gaps）。当我们处于冷静、沉思的情绪中时，比如思考周日刚刚把早饭和午饭合为一顿大餐后，周三晚餐应该吃些什么——我们会认为这一周都能坚持低热量的健康饮食。但是，周三晚上，当朋友建议去一家新开的以精酿啤酒为特色的比萨店时，我们随即放弃了原来的节食计划，最后吃喝的东西比周日预期的要多，甚至比周三到达比萨店前预期的也要多。比萨店里，诱人的香味从烤炉里飘出来，还有吸引人眼球的酒单。在这种情况下，我们也许需要一个计划者为我们制定一条规则：周一到周五不准喝啤酒，不准出去吃比萨，然后再想办法执行这条规则。

从我第一次拿走那碗腰果开始，行为科学家对自我控制问题的研究便越发深入。经实践证明，这些知识对解决很多重大社会问题都是十分重要的，我们会在后文中继续探讨。

[1] 奥德修斯其实并没有那么聪明，他是听从了草药女神喀耳刻的建议才这样做的，这是显而易见的事实。

[2] 有些研究人员也用棉花糖或奥利奥饼干在动物身上做了类似的实验。大多数动物都选择了即时奖励，但是有一只聪明的名为“格里芬”的非洲灰鹦鹉则表现出了较好的自控力。

[3] 卡尼曼在《思考，快与慢》中提出的双系统模型，与他和特沃斯基最初的研究方法有所不同。卡尼曼写这本书的主要原因是，双系统模型为阐述他们的早期研究结果提供了一个新的视角，这个框架中一个是快速、自动的系统，另一个是缓慢、自省的系统。

[4] 在我之后，托马斯·谢林紧接着开始研究这个话题。我们的观点十分相近，但他并不像我那样坚信具有远见的一系列偏好更可能是“正确的”。可参见谢林1984年的研究。

[5] 特沃斯基总是将计划者看成女士，为了表示对他的敬意，我也遵循这种指代方法。因为一般来说，男性比女性更像行动者，所以我用“他”来指代行动者，要说我有性别歧视就请便吧。

[6] 随着时间的推移，按照一天一根能量棒的吃法，行动者会越来越饿，但为了简便起见，我在这里忽略了这种可能性。

[7] 这种技术确实是存在的。厨房保险箱（The Kitchen Safe）是一种塑料容器，使用者可以在上锁后设置任意打开时间。制造商建议，可以用此款保险箱锁上任何诱惑人的东西，包括糖果、智能手机、车钥匙等。有一位很体贴的学生送了一个给我，里面自然装满了腰果。而在由理性经济人组成的世界里，绝对不需要这种产品。

第12章 计划者与行动者

第12章 计划者与行动者

图6 吃能量棒的快感

第12章计划者与行动者

第12章计划者与行动者