博弈论连锁店悖论
⑴ 谁知道《博弈论的诡计》啊
国内最好的一本关于博弈论的普及书,2007和2008年连续两年的“中国图书榜中榜”科普类的第一名。
书评《博弈论的诡计》
小磨咖啡 / 挑灯看剑May 7th, 2008聿之
研习一下博弈论,已然是一个夙愿了。博弈论好歹也是我大学之后听闻的第一个伟大的经济学理论了。倒不是经济学的课堂,而是思修课上放映的《美丽心灵》。这一部当年击败《指环王》并维护了奥斯卡“良知”的影片,确乎给我们这些初入经济学的小生,影响是莫大的。而博弈论更是一些人即将并一直热衷的一个分析工具。
出纳什和博弈本身的神奇经历,一直想有所了解。不过,作为一门经过严谨数学证明的理论,要深入其中,却也必定是艰难的。在图书馆转了一圈,在两分类中发现博弈论的踪迹:经管类与数学类。无论哪一种,都是些许专著,有那么点令人头疼的专著。幸好,倒是在数学类的夹缝中瞧见一本《博弈论的诡计》的白话书,对于只知囚徒困境以及以牙还牙的我对说,倒确是一本不错的书。
《博弈论的诡计》提要与思考
囚徒困境:这个简单的例子,几乎是博弈论的代名词。两个基于“坦白从宽,抗拒从严”审讯的囚徒,从理性的角度出发,会产生怎样的结局?结果若是,从个人理性并追求个人利益最大化,那么二人皆坦白,也就是背叛。这在四种策略中并不占优,那为什么不采用集体最有策略呢而合作。很简单集体的优化,必然侵害个人利益的最大化。当然这一切前提是理性假设,也就是著名的经济人假设:经济学中的人都是“小人”(管理学则认为人是“君子”,有意思而有道理的比喻)。破解这一困境的途径则是打破信息孤立,而执法者的反制则是维持孤立或者加强威胁。无论背叛还是合作,谁在这里面坚持到最后,谁将取胜。
重复博弈:囚徒困境,砸了传统经济学的场子。因为个人的自利行为,并不一定导致集体利益的最大化,“看不见的手”拉不住,人类向堕落之城下滑的趋势,难道这真是一个悲哀?索性并非如此,撇去博弈论的理性假设不说。博弈论者很快发现囚徒困境只在单次博弈情形下明显,一旦博弈的开始陷入重复,合作将到来。因为,未来的收益将左右目前的决策。
以牙还牙:重复的博弈理论上导致了合作的产生,但是谁也不能保证合作的继续,因为之前已经说过,合作的代价是建立在损害个人利益基础之上的。如果个人放弃未来收益或当前背叛收益大于未来收益,背叛的风险仍然存在。那么在重复博弈中怎样的策略才是最优。若干睿智而复杂在经过计算机中PK之后,极其原始的“以牙换牙”策略脱颖而出,固然这个策略简单至极,其威力却无穷,以至于人们在短暂的欣喜之后,发现这把太阿指之剑倒持的可怕,一旦重复链条中出现一次(也许不经意的)背叛,那据此原则行事的博弈将永无止境的背叛下去,个人利益极度膨胀的同时,集体利益无限衰微。幸好,这个世界不是模型,也不是如此简单。很多时候,我们不必以牙还牙,第三方的规范:道德与法律就是我们的假牙,他们更加有利、有理、有节。
人质困境:一场憋屈的博弈。抢打出头鸟,人质联合固然可以制服歹徒,但是谁愿出头。这一点给了无数处于劫持者地位的一方以机会,类似于秦的远交近攻、各个击破的策略,将最终全盘赢下。人质可有反制的策略,当然有,不过艰难至极。人质可以选择沉默,这样他有一定时间苟延残喘;或者联合劫持者对付人质,结局还是取决于劫持者,万一他过河拆桥怎么办;同时反抗,集体将获得左右策略,但是这需要壮士断腕的勇气,部分人可能因此受伤。这里是实力与勇气的较量,而且实力暂居上风。
酒吧博弈:如果人人理性,那么每一天到达酒吧的人数将是差不多正好的,但是人非圣贤,往往是有限理性的。第一次到酒吧的人多,那么大多人人认为酒吧人太多,太挤。第二次决定的时候,参考前次而不去酒吧。少数去的人发现酒吧的人第二天很少,感觉很爽,第三次将继续回来,并重新带回许多人……循环就此开始。酒吧博弈一方面显示,现实的博弈参与者,是极其有限理性的,其理性只前延后伸一小段。历史数据只对计算机有用,对人,则不一定。
另一个方面,酒吧博弈指出,胜利者永远只是少数。尽管酒吧存在调谐的可能,譬如发短信时时提醒,但成本恐怕太高。而在其他场合,少数派可能更加会设置种种障碍阻止后进者的上升。也就是说,我们的世界仍然是操弄在少数派的手中。不过,总算这个世界不是模型,少数派的道路到底还是有迹可循的。老练的将军仍旧会在八卦迷阵中找到唯一的生门。若你想要,必须做一个更加老练的将军。
枪手博弈:王者的悲哀。三人对枪自决,甲乙丙枪法优劣递减。最后无奈而神奇的结局,将不取决于同时开枪还是先后开枪,最优良的枪手,倒下的概率将最高;而最蹩脚的枪手,存活的希望却最大。因为没有人会把威胁最小的枪手列为一号清楚目标。在这里,后发制人的弱势者将胜出。以弱胜强,绝不是神话。
难道王者的命运就真如此不堪,呵,道别忘了每个理论模型都是有其前提的,击破之中任何一个,王者仍将归来。这就是先发优势。假设这是一场类似CS的竞技,优秀的枪手击倒二号枪手,立刻获得奖励:盾牌。那么三号枪手将陷入绝境。不过,不管怎样,这个博弈模型,到底给了弱势者一份希望。机会永远存在。
猎鹿博弈:两个猎人合作猎鹿获得的收益将远大于分别猎兔的收益,战略联盟将开始。这或许是件好事,不过有取决于最后猎获的鹿——这一公共资源的分配,如果分配得当,整体的效率将增加。如果一方主导,另一方受损,那么帕累托改善无法进行,合作可能终将破裂。
另外一个问题,更加大局的问题。合作的示范性将使得更多的猎人加入,猎获的鹿将大大增加,人类的利益短期内将呈几何级数增长。但是最后,确是生态失衡,鹿群灭群。短暂的繁华之后,猎人将再一次回归于原始猎兔生活。尽管为了避免这一悲剧,人类还有最后的希望:制度经济学的法宝——科斯定理以产权归属来解决外部经济问题。但由于谈判成本以及可行性,人类社会的公共悲剧仍将不断上演。
智猪博弈:混沌之前最后的博弈。小猪和大猪住在猪圈的一边(食槽在这里),开启食物的开关在另一头,谁去踩,谁丧失先机。结果怎样?是小猪选择“搭便车”,大猪勤跑。因为小猪无论跑还是停,大猪的最优策略都是策略都是去踩机关。不过在实际生活中。这里依旧存在两种策略。
小猪的“搭便车”。大猪有的时候,自觉或不自觉地自封“侠之大者,为国为民”,并因此承受一些不能承受之重。《博弈论的诡计》指出美国战后的行为极似大猪,战后的美国竭力宣传自己的普世价值观,并深入到海外事务,甚至不惜重金协助小国防务。这样小国不自觉地对大国进行了“剥削”。
大猪在击破模型的一个假设之后,仍然有一个后发制人的机会。因为大猪和小猪的耐饿能力不一样,大猪完全有能力撑得更久,小猪如果不想饿死,那只有一条豪赌的路子:龟兔赛跑式的豪赌,但愿大猪打了个盹儿,他回来的时候,还能吃上一两口,要不然真是赔了夫人又折兵了。据此,再也不难解释为什么很多人切齿的腾讯,毫无顾忌地跟风,做QQ旋风,做拍拍,做滔滔。因为不甘心的小猪早早把新技术研发的前期搞定了,大猪们只需要悄悄跟随,适当的时候踢开挡路的,就可以了。
大猪在这里的后发制人和枪手博弈的后发并不一致,枪手后发是建立在他人恶斗的基础上,大猪后发完全是以自身实力为基础。而且大猪完全不必采取任何激进措施,只要跟随就好。因为小猪获胜的条件不是接近,还是距离。
警察与小偷:令人沮丧的博弈结局。警察和小偷各只有一个机会去巡查或者偷盗A地或B地。A地的价值大于B地,那么警察应该为了保护价值大而一直保护A地吗。博弈论认为当然不是,警察的合理策略应当是有倾向于A以一定概率的随机巡查。这个概率就是:p=A地价值/AB地总价值。这种情况下才能使小偷最大得手几率降至最低。但是很不幸的是,此时的小偷谋求的是,最小得手几率的最大化。也就是说,警察的最优策略将把小偷的最差策略改良!这个便是冯·诺伊曼提出的“最小最大定律”。
我们必须再一次感谢这个不完美的世界,因为现实之中,类似的现象,对于一方仍然可以设法找到对手致命的规律性行动(当然必须考虑到对方是不是一个更加老练的猎手,故意放出的诱饵)。而保持自己的行动的无序性,则有可能成为欺骗策略的武器,这倒似张三丰所言道的:无招胜有招。
斗鸡博弈:两只斗鸡在决斗的时候,无论选择进或退都是一个难题,因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下,死拼将是得不偿失的,因为很可能给第三者机会。因此,两个已经在战场的强势力很可能自觉的遵循纳什均衡,当一方攻击时,另一方暂退。虽然可能某方暂时受损,但较之于两败俱伤是好得多的。不过,要维持这一状况,必须保证下一次先期受损的一方发动攻势的时候,另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”,没有人真正流血。这只不过是两个巨头玩弄的游戏,目的是警告后来者,想进来,那么也得陪我们一起玩,可是你玩的起么?这正是百事的广告,即使暗含挑衅也最多只到“敢为中国红”这样的地步的原因。
协和谬误:欧洲政府在大量投资协和飞机后,终于不能自拔。即使前景黯淡,也撑着面子投下去,非要走头无路才放弃。而这时投入的成本已经全打水漂了。如果,发现不能继续的时候,就果敢放手,损失会小得多。可是他们会、能这么做么?壮士断腕,是何等的壮烈,却也是何等的艰难!
沉没成本很可能会延续人们无畏的坚持。已经沉没的本该放弃,可惜大部分有赌徒式的心理,相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的支点之前,已经窒息了。
协和谬误,倒是给了人们半途而废的理由,会不会有人担心它的滥觞会左右一些本该坚持的目标?的确有这个可能,但是应该相信人们足够理智,完全可以比较沉没成本、机会成本与未来收益的关系。看清了的,必定会坦然地走出协和谬误。
蜈蚣博弈:一场颠前倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略,因果相报,把握好因缘,自有好结果。它的另一个好处,就是使得未来的计划明晰化,是你不再徘徊。只可惜,很多时候,碌碌无为的我们并没有看透迷局的眼睛。我们黑色的眼睛只习惯于黑夜。
蜈蚣博弈也有一个致命的悖论,仍旧是个人利益和集体利益的冲突,因为最后一次的背叛收益始终优于合作。可悲的是,这一次背叛将由于人性的理智,穿越时光隧道,回到原始的地点:人们将从开始就拒绝合作。还是感谢我们这个不完美的世界吧,事实上人们很少这样做。当然合作到最后的也很少,这意味着,倒推法只在中间阶段突然发生了作用,只不过谁也不能预测,中间一步在哪里。在那里,我们只有冀望信任、道德、良知等等。
分蛋糕博弈:两个小孩怎么分蛋糕?经典的故事,经典的解答:一个分,一个选。现实多如此,权利的合理分配将有效促进公平与效率。经营权与所有权的分置的确使得经济更加活力。不过分蛋糕的进阶模型却强调了讨价还价的策略,分蛋糕不是一次性的,而是多回合的,而且出现成本:蛋糕在融化。
时间称本的加入,将使得分配变得复杂化。双方如果不能及时达成交易,不仅集体的收益将减量,而且个体的收益也将减少。在此情况下,利用时间称本以及威胁、承诺将对其中一方极其有利。顾客可能迫于情势,必须尽快结束谈判,这时卖方却不慌不忙,故意拖延,顾客一方将不得不在价格上作出妥协。
顾客一方当然也有策略,它的策略就是货比三家,要求承诺或威胁。这个前提是买方市场的存在。顾客还应当保护自己讨价还价的能力,这就是顾客有权投诉商家。
鹰鸽博弈:这个博弈很多人等同于斗鸡博弈。不过,斗鸡是两个兼具侵略性的个体,鹰鸽却是两个不同群体的博弈,一个和平,一个侵略。在只有鸽子一个苞谷场里,突然加入的鹰将大大获益,并吸引同伴加入。但结果不是鹰将鸽逐出苞谷场,而是一定比例共存,因为鹰群增加一只鹰的边际收益趋零时(鹰群发生内斗),均衡将到来。
由此产生了ESS进化上的稳定策略,也就是说一旦均衡形成,偏离的运动会受到自然选择的打击。也就是鹰群饱满后,再试图加入的鹰将会被鹰群排挤。
进化上的稳定均衡最大的好处莫过于保持稳定。但问题在于形成强势的路径依赖,也就是胜出的不一定是最好的。因为最好的会被当作出头鸟干掉,这是个体的失败,集团的胜利以及集体的止步不前。
脏脸博弈:恍然大悟的博弈。三个人在屋子里,不许说话。美女进来说:你们当中至少一个人脸是脏的。三人环看,没有反应。美女又说:你们知道吗?三人再看,顿悟,脸都红了。为什么?因为美女后一句废话点破天机,三个人都知道脏脸的存在,而且推测知道对方也知道了脏脸的存在(因为另两人脸没红,说明他们看到脏脸了),而且知道对方知道自己已经想到上一步……循环开始,知识开始共同化,真相大白:三个人都是脏脸,所有人都脸红了。
这就是共同知识的作用,它的作用显得有点可怕的强大。几乎是一招无影腿,杀人不见血。在台面上的博弈之前,私下的算计已经置对手于死地。不过,很可能对方也预料到这一点,早也想到这一点,同时杀来。终于,形成双死局面。
当然,现实虽然存在类似现象,不过共同知识更大的作用在于减少交易成本。因为某些规则人尽皆知,双方只要各自依之行事就可以了。
信息均衡:很想然,信息的作用在博弈之中非常重要。将博弈论还原到现实,人们不再完全理性,信息存在不对称,博弈就需要在抢占信息高地上作出努力。
信息不对称,是一个很大的障碍。信息的不对称会造成“逆向选择”和“道德风险”,前者事前,后者事后。信息不对称短期内对某一方会有利,但最终会破坏整个市场。于是有两个解决策略。
信息传递:传达你的正面的信息的策略,也就是说吸引顾客走到你的柜台面前。它的要点是保持有效、减低成本。
信息甄别:诱导对手暴露其私下拥有的真实信息。就是给顾客一个放大镜,保证顾客不会走到其他柜台去。这种策略显然更加有效,不过风险也更大:万一顾客用放大镜看出了了自己的瑕疵怎么办?
再介绍一篇评论:王春永《博弈论的诡计》
标签:王春永 博弈论的诡计 历史 文化
我们每天生活在博弈中,博弈论只是用数学的办法解释了我们长期进行的博弈。即使这样,当我们看到数学推演出的结论时,也不免目瞪口呆。
虽然每天博弈,但因为复杂的因素,我们常常看不清楚实质。按照直觉出牌,时常落入别人的算计。或许此书能帮我们解决些问题。本书涵盖范围很宽,大到人生抉择,小到一日三餐,用博弈的眼光解释了我们一生中的各类问题,包括职业,交往,爱情,经济,时间管理等等,有时让你忘记了这是本博弈论的书,还以为是成功学。但说起来,博弈还不是为了成功吗?
书里内容很多。作者恰当的将博弈理论、试验案例和历史、政治、文学、新闻、故事等等串联在一起,融会贯通,纵横肆意,文字优美,令人佩服。更有意思的是,每篇开头,作者都是引用一段流行歌曲(其中大部分我都不知道)的歌词作个引子,简直有些古典小说的结构意味了。在中国的教育体系下,研究数学的人有几人还会关注人文历史呢,更不要说关注流行了?而本书作者看来颇具阅历且阅读杂广,其中引用的不少东西都是近年来的新事物和新说法,想来都是敏锐的发现后总结到自己的研究中了。所以我每读到精彩处,都不免对作者的文理跨度感叹一番。
文字中常看到作者的一些抱负。他很聪明,把一些敏感的看法铺垫清楚然后一笔带过,读者自明。他常引用吴思先生的作品,但不像吴先生那么机锋。我想这也是博弈训练的结果。
书末尾的参考文献让人发笑。可能是觉得参考文献太少,作者竟然把罗贯中的三国演义也算在内充数。若是如此,他还引用的那些史记、通鉴等只怕就太感委屈了。本书其实引用极为丰富,若一一列出参考,作者要累死,所以就这样糊弄了一下吧。
⑵ 什么是博弈论悖伦高手进!!
以上的回答一看就是网页复制
博弈论我学过 虽解释的不是那么规范 不过可以就我所理解简单的说下
博弈论主要是教你如何运用科学的方法 对2种或2种以上不同的选择状况做比较 最后选择最优方案
而悖论就是说 一个理论(一般是公认的或成立的)在它成立的时候,可能又有与他的优点相反的另一面现象或状况的存在,这个对立面结论就是原结论的悖论
⑶ 求博弈论的国内外研究现状
博弈逻辑(game logic)是随着博弈论的迅速发展而形成的一个新的学科,它是一行动逻辑。博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。在博弈行为中存在演绎推理和归纳推理。正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中同样存在悖论或者“问题”。博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是否有效的问题。
1一种新的逻辑:博弈逻辑
博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。在此基础上,一种新的逻辑“博弈逻辑”(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。
博弈论研究多个理性人在互动过程中如何选择自己的策略。理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人——经济人。理性人如何使得自己的“得益”最大?关键是“推理”。
2博弈逻辑中的演绎推理与归纳推理
博弈论有两个假定:第一,博弈参与人是理性的;第二,博弈参与人的得益不仅取决于自己的行动,同时取决于其他人的行动。
每个理性的参与人在策略选取,使自己得益最大时,要充分考虑局中其他人的策略选取。同时,每个参与人知道其他参与人与他有同样的想法。在博弈中,“每个人是理性的”是公共知识(common knowledge),它是每个参与人进行策略选择或者推理的前提。
在1994年《美国经济评论》的题为《归纳论证和有界理性》一文中阿瑟提出了“酒吧问题”博弈,后来在1999年的著名的《科学》杂志上题为《复杂性和经济》一文又阐述了这个博弈。
酒吧问题是指这样一个博弈:有一群人,比如总共有100人,每个周末均要决定,是去附近的一个酒吧活动还是呆在家里。该酒吧的容量是有限的,比如空间是有限的,或者座位是有限的。我们假定酒吧的容量是60人,或者说座位是60个。如果去酒吧的人数少于60,并且他也去了,他的决定就是正确的;或者,如果去酒吧的人超过60人,而他没有去——当然这只有事后才知道,他的决定也是正确的。否则,其决定是错误的。
这里,我们假定他们之间不存在信息交流。我们看到,每个人根据对总的去酒吧人数的预测,而决定去酒吧与否。如果他预测去酒吧的人数超过60人,他将做出“不去酒吧”的决定,如果其预测不超过60人,他将做出“去酒吧”的决定。他们是如何做出预测呢?
5结语
逆向归纳法悖论只是博弈论中一个悖论而已,归纳的合理性也只是多主体互动时理性人进行归纳推理的一个问题。博弈论涉及许多关于推理的逻辑“问题”。本人希望我国有更多的逻辑研究人员参与到博弈逻辑的研究中来,逻辑学家参与到博弈论的研究定能够结出丰硕的研究成果。
⑷ 什么是连锁店悖论
连锁店悖论是指完全信息条件下的有限次重复博弈无法实现参与人之间的合作行回为。
莱茵哈德·泽尔答腾(Reinhard Selten)利用逆推归纳法,说明了在位者的多市场掠夺威胁不可信。而连锁店悖论是指完全信息条件下的有限次重复博弈无法实现参与人之间的合作行为。连锁店悖论(chain-store paradox)是正是由Selten提出的。
⑸ 用 博弈论 来解释一个社会经济现象
杂货铺定位博弈(霍特林模型)。
假定一条街上有两家商店A,B(A左B右),假定人们只去离自己最近的店买东西,这两家店该如何定位才能收益最大?
乍一看,A于街道的1/4点,B于街道的3/4点,似乎是最好的选择。但现实中,A肯定会不断的向右扩张,以最大化自己的利益,同理,B肯定也会不断向左扩张,最终的结局是,AB几乎都在街道的中间,即稳定的纳什均衡结局。
这个例子可以联系到经济活动中的“集群”现象。如某某商业群,某某金融一条街。你会发现很多相似的店子集中在同一个地区,你不用担心他们都挤在一起的话东西怎么卖的出去,实际上,每个成员都没有明显的优势也没有明显的劣势,而顾客们在这么多店里边也有很大的选择余地,从而使商家的利益最大化。
最近很热的集群创新概念也源于此例子。
PS:稍稍看点博弈论的相关书籍吧,没你想象的那么艰深,很容易找到你想要的答案的。
⑹ 博弈的博弈论
博弈论 又被称为对策论(Game Theory)既是现代数学的一个新分支,也是运筹学的一个重要学科。
博弈论 主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。博弈论已经成为经济学的标准分析工具之一。在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。基本概念中包括局中人、行动、信息、策略、收益、均衡和结果等。其中局中人、策略和收益是最基本要素。局中人、行动和结果被统称为博弈规则。
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军备竞赛、污染等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
⑺ 何谓“博弈论”,对于经商,管理有多大用处
.博弈论是指某个个人或是组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,在经济学上博奕论是个非常重要的理论概念。
什么是博弈论?古语有云,世事如棋。生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们 “出棋” 着数中理性化、逻辑化的部分,并将其系统化为一门科学。换句话说,就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上,博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化,通过建立自完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情,以最简单的二人对弈为例,稍想一下便知此中大有玄妙:若假设双方都精确地记得自己和对手的每一步棋且都是最“理性” 的棋手,甲出子的时候,为了赢棋,得仔细考虑乙的想法,而乙出子时也得考虑甲的想法,所以甲还得想到乙在想他的想法,乙当然也知道甲想到了他在想甲的想法…
面对如许重重迷雾,博弈论怎样着手分析解决问题,怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢?现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立,1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。对于非合作、纯竞争型博弈,诺伊曼所解决的只有二人零和博弈--好比两个人下棋、或是打乒乓球,一个人赢一着则另一个人必输一着,净获利为零。在这里抽象化后的博弈问题是,已知参与者集合(两方) ,策略集合(所有棋着) ,和盈利集合(赢子输子) ,能否且如何找到一个理论上的“解” 或“平衡” ,也就是对参与双方来说都最“合理” 、最优的具体策略?怎样才是“合理” ?应用传统决定论中的“最小最大” 准则,即博弈的每一方都假设对方的所有功略的根本目的是使自己最大程度地失利,并据此最优化自己的对策,诺伊曼从数学上证明,通过一定的线性运算,对於每一个二人零和博弈,都能够找到一个“最小最大解” 。通过一定的线性运算,竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤,就可以最终达到彼此盈利最大且相当。当然,其隐含的意义在於,这套最优策略并不依赖于对手在博弈中的操作。用通俗的话说,这个著名的最小最大定理所体现的基本“理性” 思想是“抱最好的希望,做最坏的打算” 。
2.在经济学中,“智*博弈”(Pigs’payoffs)是一个著名博弈论例子。
这个例子讲的是:*圈里有两头*,一头大*,一头小*。*圈的一边有个踏板,每踩一下踏板,在远离踏板的*圈的另一边的投食口就会落下少量的食物。如果有一只*去踩踏板,另一只*就有机会抢先吃到另一边落下的食物。当小*踩动踏板时,大*会在小*跑到食槽之前刚好吃光所有的食物;若是大*踩动了踏板,则还有机会在小*吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只*各会采取什么策略?答案是:小*将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大*则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?因为,小*踩踏板将一无所获,不踩踏板反而能吃上食物。对小*而言,无论大*是否踩动踏板,不踩踏板总是好的选择。反观大*,已明知小*是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。
“小*躺着大*跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。
如果改变一下核心指标,*圈里还会出现同样的“小*躺着大*跑”的景象吗?试试看。
改变方案一:减量方案。投食仅原来的一半分量。结果是小*大*都不去踩踏板了。小*去踩,大*将会把食物吃完;大*去踩,小*将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让*们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小*、大*都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小*和大*相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让*们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小*和大*都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
原版的“智*博弈”故事给了竞争中的弱者(小*)以等待为最佳策略的启发。但是对于社会而言,因为小*未能参与竞争,小*搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。
比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智*博弈”
增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小*”也有),一度十分努力的大*也不会有动力了----就象“智*博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
许多人并未读过“智*博弈”的故事,但是却在自觉地使用小*的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智*博弈”指标改变的个中道理。
3.背景知识:纳什博弈论的原理与应用
http://ent.sina.com.cn 2002年03月21日17:44 北京晚报
1950年和1951年纳什的两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石,后来的博弈论研究基本上都沿着这条主线展开的。然而,纳什天才的发现却遭到冯·诺依曼的断然否定,在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性,使纳什坚持了自己的观点,终成一代大师。要不是30多年的严重精神病折磨,恐怕他早已
站在诺贝尔奖的领奖台上了,而且也绝不会与其他人分享这一殊荣。
纳什是一个非常天才的数学家,他的主要贡献是1950至1951年在普林斯顿读博士学位时做出的。然而,他的天才发现———非合作博弈的均衡,即“纳什均衡”并不是一帆风顺的。
1948年纳什到普林斯顿大学读数学系的博士。那一年他还不到20岁。当时普林斯顿可谓人杰地灵,大师如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系主任)、阿尔伯特·塔克、阿伦佐·切奇、哈罗德·库恩、诺尔曼·斯蒂恩罗德、埃尔夫·福克斯……等全都在这里。博弈论主要是由冯·诺依曼(1903—1957)创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论,而且发明了计算机。早在20世纪初,塞梅鲁(Zermelo)、鲍罗(Borel)和冯·诺伊曼已经开始研究博弈的准确的数学表达,直到1939年,冯·诺依曼遇到经济学家奥斯卡·摩根斯特恩(Oskar Morgenstern),并与其合作才使博弈论进入经济学的广阔领域。
1944年他与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版,标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如,1838年古诺(Cournot)简单双寡头垄断博弈;1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断;2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽,其特点是零星的,片断的研究,带有很大的偶然性,很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法,奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而,诺依曼的博弈论的局限性也日益暴露出来,由于它过于抽象,使应用范围受到很大限制,在很长时间里,人们对博弈论的研究知之甚少,只是少数数学家的专利,所以,影响力很有限。正是在这个时候,非合作博弈———“纳什均衡”应运而生了,它标志着博弈论的新时代的开始!纳什不是一个按部就班的学生,他经常旷课。据他的同学们回忆,他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课,但纳什争辩说,至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者,可是,没上几次课,纳什就认定这门课不符合他的口味。于是,又走人了。然而,纳什毕竟是一位英才天纵的非凡人物,他广泛涉猎数学王国的每一个分支,如拓扑学、代数几何学、逻辑学、博弈论等等,深深地为之着迷。纳什经常显示出他与众不同的自信和自负,充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试,他的博弈论研究工作被迫中断,他感到这是莫大的浪费。殊不知这种暂时的“放弃”,使原来模糊、杂乱和无绪的若干念头,在潜意识的持续思考下,逐步形成一条清晰的脉络,突然来了灵感!这一年的10月,他骤感才思潮涌,梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文,1950年11月刊登在美国全国科学院每月公报上,立即引起轰动。说起来这全靠师兄戴维·盖尔之功,就在遭到冯·诺依曼贬低几天之后,他遇到盖尔,告诉他自己已经将冯·诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域,找到了普遍化的方法和均衡点。盖尔听得很认真,他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况,而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表,以免被别人捷足先登。纳什这个初出茅庐的小子,根本不知道竞争的险恶,从未想过要这么做。结果还是盖尔充当了他的“经纪人”,代为起草致科学院的短信,系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多,就那么几篇,但已经足够了,因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授,要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。
1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章,特殊的人才,必须有特殊的选拔办法。
纳什在上大学时就开始从事纯数学的博弈论研究,1948年进入普林斯顿大学后更是如鱼得水。20岁出头已成为闻名世界的数学家。特别是在经济博弈论领域,他做出了划时代的贡献,是继冯·诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献,都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。
囚犯的两难处境
大理论中的小故事
要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军奋竞赛、污染等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
价格战博弈:
现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论(vivalry game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。
污染博弈:
假如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。
贸易自由与壁垒:
这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制,比如提高关税,则Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如X和Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。
⑻ 博奕的博弈论
博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军备竞赛、污染等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。