囚徒困境的一个例子

以上例子看似不自然，但在现实中，人类社会和自然界都可以找到类似囚徒困境的例子，将结果划分到同一个支付矩阵中。社会科学中的经济学、政治学和社会学，以及自然科学中的动物行为主义和进化生物学，都可以用囚徒困境分析来模拟生物面临的无休止的囚徒困境博弈。囚徒困境可以广泛应用，可见这个游戏的重要性。以下是各行各业的例子:著名作家三重在他的散文《疯狂》中有这样一篇短文——《泡沫中的囚徒困境》。描述了2008年房地产领域的囚徒困境。

我们学习宏观经济学，一定会学习博弈论，学习博弈论一定会涉及到“囚徒困境”模型。我一直认为，在所有的市场博弈模型中，“囚徒困境”是最接近心理学的，是最能揭示善恶的，是最能体现集体智慧的。选择背叛还是合作永远是它不变的主题...

让我们来关注一下目前的房地产市场。一个大的“囚徒困境”已经出现在我们眼前。万科率先放弃了帕累托最优解。可想而知，在目前的市场环境下，其预期的博弈纳什均衡显然是未来困境中房地产开发商之间普遍的相互背叛。也就是说，万科在这个“囚徒困境”中选择了先下手为强。卖掉除它之外的所有地产商，是因为它预计，如果不尽快卖掉所有合作伙伴，它将面临被卖掉的结局。毕竟这是非零和游戏，卖出行为可以换来非常大的利益...

为什么我要在这里卑鄙地使用“背叛”这个词？回顾一下这n年来地产商创造的“攻守同盟”，就能明白我在第一财经频道因为“房地产行业是否存在暴利”、“房地产开发成本是否应该公开”等问题，一直面红耳赤的反对。我一直认为房地产开发企业存在暴利(至于在目前的市场环境下是否合理，可以看作者对2008年房地产市场的解读中的描述。当时几乎所有开发商都一致否认暴利的存在。更有甚者，潘先生害羞地把成本比作妻子的奶子，充分说明成本不能表现出来是自然的。当然也有万科的声音...今天的万科践踏了他曾经参与的“联盟”，跳出来用在实践中。

万科出卖同伴真的能获得个人的最大利益吗？理论上是可以得到的，但在实践中，最终可能会失算，因为在所有的实践中，“囚徒困境”的博弈都必须在信息极度不对称的封闭环境中产生结果，所有囚徒自身的恐惧和“理性决策”都是相互隔离的，这个博弈是不可重复的(道格拉斯创造。霍夫施塔特)。目前的市场环境已经反复不止一次了(海南，05全国，08深圳)，这种反复博弈最终会让所有参与者从困境中解脱出来，“囚徒困境”已经被彻底打破...

另外，最关键的一点是，在这场博弈中，政府也参与其中。他直接参与的环节在于源头，即土地的供给(租赁)，这将加速“囚徒困境”的打破，因为它与所有参与者有着本质的不同。政府是整个游戏的设计者，是监禁规则的设计者，是建造和拆除细胞的人。你很难想象，一个涉及政府的“囚徒困境”能被称为真正的“困境”。回头看万科，在所有被他背叛的所谓同伴中，有一个政府的身影...我这样说可能不确切。毕竟这不是一个理想的“囚徒困境”。犯人之间并不是相互孤立的，信息至少在行业内并不是极度不对称的。万科是否承担了某种使命？

最后，需求方也面临着“囚徒困境”，从邹涛的“不买房”到“万人买”可见一斑。

我认为房地产商乃至房地产市场最终走出“囚徒困境”只有两种可能。一个是上面提到的最杰出的囚犯如何行动，监禁自己还是赦免世界。另一种是所有的囚徒都明智地选择停止博弈，在重复博弈的过程中创造合作。在过去的几年里，他们做到了。现在，也许是时候再做一次了。他们需要的只是集体智慧。而那些被卖家偷走的蛋糕，恐怕也只能暂时延长卖家的寿命，但最终，他们以后连囚犯的资格都没有...就为了两个字，“信任”！

之后，也许“囚徒困境”会演变成另一种新模式，我称之为“重复博弈结果下的囚徒复仇”...两国在关税上可以有两种选择:

提高关税来保护你的商品。(背叛)

相互达成关税协议，降低关税，以便利各自商品的流通。(合作)

当一个国家因为某种原因不遵守关税协定，独自提高关税(背叛)，另一个国家也会做出同样的反应(背叛)，从而引发关税战，两国的商品会失去对方的市场，也会对本国经济造成损害(结果是* * *背叛)。然后两国达成了新的关税协议。(反复博弈的结果是发现和* * *合作收益最大。商业活动中也会出现各种囚徒困境的例子。以广告竞赛为例。

两家公司相互竞争，他们的广告相互影响，也就是如果一家公司的广告更容易被客户接受，就会拿走另一家公司的一部分收入。但如果他们同时发布质量相近的广告，收入增加很少但成本会增加。但是如果不提高广告质量，生意就会被对方抢走。

这两家公司可以有两种选择:

彼此达成协议，减少广告费用。(合作)

增加广告费用，尽量提高广告质量，压倒对方。(背叛)

如果两家公司互不信任，无法合作，背叛成为主导策略，两家公司就会陷入广告大战，广告费用的增加会损害两家公司的利润，这就是囚徒困境。现实中，两家相互竞争的公司很难达成合作协议，大多会陷入囚徒困境。在他的著作《合作的进化》中，罗伯特·阿克塞尔罗德探索了经典囚徒困境的延伸，并称之为“重复的囚徒困境”(IPD)。在这个游戏中，参与者必须反复选择他们彼此相关的策略，并记住他们以前的对抗。阿克塞尔罗德邀请了来自世界各地的学术同行设计计算机策略，并在一场重复的囚徒困境比赛中相互竞争。比赛程序的差异广泛存在于这些方面:算法的复杂性、初始对抗、原谅能力等等。阿克塞尔罗德发现，当这些对抗被每一个选择不同策略的参与者长时间重复时，从自利的角度来判断，“贪婪”策略倾向于减少，而“利他”策略被更多地采用。他用这个游戏来说明，通过自然选择，一种利他行为的机制可能会从最初的纯粹自私的机制演化而来。

最好的确定性策略叫做“以牙还牙”，这是Anatol Rapoport开发的一种方法，应用于锦标赛。它是所有参赛程序中最简单的，只包含四行基本语言，并赢得了比赛。这个策略只是在重复博弈开始的时候合作，然后采用你对手上一轮的策略。更好的策略是“以牙还牙”当对手背叛的时候，无论如何下一轮你都要小概率(约1%~5%)配合。这是鉴于偶尔需要从循环背叛的欺骗中恢复过来。当误传被引入游戏时，“对打击的原谅”是最好的。这意味着有时你的行为被错误地传达给了你的对手:你合作了，但你的对手听说你背叛了。通过对高分策略的分析，阿克塞尔罗德指定了策略成功的几个必要条件。

友好的

最重要的条件是策略必须“友好”，即在对手背叛之前不要背叛。几乎所有的高分策略都是友好的。所以，完全自私的策略，只是出于自私的原因，绝不会先打击对手。

报复

然而，阿克塞尔罗德认为，一个成功的战略决不能盲目乐观。总是报复。非报复性策略的一个例子是合作。这是一个非常糟糕的选择，因为“肮脏”的策略会残酷地剥削这样的傻瓜。

原谅

成功战略的另一个特质是它必须被原谅。虽然他们不报复，但如果对手不继续背叛，他们会一次次退回合作。这就制止了长期的报复和反报复，最大限度地提高了得分点。

不嫉妒

最后一个品质是不嫉妒，即不去争取比对手更高的分数(一个“友好”的策略必然是不嫉妒的，即一个“友好”的策略永远不可能获得比对手更高的分数)。

因此，阿克塞尔罗德得出了一个乌托邦式的结论:自私的个体往往是友好的，宽容的，不会因为自己的自私利益而嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的一个重要结论是，友好的家伙可以先完成交易。重新考虑经典的囚徒困境一节中给出的军备竞赛模型:结论是只有理性的策略增强了军事力量，似乎两国都宁愿把GDP花在枪炮上，而不是黄油上。有趣的是，试图证明对立国家实际上是以这种方式竞争的(在“重复囚徒困境假说”下，不同时期的军费开支都在“高”和“低”之间)，往往表明假设的军备竞赛并没有像预期的那样出现。(比如希腊人和土耳其人的军费开支，似乎并不遵循“以牙还牙”的反复囚徒困境，而更有可能是受其国内政策的驱使。这可能是一次性博弈和重复博弈中不同理性行为的一个例子。

对于一次性囚徒困境博弈，最佳策略(点数最大化)简直就是背叛；如前所述，无论对手的行动可能是什么，这是事实。但是，在重复的囚徒困境博弈中，最佳策略取决于可能的对手的策略，以及他们如何应对背叛和合作。例如，考虑一群人，其中每个人每次都背叛，除了一个遵循针锋相对策略的人。这个人因为第一轮输了，稍微处于劣势。在这样的人群中，这个人最好的策略就是每次都背叛。在总背叛者占一定比例而其余人针锋相对的人群中，个体的最佳策略取决于这个比例和博弈的长度。贝叶斯纳什均衡:如果可以确定对抗策略的统计分布(比如50%以打带打，50%始终合作)，那么就可以从数学上得到最佳的相对策略[4]。

曾经有一个蒙特卡罗模拟人群，低分个体消失，高分个体重复产生(一种获得最佳策略的天才算法)。最终人群中的算法合成通常依赖于初步人群中的算法合成。

尽管以牙还牙一直被认为是最可靠的基本策略，但在重复囚徒困境20周年之际，来自英国南安普顿大学的一个团队(由Nicholas Jennings [1]领导)，包括Rajdeep Dash、Sarvapali Ramchurn、Alex Rogers和Perukrishnen Vytelingum，推出了一种新策略，这种策略被证明比以牙还牙更成功。这种策略依赖于程序之间的合作，并为单个程序获得最高分数。南安普顿大学提交了60个方案参加竞赛。这些程序的开始被设计成通过一组5到10的动作来识别彼此。一旦做了这些鉴定，一个程序总会配合，其他程序总会背叛，保证叛徒得到最大的加分。如果程序认识到它正在操作一个非南安普顿参与者，程序将继续背叛以试图最小化竞争程序的分数。结果[5]，这个策略以获得前三结束了竞争，也获得了很多接近底部的位置。虽然这种策略显然被证明比针锋相对更有效，但这是因为它利用了这种特殊竞争中允许多个通道的事实。在一方只能控制单个玩家的竞争中，以牙还牙确实是更好的策略。

如果重复囚徒困境会恰好重复n次，知道n是常数，那么另一个有趣的事实就会出现。纳什均衡每次都是背叛。这很容易用归纳法证明。你也可以在最后一轮背叛，因为你的对手将没有机会惩罚你。所以，最后一轮你们都会背叛。这时，你可以在倒数第二回合背叛，因为无论你最后做什么，你的对手都会背叛。诸如此类。为了合作以保持请求，未来对两个参与者来说必须是不确定的。一种解决方法是使游戏总数n是随机的。对未来的期望肯定是不确定的。

另一个单独的例子是“永无止境”的囚徒困境。这个游戏重复多次，你的分数就是一个平均值(当然是电脑算出来的)。

囚徒困境博弈是一些人类合作和信任理论的基础。假设囚徒困境可以模拟两个需要信任的人之间的交流，那么群体的合作行为可以用多个参与者重复博弈的变种来模拟。这引起了许多学者的持久兴趣。从65438到0975，Grofman和Pool估计有超过2000篇学术文章致力于这项研究。