博弈论问题

第一个接触游戏是教我的学生供应链管理。学生们觉得这本教科书很无聊。其中有提到供应链合作伙伴选择中的文字游戏。网上搜了一下，发现这个游戏很有意思。它涉及到我们生活的方方面面，只是大家都没有意识到。只要两个人或两个人以上互动，就有游戏，单人也是。比如我感冒了，我就跟上帝玩:我是选择吃药还是干脆？

现在我会在第一节课之前给我的新班级一个对游戏的洞察(对于计算机专业，我会强调信息流的重要性，其他专业也可以联系，因为到处都有游戏)，囚徒困境也暗示了人要多沟通，这样结果才会最优(沟通不够，如果囚徒提前接触10分钟，结果可能还是一样)。以下例子是给学生看的。

有点长了。建议你看完电影《美丽心灵》再看。

在学习供应链管理之前，建议先学习博弈论。通过学习博弈论，可以看出企业实施供应链管理的重要性和必要性。

博弈论之我见

这节课我们先做个智力测试:海盗分珠宝。

五个海盗抢走了100件价值连城的珠宝，一模一样。所以现在要分脏了(海贼不按我们通常的方法分，大家都想得到最多)，于是有人提出了一个方法，大家都同意了。这个方法是:抽签把五个海盗排列成1，2，3，4，5号，从1号海盗开始，让他拿出一个分配方案，决定每个人分多少，然后如果超过50%(含50%)的海盗同意，那么他就按照他的分配方案，但是如果达不到这个标准，就把他扔到海里喂鲨鱼，然后2号海盗提出方案，以此类推，直到只剩下5号海盗

条件:

1.每个海盗都只想获得最大的利益。

2.所有的海盗都很理性。

这是一个博弈问题。你可以考虑一下。如果你是海盗，你想成为哪个海盗？如果你是第一个海盗，你会怎么分这100的珠宝？

下面这个问题有点无聊。我来说说游戏的概念。如果不感兴趣，可以开始分析回答盗版问题。

一、游戏的概念

游戏简单来说就是下棋。游戏就是很多人下棋。像象棋，五子棋，扑克等等都是最直接的游戏。

博弈是指每个参与者在一定的游戏规则约束下，基于直接互动的环境条件，根据自己所掌握的信息，选择自己的策略(行动)，从而实现利益最大化和风险成本最小化的过程。

游戏存在于我们生活的方方面面，从早上起床穿什么衣服，吃什么早餐，老师讲课，我听课还是聊天...这些都是游戏。

2000多年前，《孙子兵法》不仅是一部军事著作，也是最早的博弈论专著。2000年后，毛泽东提出“人不犯我，我不犯人；人若攻我，我必攻”也是一个游戏。

现在给每个人五分钟时间思考盗版问题...答案是98 0 1 0 1。

现在我们再来看另一个例子:让10000人从1-100中选择一个数字，最后选择最接近大家平均值一半的一个获胜。

一般来说，人足够多的话，数字会比较分散，所以最后的平均数应该接近50，所以我应该选25 = 50/2，胜算比较大。

但转念一想，我知道其他人也知道这个，所以如果他们都选25，那么我应该选12.5 = 25/2。

同理，别人也会想到这一点，如此不断，最后大家都选择1。没有赢家。

第二，游戏的类型

1.游戏可以分为动态游戏和静态游戏。

静态博弈:指参与者同时采取行动，或者虽然有先后顺序，但后一个行动者不知道前一个行动者的策略。像前面提到的平均问题。

动态博弈:指双方的行动顺序，后一个行动者可以知道前一个行动者的策略。像前面提到的盗版问题。

三、我们为什么要学习游戏？

我们已经说过，任何人做的任何事情都有游戏因素在里面。

诺贝尔经济学奖得主保罗·萨缪尔森说:

想成为现代社会有价值的人，就要对博弈论有个大概的了解。

也可以说，要想打赢物流管理，就要学习博弈论；想要赢得人生，也要学习博弈论，甚至连感情都和游戏有关。

不谈理论，现在通过几个例子来学习游戏:

1，经济学中的“猪的收益”

这个例子讲的是:猪圈里有两头猪，一头大猪和一头小猪。猪圈的一侧有一个踏板。每踩一次踏板，就会有少量的食物落在猪圈另一侧远离踏板的喂食口。如果一只猪踩了踏板，另一只猪就有机会先吃掉掉在另一边的食物。猪一踩踏板，大猪刚好会在猪跑到食槽前把所有食物吃完；如果大猪踩了踏板，在小猪吃完掉下来的食物之前，还有机会跑到食槽，争夺剩下的另一半。

那么，两只猪会采取什么策略呢？答案是:小猪会选择“搭便车”策略，即在低谷期舒服地等待；大猪不知疲倦地在踏板和食槽之间跑来跑去，只为了一点剩菜。

这是什么原因呢？因为，小猪通过踩踏板什么也得不到，但不踩踏板却能吃到食物。对于小猪来说，不管大猪踩不踩踏板，不踩总是一个不错的选择。另一方面，大猪知道小猪不会踩油门。自己踩油门总比不踩好，所以他得自己来。

“小猪躺着，大猪跑着”的现象是故事里的游戏规则造成的。规则的核心指标是:每次落下的东西数量和踏板到喂食口的距离。

如果改变核心指标，猪圈会不会出现同样的“猪躺着，大猪跑着”的场景？试试吧。

变化方案1:还原方案。喂食只有原来体重的一半。结果小猪和大猪都不蹬了。小猪会踩，大猪会把食物吃完；如果大猪踩上去，小猪也会把食物吃完。谁蹬就意味着给对方贡献食物，所以谁也不会有蹬的动力。

如果目的是让猪多蹬，这个游戏规则的设计显然是失败的。

变化方案二:增量方案。比以前多喂一倍。结果小猪和大猪都会蹬。谁想吃就蹬。反正对方不会一次吃完所有的食物。小猪和大猪相当于生活在一个物质相对丰富的“物欲横流”的社会，竞争意识不是很强。

对于游戏规则的设计者来说，这个规则的成本是相当高的(一次提供双份食物)；而且因为竞争不强，让猪多蹬也没啥效果。

变化方案三:减量加移位方案。只喂原来重量的一半，但同时要把喂食口移到踏板附近。结果小猪和大猪都拼命蹬。等的人不会吃，努力的人会得到更多。每一次收获都只是花。

对于游戏设计师来说，这是最好的解决方案。成本不高，但收获最大。

《智猪游戏》的原著故事，启发了竞争中的弱者(猪)等待最佳策略。但是对于社会来说，小猪搭便车时的社会资源分配并不是最优的，因为小猪没能参加比赛。为了使资源得到最有效的配置，规则的设计者不希望看到任何人搭便车，政府也是如此，公司的老板也是如此。能否彻底杜绝“搭便车”现象，取决于游戏规则的核心指标设置是否得当。

比如公司的激励制度设计，奖励太强，而且还是持股和期权。公司的所有员工都成了百万富翁。且不说成本高，员工的积极性也不一定高。这相当于《聪明猪游戏》增量方案中描述的情况。但是，如果奖励力度不大，观众有分成(即使是不干活的“小猪”)，曾经很努力的大猪们也就没有动力了——就像《聪明猪游戏》第一期缩减计划中描述的情况。最好的激励机制设计就好比换第三种方案——减员加换班。奖励不是人人共享，而是针对个人(如业务比例提成)，既节约了成本(对公司而言)，又杜绝了“搭便车”现象，可以实现有效激励。

2.囚徒困境游戏

在博弈论中，占优战略均衡的一个著名例子是塔克给出的“囚徒困境”博弈模型。这个模型以一种特殊的方式告诉我们一个警察和一个小偷的故事。假设甲、乙两个小偷共同作案，私自入室，被警察抓住。警察把这两个人放在两个不同的房间里审讯。对于每一个嫌疑人，警方给出的政策是，如果一个嫌疑人交代了自己的罪行，交出了赃物，证据确凿，两人都定罪。如果另一名嫌疑人也供认不讳，他们各被判处8年徒刑；如果另一个犯罪嫌疑人在没有坦白的情况下否认，会以妨碍公务罪(因为有证据证明他有罪)再判两年有期徒刑，坦白者减刑八年后立即释放。如果两人都否认，警方因证据不足不能判他们盗窃罪，但可以以非法侵入罪各判1年有期徒刑。

分析:略，通过分析可以得出A。无论B如何选择，选择表白都是明智的。同样，A也选择坦白，我们知道最好的方案应该是否认。

这就是个人利益的最大化无法实现整体利益的最大化。这个问题是纳什首先发现的。每一方在选择策略时，都不存在“合谋”(勾结)。他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他反对者的利益。换句话说，这个策略组合是由所有参与者(也称为当事人和参与者)的最佳策略组合组成的。没有人会为了给自己争取更大的利益而主动改变策略。“囚徒困境”具有广泛而深刻的意义。个人理性和集体理性的冲突，每个人对自身利益的追求，导致一个“纳什均衡”，这也是一个对所有人都不利的结局。两人都是在坦白否认的策略中先想到自己，所以必然要服长刑期。只有都先想到对方，或者互相勾结(勾结)，才能得到最短监禁的结果。纳什均衡首先挑战亚当·斯密的“看不见的手”原理。根据斯密的理论，在市场经济中，每个人都是从利己的目的出发，最终整个社会达到利他的效果。让我们回顾一下这位经济圣人在《国富论》中的名言:“通过追求(个人)私利，他常常比他实际想做的更有效地促进社会利益。”从“纳什均衡”引出一个“看不见的手”原理的悖论:从利己出发，结果不是利己，既不是利己，也不是利己。这是两个囚犯的命运。从这个意义上说，纳什均衡提出的悖论实际上动摇了西方经济学的基石。所以，从纳什均衡中，我们也可以悟出一个道理:合作是有利的“利己策略”。

美丽心灵是关于纳什的。

如果他们四个都去追那个漂亮女孩，她肯定会装腔作势，不理任何人；这个时候追别的女生是不会被别人接受的，因为谁都不想成为次品。”突然，纳什自言自语道，“但是如果他们四个先去追别的女孩，那个漂亮的女孩会觉得被孤立，再去追她就容易多了。

老友记

瑞秋和罗斯喜欢告白游戏

当然，电视剧追求完美的结果，现实中如何应对爱情游戏。

从“囚徒困境”这一典型的博弈问题中，我们可以深刻理解企业实施“供应链管理”的必要性。(略)