博弈论问题

第一个接触游戏是教我的学生供应链管理。学生们觉得这本教科书很无聊。其中有提到供应链合作伙伴选择中的文字游戏。网上搜了一下,发现这个游戏很有意思。它涉及到我们生活的方方面面,只是大家都没有意识到。只要两个人或两个人以上互动,就有游戏,单人也是。比如我感冒了,我就跟上帝玩:我是选择吃药还是干脆?

现在我会在第一节课之前给我的新班级一个对游戏的洞察(对于计算机专业,我会强调信息流的重要性,其他专业也可以联系,因为到处都有游戏),囚徒困境也暗示了人要多沟通,这样结果才会最优(沟通不够,如果囚徒提前接触10分钟,结果可能还是一样)。以下例子是给学生看的。

有点长了。建议你看完电影《美丽心灵》再看。

在学习供应链管理之前,建议先学习博弈论。通过学习博弈论,可以看出企业实施供应链管理的重要性和必要性。

博弈论之我见

这节课我们先做个智力测试:海盗分珠宝。

五个海盗抢走了100件价值连城的珠宝,一模一样。所以现在要分脏了(海贼不按我们通常的方法分,大家都想得到最多),于是有人提出了一个方法,大家都同意了。这个方法是:抽签把五个海盗排列成1,2,3,4,5号,从1号海盗开始,让他拿出一个分配方案,决定每个人分多少,然后如果超过50%(含50%)的海盗同意,那么他就按照他的分配方案,但是如果达不到这个标准,就把他扔到海里喂鲨鱼,然后2号海盗提出方案,以此类推,直到只剩下5号海盗

条件:

1.每个海盗都只想获得最大的利益。

2.所有的海盗都很理性。

这是一个博弈问题。你可以考虑一下。如果你是海盗,你想成为哪个海盗?如果你是第一个海盗,你会怎么分这100的珠宝?

下面这个问题有点无聊。我来说说游戏的概念。如果不感兴趣,可以开始分析回答盗版问题。

一、游戏的概念

游戏简单来说就是下棋。游戏就是很多人下棋。像象棋,五子棋,扑克等等都是最直接的游戏。

博弈是指每个参与者在一定的游戏规则约束下,基于直接互动的环境条件,根据自己所掌握的信息,选择自己的策略(行动),从而实现利益最大化和风险成本最小化的过程。

游戏存在于我们生活的方方面面,从早上起床穿什么衣服,吃什么早餐,老师讲课,我听课还是聊天...这些都是游戏。

2000多年前,《孙子兵法》不仅是一部军事著作,也是最早的博弈论专著。2000年后,毛泽东提出“人不犯我,我不犯人;人若攻我,我必攻”也是一个游戏。

现在给每个人五分钟时间思考盗版问题...答案是98 0 1 0 1。

现在我们再来看另一个例子:让10000人从1-100中选择一个数字,最后选择最接近大家平均值一半的一个获胜。

一般来说,人足够多的话,数字会比较分散,所以最后的平均数应该接近50,所以我应该选25 = 50/2,胜算比较大。

但转念一想,我知道其他人也知道这个,所以如果他们都选25,那么我应该选12.5 = 25/2。

同理,别人也会想到这一点,如此不断,最后大家都选择1。没有赢家。

第二,游戏的类型

1.游戏可以分为动态游戏和静态游戏。

静态博弈:指参与者同时采取行动,或者虽然有先后顺序,但后一个行动者不知道前一个行动者的策略。像前面提到的平均问题。

动态博弈:指双方的行动顺序,后一个行动者可以知道前一个行动者的策略。像前面提到的盗版问题。

三、我们为什么要学习游戏?

我们已经说过,任何人做的任何事情都有游戏因素在里面。

诺贝尔经济学奖得主保罗·萨缪尔森说:

想成为现代社会有价值的人,就要对博弈论有个大概的了解。

也可以说,要想打赢物流管理,就要学习博弈论;想要赢得人生,也要学习博弈论,甚至连感情都和游戏有关。

不谈理论,现在通过几个例子来学习游戏:

1,经济学中的“猪的收益”

这个例子讲的是:猪圈里有两头猪,一头大猪和一头小猪。猪圈的一侧有一个踏板。每踩一次踏板,就会有少量的食物落在猪圈另一侧远离踏板的喂食口。如果一只猪踩了踏板,另一只猪就有机会先吃掉掉在另一边的食物。猪一踩踏板,大猪刚好会在猪跑到食槽前把所有食物吃完;如果大猪踩了踏板,在小猪吃完掉下来的食物之前,还有机会跑到食槽,争夺剩下的另一半。

那么,两只猪会采取什么策略呢?答案是:小猪会选择“搭便车”策略,即在低谷期舒服地等待;大猪不知疲倦地在踏板和食槽之间跑来跑去,只为了一点剩菜。

这是什么原因呢?因为,小猪通过踩踏板什么也得不到,但不踩踏板却能吃到食物。对于小猪来说,不管大猪踩不踩踏板,不踩总是一个不错的选择。另一方面,大猪知道小猪不会踩油门。自己踩油门总比不踩好,所以他得自己来。

“小猪躺着,大猪跑着”的现象是故事里的游戏规则造成的。规则的核心指标是:每次落下的东西数量和踏板到喂食口的距离。

如果改变核心指标,猪圈会不会出现同样的“猪躺着,大猪跑着”的场景?试试吧。

变化方案1:还原方案。喂食只有原来体重的一半。结果小猪和大猪都不蹬了。小猪会踩,大猪会把食物吃完;如果大猪踩上去,小猪也会把食物吃完。谁蹬就意味着给对方贡献食物,所以谁也不会有蹬的动力。

如果目的是让猪多蹬,这个游戏规则的设计显然是失败的。

变化方案二:增量方案。比以前多喂一倍。结果小猪和大猪都会蹬。谁想吃就蹬。反正对方不会一次吃完所有的食物。小猪和大猪相当于生活在一个物质相对丰富的“物欲横流”的社会,竞争意识不是很强。

对于游戏规则的设计者来说,这个规则的成本是相当高的(一次提供双份食物);而且因为竞争不强,让猪多蹬也没啥效果。

变化方案三:减量加移位方案。只喂原来重量的一半,但同时要把喂食口移到踏板附近。结果小猪和大猪都拼命蹬。等的人不会吃,努力的人会得到更多。每一次收获都只是花。

对于游戏设计师来说,这是最好的解决方案。成本不高,但收获最大。

《智猪游戏》的原著故事,启发了竞争中的弱者(猪)等待最佳策略。但是对于社会来说,小猪搭便车时的社会资源分配并不是最优的,因为小猪没能参加比赛。为了使资源得到最有效的配置,规则的设计者不希望看到任何人搭便车,政府也是如此,公司的老板也是如此。能否彻底杜绝“搭便车”现象,取决于游戏规则的核心指标设置是否得当。

比如公司的激励制度设计,奖励太强,而且还是持股和期权。公司的所有员工都成了百万富翁。且不说成本高,员工的积极性也不一定高。这相当于《聪明猪游戏》增量方案中描述的情况。但是,如果奖励力度不大,观众有分成(即使是不干活的“小猪”),曾经很努力的大猪们也就没有动力了——就像《聪明猪游戏》第一期缩减计划中描述的情况。最好的激励机制设计就好比换第三种方案——减员加换班。奖励不是人人共享,而是针对个人(如业务比例提成),既节约了成本(对公司而言),又杜绝了“搭便车”现象,可以实现有效激励。

2.囚徒困境游戏

在博弈论中,占优战略均衡的一个著名例子是塔克给出的“囚徒困境”博弈模型。这个模型以一种特殊的方式告诉我们一个警察和一个小偷的故事。假设甲、乙两个小偷共同作案,私自入室,被警察抓住。警察把这两个人放在两个不同的房间里审讯。对于每一个嫌疑人,警方给出的政策是,如果一个嫌疑人交代了自己的罪行,交出了赃物,证据确凿,两人都定罪。如果另一名嫌疑人也供认不讳,他们各被判处8年徒刑;如果另一个犯罪嫌疑人在没有坦白的情况下否认,会以妨碍公务罪(因为有证据证明他有罪)再判两年有期徒刑,坦白者减刑八年后立即释放。如果两人都否认,警方因证据不足不能判他们盗窃罪,但可以以非法侵入罪各判1年有期徒刑。

分析:略,通过分析可以得出A。无论B如何选择,选择表白都是明智的。同样,A也选择坦白,我们知道最好的方案应该是否认。

这就是个人利益的最大化无法实现整体利益的最大化。这个问题是纳什首先发现的。每一方在选择策略时,都不存在“合谋”(勾结)。他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他反对者的利益。换句话说,这个策略组合是由所有参与者(也称为当事人和参与者)的最佳策略组合组成的。没有人会为了给自己争取更大的利益而主动改变策略。“囚徒困境”具有广泛而深刻的意义。个人理性和集体理性的冲突,每个人对自身利益的追求,导致一个“纳什均衡”,这也是一个对所有人都不利的结局。两人都是在坦白否认的策略中先想到自己,所以必然要服长刑期。只有都先想到对方,或者互相勾结(勾结),才能得到最短监禁的结果。纳什均衡首先挑战亚当·斯密的“看不见的手”原理。根据斯密的理论,在市场经济中,每个人都是从利己的目的出发,最终整个社会达到利他的效果。让我们回顾一下这位经济圣人在《国富论》中的名言:“通过追求(个人)私利,他常常比他实际想做的更有效地促进社会利益。”从“纳什均衡”引出一个“看不见的手”原理的悖论:从利己出发,结果不是利己,既不是利己,也不是利己。这是两个囚犯的命运。从这个意义上说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。所以,从纳什均衡中,我们也可以悟出一个道理:合作是有利的“利己策略”。

美丽心灵是关于纳什的。

如果他们四个都去追那个漂亮女孩,她肯定会装腔作势,不理任何人;这个时候追别的女生是不会被别人接受的,因为谁都不想成为次品。”突然,纳什自言自语道,“但是如果他们四个先去追别的女孩,那个漂亮的女孩会觉得被孤立,再去追她就容易多了。

老友记

瑞秋和罗斯喜欢告白游戏

当然,电视剧追求完美的结果,现实中如何应对爱情游戏。

从“囚徒困境”这一典型的博弈问题中,我们可以深刻理解企业实施“供应链管理”的必要性。(略)