博弈论问题
现在我会在第一节课之前给我的新班级一个对游戏的洞察(对于计算机专业,我会强调信息流的重要性,其他专业也可以联系,因为到处都有游戏),囚徒困境也暗示了人要多沟通,这样结果才会最优(沟通不够,如果囚徒提前接触10分钟,结果可能还是一样)。以下例子是给学生看的。
有点长了。建议你看完电影《美丽心灵》再看。
在学习供应链管理之前,建议先学习博弈论。通过学习博弈论,可以看出企业实施供应链管理的重要性和必要性。
博弈论之我见
这节课我们先做个智力测试:海盗分珠宝。
五个海盗抢走了100件价值连城的珠宝,一模一样。所以现在要分脏了(海贼不按我们通常的方法分,大家都想得到最多),于是有人提出了一个方法,大家都同意了。这个方法是:抽签把五个海盗排列成1,2,3,4,5号,从1号海盗开始,让他拿出一个分配方案,决定每个人分多少,然后如果超过50%(含50%)的海盗同意,那么他就按照他的分配方案,但是如果达不到这个标准,就把他扔到海里喂鲨鱼,然后2号海盗提出方案,以此类推,直到只剩下5号海盗
条件:
1.每个海盗都只想获得最大的利益。
2.所有的海盗都很理性。
这是一个博弈问题。你可以考虑一下。如果你是海盗,你想成为哪个海盗?如果你是第一个海盗,你会怎么分这100的珠宝?
下面这个问题有点无聊。我来说说游戏的概念。如果不感兴趣,可以开始分析回答盗版问题。
一、游戏的概念
游戏简单来说就是下棋。游戏就是很多人下棋。像象棋,五子棋,扑克等等都是最直接的游戏。
博弈是指每个参与者在一定的游戏规则约束下,基于直接互动的环境条件,根据自己所掌握的信息,选择自己的策略(行动),从而实现利益最大化和风险成本最小化的过程。
游戏存在于我们生活的方方面面,从早上起床穿什么衣服,吃什么早餐,老师讲课,我听课还是聊天...这些都是游戏。
2000多年前,《孙子兵法》不仅是一部军事著作,也是最早的博弈论专著。2000年后,毛泽东提出“人不犯我,我不犯人;人若攻我,我必攻”也是一个游戏。
现在给每个人五分钟时间思考盗版问题...答案是98 0 1 0 1。
现在我们再来看另一个例子:让10000人从1-100中选择一个数字,最后选择最接近大家平均值一半的一个获胜。
一般来说,人足够多的话,数字会比较分散,所以最后的平均数应该接近50,所以我应该选25 = 50/2,胜算比较大。
但转念一想,我知道其他人也知道这个,所以如果他们都选25,那么我应该选12.5 = 25/2。
同理,别人也会想到这一点,如此不断,最后大家都选择1。没有赢家。
第二,游戏的类型
1.游戏可以分为动态游戏和静态游戏。
静态博弈:指参与者同时采取行动,或者虽然有先后顺序,但后一个行动者不知道前一个行动者的策略。像前面提到的平均问题。
动态博弈:指双方的行动顺序,后一个行动者可以知道前一个行动者的策略。像前面提到的盗版问题。
三、我们为什么要学习游戏?
我们已经说过,任何人做的任何事情都有游戏因素在里面。
诺贝尔经济学奖得主保罗·萨缪尔森说:
想成为现代社会有价值的人,就要对博弈论有个大概的了解。
也可以说,要想打赢物流管理,就要学习博弈论;想要赢得人生,也要学习博弈论,甚至连感情都和游戏有关。
不谈理论,现在通过几个例子来学习游戏:
1,经济学中的“猪的收益”
这个例子讲的是:猪圈里有两头猪,一头大猪和一头小猪。猪圈的一侧有一个踏板。每踩一次踏板,就会有少量的食物落在猪圈另一侧远离踏板的喂食口。如果一只猪踩了踏板,另一只猪就有机会先吃掉掉在另一边的食物。猪一踩踏板,大猪刚好会在猪跑到食槽前把所有食物吃完;如果大猪踩了踏板,在小猪吃完掉下来的食物之前,还有机会跑到食槽,争夺剩下的另一半。
那么,两只猪会采取什么策略呢?答案是:小猪会选择“搭便车”策略,即在低谷期舒服地等待;大猪不知疲倦地在踏板和食槽之间跑来跑去,只为了一点剩菜。
这是什么原因呢?因为,小猪通过踩踏板什么也得不到,但不踩踏板却能吃到食物。对于小猪来说,不管大猪踩不踩踏板,不踩总是一个不错的选择。另一方面,大猪知道小猪不会踩油门。自己踩油门总比不踩好,所以他得自己来。
“小猪躺着,大猪跑着”的现象是故事里的游戏规则造成的。规则的核心指标是:每次落下的东西数量和踏板到喂食口的距离。
如果改变核心指标,猪圈会不会出现同样的“猪躺着,大猪跑着”的场景?试试吧。
变化方案1:还原方案。喂食只有原来体重的一半。结果小猪和大猪都不蹬了。小猪会踩,大猪会把食物吃完;如果大猪踩上去,小猪也会把食物吃完。谁蹬就意味着给对方贡献食物,所以谁也不会有蹬的动力。
如果目的是让猪多蹬,这个游戏规则的设计显然是失败的。
变化方案二:增量方案。比以前多喂一倍。结果小猪和大猪都会蹬。谁想吃就蹬。反正对方不会一次吃完所有的食物。小猪和大猪相当于生活在一个物质相对丰富的“物欲横流”的社会,竞争意识不是很强。
对于游戏规则的设计者来说,这个规则的成本是相当高的(一次提供双份食物);而且因为竞争不强,让猪多蹬也没啥效果。
变化方案三:减量加移位方案。只喂原来重量的一半,但同时要把喂食口移到踏板附近。结果小猪和大猪都拼命蹬。等的人不会吃,努力的人会得到更多。每一次收获都只是花。
对于游戏设计师来说,这是最好的解决方案。成本不高,但收获最大。
《智猪游戏》的原著故事,启发了竞争中的弱者(猪)等待最佳策略。但是对于社会来说,小猪搭便车时的社会资源分配并不是最优的,因为小猪没能参加比赛。为了使资源得到最有效的配置,规则的设计者不希望看到任何人搭便车,政府也是如此,公司的老板也是如此。能否彻底杜绝“搭便车”现象,取决于游戏规则的核心指标设置是否得当。
比如公司的激励制度设计,奖励太强,而且还是持股和期权。公司的所有员工都成了百万富翁。且不说成本高,员工的积极性也不一定高。这相当于《聪明猪游戏》增量方案中描述的情况。但是,如果奖励力度不大,观众有分成(即使是不干活的“小猪”),曾经很努力的大猪们也就没有动力了——就像《聪明猪游戏》第一期缩减计划中描述的情况。最好的激励机制设计就好比换第三种方案——减员加换班。奖励不是人人共享,而是针对个人(如业务比例提成),既节约了成本(对公司而言),又杜绝了“搭便车”现象,可以实现有效激励。
2.囚徒困境游戏
在博弈论中,占优战略均衡的一个著名例子是塔克给出的“囚徒困境”博弈模型。这个模型以一种特殊的方式告诉我们一个警察和一个小偷的故事。假设甲、乙两个小偷共同作案,私自入室,被警察抓住。警察把这两个人放在两个不同的房间里审讯。对于每一个嫌疑人,警方给出的政策是,如果一个嫌疑人交代了自己的罪行,交出了赃物,证据确凿,两人都定罪。如果另一名嫌疑人也供认不讳,他们各被判处8年徒刑;如果另一个犯罪嫌疑人在没有坦白的情况下否认,会以妨碍公务罪(因为有证据证明他有罪)再判两年有期徒刑,坦白者减刑八年后立即释放。如果两人都否认,警方因证据不足不能判他们盗窃罪,但可以以非法侵入罪各判1年有期徒刑。
分析:略,通过分析可以得出A。无论B如何选择,选择表白都是明智的。同样,A也选择坦白,我们知道最好的方案应该是否认。
这就是个人利益的最大化无法实现整体利益的最大化。这个问题是纳什首先发现的。每一方在选择策略时,都不存在“合谋”(勾结)。他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他反对者的利益。换句话说,这个策略组合是由所有参与者(也称为当事人和参与者)的最佳策略组合组成的。没有人会为了给自己争取更大的利益而主动改变策略。“囚徒困境”具有广泛而深刻的意义。个人理性和集体理性的冲突,每个人对自身利益的追求,导致一个“纳什均衡”,这也是一个对所有人都不利的结局。两人都是在坦白否认的策略中先想到自己,所以必然要服长刑期。只有都先想到对方,或者互相勾结(勾结),才能得到最短监禁的结果。纳什均衡首先挑战亚当·斯密的“看不见的手”原理。根据斯密的理论,在市场经济中,每个人都是从利己的目的出发,最终整个社会达到利他的效果。让我们回顾一下这位经济圣人在《国富论》中的名言:“通过追求(个人)私利,他常常比他实际想做的更有效地促进社会利益。”从“纳什均衡”引出一个“看不见的手”原理的悖论:从利己出发,结果不是利己,既不是利己,也不是利己。这是两个囚犯的命运。从这个意义上说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。所以,从纳什均衡中,我们也可以悟出一个道理:合作是有利的“利己策略”。
美丽心灵是关于纳什的。
如果他们四个都去追那个漂亮女孩,她肯定会装腔作势,不理任何人;这个时候追别的女生是不会被别人接受的,因为谁都不想成为次品。”突然,纳什自言自语道,“但是如果他们四个先去追别的女孩,那个漂亮的女孩会觉得被孤立,再去追她就容易多了。
老友记
瑞秋和罗斯喜欢告白游戏
当然,电视剧追求完美的结果,现实中如何应对爱情游戏。
从“囚徒困境”这一典型的博弈问题中,我们可以深刻理解企业实施“供应链管理”的必要性。(略)