囚徒困境以及解决方案

2744557306 发表于 2023-11-30 16:50

囚徒困境（prisoner’s dilemma）也被称为“囚徒二难”或者“囚徒博弈”，是指两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。往往做到最后，却是一个两败俱伤；或者一方大胜，另一方全输的结局。这就是人类内心最深处的自私。囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护、人际关系等方面，也会频繁出现类似情况。“囚徒困境”是1950年美国兰德公司提出的理论，后来由顾问艾伯特·塔克以囚徒故事加以阐述，并命名为“囚徒困境”。艾伯特·塔克的故事是这样的：两个人因合伙盗窃杀人被捕，警方将他们隔离囚禁，并给他们三个选择：
[*]如果两个人都抵赖，各判刑一年。
[*]如果两个人都坦白，各判八年。
[*]如果两个人中一个坦白而另一个抵赖，坦白的判刑半年，抵赖的判刑二十年。
于是，每个囚徒都面临两种选择：坦白或抵赖。很显然，最有利的选择是两个人都抵赖，各判一年。但由于两个人处于隔离状态，不知道同伙会选择什么策略，但是，从基本的人性出发，他们肯定会认为自己的同伙必然选择对自己最有利的策略：坦白。既然同伙被默认为坦白了，那么，自己抵赖就会被判二十年，太亏了。于是，自己也就会选择坦白——最坏也就判八年，运气好的话才判半年。这样一来，为了防止最糟糕的情况出现（同伙坦白，自己抵赖），两个人只能放弃最优策略（同时抵赖），而选择了一个相对糟糕的策略（同时坦白）。“囚徒困境”就是这样最大限度地衡量着人性。在这场博弈中，唯一可能达到的双方最优方案，就是双方同时放弃最优策略。在这个困境博弈中，每个人都自私地寻求个人最大效益，但是，因为相信其他人也都会自私地寻求个人最大效益，反而因此两败俱伤。那么，有没有什么办法能破解“囚徒困境”，让人在这种深陷弱势的环境中占据主导权呢？此处引用知乎陈轶非的答案1、利用无限次重复博弈（例如，经典的针锋相对策略、冷酷策略等）’
2、利用信息不完全（例如，声誉效用、个体类型等）
3、利用心智模型，放松主体假定（例如带有同情的博弈）
4、本方可以采取一些措施（如降低本方的收益，签协议）让对方有理由相信你没有动机产生偏离，从而有动机产生合作注：历史上曾经有人在真实环境中做过囚徒困境的实验，发现重复博弈后的结果就是趋于合作。其实经典博弈论中的“个体绝对理性”假设实在是太强了，因此后来有人就提出了“有限理性”的假设，即人们的计算能力是有限的，不可能用数学去计算分析完博弈的所有结果后再做出选择（因为很多情况下人们并不知道该怎么分析），而只是依据经验做出选择，然后再对结果进行学习（举例来说，如果你没学过博弈论，你可能就不知道该如何“理性”地分析囚徒困境，你所做的只是依据经验做出选择）。这个思想其实和生物进化论的思想差不多（或者机器学习也类似），其中的一个概念就是evolutionarily stable strategy。因此博弈论在某些方面还不够完善，它还不太适合来进行“预测”。英国广播公司BBC有个著名电视节目《金球》，节目开始有四名选手参加，然后淘汰到只剩下两名选手来角逐一笔巨额奖金。角逐环节是这样的：主持人给每个人两个球，其中一个写着“平分”，另一个写着“偷走”，两名选手需要从中选择一个球。根据两个人的选择，会出现三种情况：
[*]两个人都选择了“平分”，那就两个人平分全部大奖。
[*]如果一个人选择“平分”而另一个人选择“偷走”，那么选择“偷走”的人拿走全部奖金，选择“平分”的人出局。
[*]如果两个人都选择了“偷走”，那么两个人同时出局，一分钱都拿不到。
在做出各自的选择前，两个人可以互相商量，但是最后选择的时候必须单独选择。这是一个典型的囚徒博弈游戏，相当于两个人被捕前串供，但审讯时仍然隔离囚禁——在这个规则下，常常出现这样的情况：其中的一人信誓旦旦地保证说自己一定会选择“平分”，同时让对方也选择“平分”，这样两个人可以平分奖金。但事实上，最后要么就是他选择了“偷走”，真的偷走了全部奖金，要么就是两个人都选了“偷走”，最后全部出局。这个节目将囚徒困境玩到了极致，一度没有任何选手能够成功摆脱这种困境。后来，一个叫尼克·凯瑞甘的选手成功打破了这种困境。那期节目，杀入最后角逐的是尼克·凯瑞甘和亚伯拉罕·海森。当时，海森和以往几期的选手一样，向凯瑞甘保证自己一定会选择“平分”，并恳请凯瑞甘也选择“平分”。但没想到的是，凯瑞甘却态度强硬地向海森表示，自己一定会选择“偷走”，但他同时表示，只要让他拿走全部奖金，他会在节目结束后再和海森平分这笔钱。这种前所未有的情况让主持人和现场观众大跌眼镜，海森更是气得直骂凯瑞甘“无耻”，但凯瑞甘丝毫不肯让步。这样一来，海森就只剩下两种选择了：选择“偷走”，两个人都拿不到钱；选择“平分”，凯瑞甘拿走全部奖金，但是有可能会在节目结束后跟自己平分。在这种情况下，海森只能选择“平分”，至少还有可能拿到一半奖金（如果凯瑞甘守信用的话）。结果出人意料。海森选择了“平分”，而凯瑞甘并没有像他之前强硬宣称的那样选择“偷走”，他同样选择了“平分”。最后，两个人平分了奖金，终于打破了节目组设下的这个人性困局。“囚徒困境”，其实是利用了人性中的极度自私，在单次博弈中逼得人不得不放弃最优解而去追求避免最坏情况发生的次优解。而它的破解之道也很简单，就是引入重复博弈，通俗地说，就是这次博弈结束后，博弈双方还将继续发生别的关系。最典型的例子，就是黑社会集团的报复。回到“囚徒困境”最初的情景，试想，如果两个罪犯背后还有个制度森严的犯罪组织，并且两个罪犯都知道，如果自己供出了同伙将遭到严厉的报复（二次博弈），那么，即便是在“囚徒困境”之下，他也会义无反顾地选择抵赖。同样的道理，在《金球》节目中，凯瑞甘向海森承诺节目结束后平分奖金，也等于是将一个单次博弈变成了重复博弈，从而使囚徒困境失去了作用。

页: [1]

数学建模社区-数学中国's Archiver

囚徒困境以及解决方案