36氪领读|还在浑浑噩噩地接受命运的安排吗?不如有点儿理性决策的精神(9)
2023-04-28 来源:飞速影视
战后,人们通过几年的研究,取得了若干进展。哥伦比亚大学的数学家赫伯特·罗宾斯提出了一个简单的策略,并指出,尽管这个策略尚不完善,但是可以给出一些效果不错的建议。
在具体考虑了只有两台老虎机的情况之后,罗宾斯提出了赢留输变算法:随便选择一台老虎机,只要它不断吐钱,就在这台机器上玩游戏。如果某次拉动拉把后,老虎机没有吐钱,就换另一台机器。1952 年,
罗宾斯提出的这个简单策略虽然远不完善,但是效果肯定比碰运气好。在罗宾斯之后,不少人进一步研究了“赢留输变”原则,并发表了一系列论文。根据直觉,如果你本来就倾向于某台老虎机,而且这台机器刚刚又让你赢了一些钱,那么你对这台机器的评估就会升值,肯定不介意在这台机器上再玩一次。事实证明,在很多情况下,赢就留下原则都是探索与利用平衡问题优化策略的一个组成部分。
但是,输就走人这个原则就值得商榷了。不吐钱就换机器是一种非常草率的行为。假设你去一家餐厅用餐。你去过一百次,每次都感到非常满意。如果有一次你感到失望,会不会从此以后就再也不去这家餐厅了呢?正确的做法是不要对瑕疵惩戒过重。
更重要的是,赢留输变不含任何剩余时间的概念,因此没有为优化行为留出时间。你去你喜爱的餐厅用餐,结果扫兴而归,那么这个算法就会建议你以后换一家餐厅,即使你明天就要离开这座城市了。
不过,罗宾斯开启了多臂老虎机问题研究的先河,在随后几年里,这个领域涌现出大量的文献资料,研究人员也取得了重大进展。美国兰德公司的数学家理查德·贝尔曼发现,当我们预先知道所有的可选方案以及赢钱机会时,就能求出这个问题的精确解。就如全信息秘书问题的解法一样,贝尔曼基本上也采用了逆向法。
首先,他假设自己知道之前所有决策会产生的结果,然后考虑应该在哪一台老虎机上最后一次拉下拉把。推算出结果之后,他再考虑倒数第二次的情况,然后是倒数第三次、倒数第四次,一直倒推到最开始。
贝尔曼的这个方法肯定可以得到确定无疑的答案,但是,如果可能的选择与赌博的轮次都非常多时,工作量就会非常大(甚至大到无法完成的程度)。此外,即使我们可以计算出未来的所有可能情况,我们也不一定确切地知道我们到底有多少赢钱机会(甚至不知道有多少种选择方案)。因此,多臂老虎机问题从本质上讲还没有得到解决。用惠特尔的话说:“它很快就变成了一个经典问题,同时也变成了永不妥协的代名词。”
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号