AI的棋局,其实也是一部热血成长史(4)

2023-05-01 来源:飞速影视
成功秘诀:
● 成功秘诀之一:蒙特卡罗树搜索
在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此,2006年提出的蒙特卡罗树搜索就成为随机搜索算法的首选。蒙特卡罗树搜索是一种用于某些决策过程的启发式搜索算法,它被广泛用于科学和工程研究的算法仿真中,是现行围棋程序的核心组件。有专家曾通俗地解释什么是蒙特卡罗树搜索:假如篮子里有1000个苹果,让你每次闭着眼睛找一个最大的,不限制挑选次数。于是,你可以闭着眼随机拿一个,然后下一次再随机拿一个与第一个比,留下大的,循环往复,拿的次数越多,挑出最大苹果的可能性也就越大,但除非你把1000个苹果都挑一遍,否则你无法让肯定最终挑出来的就是最大的一个。这就是蒙特卡罗树搜索。它给予了智能体推理的能力,智能体不仅可以根据过去的经验采取更好的策略,也可以根据对未来的推测帮助自己选择合适的方案。
● 成功秘诀之二:策略网络与价值网络
策略网络是一个模型,它使用深度学习、监督学习、增强学习等方法来预测下一步棋“大概”该走哪里。策略网络的输入是当前的棋局,输出的是棋子最可能的步法,棋盘上的每一个空位都对应一个概率。AlphaGo面对一个局面时下一步大概怎么走已经了然于胸,这是因为它已经从KGS围棋服务器上向职业选手学习了3000万个局面的下一步,而且学习成果非常惊人;不仅记住了某个局面的下一步怎么走,还记住了相似局面的下一步步法,所以当AlphaGo学习的局面足够多时,就掌握了所有不同局面的下法。这种学习叫做“监督学习(supervised learning)”对于AlphaGo而言,它所学习的职业棋手的棋谱就是它的老师。
价值网络也是一个监督的强化学习的模型,多次线下自我对弈学习的结果为价值网络提供监督信息。它的模型结构与策略网络类似,但学习目标不同,策略网络的目标是当前局面的下一步棋如何走,而价值网络学习的目标是走这一步后赢的概率,主要用于在线下下棋时得到平均的形势判断。
● 成功秘诀之三:强化学习
强化学习是机器学习的一个重要分支。有监督学习的目标是从一个已经标记的训练集中进行学习,无监督学习的目标是从一堆未标记样本中发现隐藏的结构,而强化学习的目标则是在当前行动和未来状态中获得最大回报。在边获得样例边学习的过程中,不断迭代“在当前模型的情况下,如何选择下一步的行动才对完善当前的模型最有利”的过程直到模型收敛。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号