DeepMind重磅开源强化学习框架!覆盖28款游戏,24个算法(3)
2023-05-01 来源:飞速影视
支持的博弈类型
在OpenSpiel的游戏可以表示为各种广泛形式的博弈:
常和博弈零和博弈协调博弈一般博弈其中,常和博弈中智能体之间是严格的竞争关系,协调博弈中智能体之间是严格的竞争关系,一般博弈则介于两者之间。
另外,根据智能体能否获得博弈过程中的所有信息,又可以将博弈分为:
完美信息博弈不完美信息博弈象棋和围棋是没有偶然事件的完美信息博弈,双陆棋是有偶然事件的完美信息博弈,而像石头剪刀布、扑克这样的游戏属于不完美信息博弈。
可视化工具和评估方法
OpenSpiel有一些用于可视化和评估的工具,尽管有些工具也被认为是算法(例如下面要介绍的α-rank)。OpenSpiel中提到的所有工具和评估都包含在代码库的egt子目录下。
1、演化和策略学习动力学的可视化
在多智能体强化学习的文献中,一种常见的可视化工具是相图,它显示了描述特定动力学下策略局部变化的矢量场或粒子轨迹。
下面展示了OpenSpiel为四种常见的bimatrix游戏生成的相图。
2、评估工具α-rank
α-Rank是一种算法,利用进化博弈论对多人游戏中的智能体进行交互排名。α-Rank定义了马尔可夫转移矩阵,其状态对应于玩家使用的智能体的元组,以及通过特定的进化模型通知的转换。该进化模型确定了排名与博弈论中马尔可夫-康利链解决方案概念的对应关系。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号