当前位置：首页 > 资讯 >

DeepMind重磅开源强化学习框架！覆盖28款游戏，24个算法

2023-05-01 来源:飞速影视

乾明边策一璞发自凹非寺量子位报道 | 公众号 QbitAI
没有DeepMind的命，烧不起DeepMind一样的研发投入，但你现在可以有DeepMind苦心多年研究出的算法和代码。
刚刚，这家背靠谷歌，烧了数十亿元的全球顶尖AI研究机构，开源了史上最全强化学习框架OpenSpiel。
在这个框架中，实现了28款可用于研究强化学习的棋牌类游戏和24个强化学习中常用的算法，DeepMind的成名作AlphaGo的基础算法也在其列。
此外，还包括用于分析学习动态和其他常见评估指标的工具。
更关键的是，OpenSpiel适用人群也非常广泛。
它的核心API和游戏用C 实现，并提供了Python API，可用于更高级别的机器学习，优化和强化学习。这些语言也可以很容易地组合在一起。
而且，代码的一个子集也已经使用Swift for Tensorflow直接移植到了Swift进行学习和推理，不需要跨语言操作。
开源消息放出后不久，就在Twitter上引起了数百转发和点赞。
史上最全强化学习框架
进一步说，OpenSpiel，是一个强化学习环境和算法的集合。在这个框架中，DeepMind对大部分环境和算法也都已经进行了全面测试。
目前，在OpenSpiel中实现的算法一共有24种，分别是：
极小化极大（Alpha-beta剪枝）搜索、蒙特卡洛树搜索、序列形式线性规划、虚拟遗憾最小化（CFR）、Exploitability外部抽样蒙特卡洛CFR、结果抽样蒙特卡洛CFR、Q-learning、价值迭代、优势动作评论算法(Advantage Actor Critic，A2C)、Deep Q-networks (DQN)短期价值调整（EVA）、Deep CFR、Exploitability 下降(ED) 、（扩展形式）虚拟博弈（XFP）、神经虚拟自博弈(NFSP)、Neural Replicator Dynamics（NeuRD）遗憾策略梯度（RPG, RMPG）、策略空间回应oracle（PSRO）、基于Q的所有行动策略梯度（QPG）、回归CFR (RCFR)、PSROrN、α-Rank、复制/演化动力学。
其中，只有短期价值调整（EVA）、Deep CFR和PSROrN等算法只是进行了初步测试，其他算法都经过了全面的测试。

1 2 3 4 5 ...7 查看全文

DeepMind重磅开源强化学习框架！覆盖28款游戏，24个算法

黑化游戏

我们无法一起学习

宝贝有戏·天籁童声学习季

魔法学院之见习女巫

我们无法一起学习！第二季

法庭外的游戏

我玩游戏成了绝世强者动态漫画

游戏的法则，人间狩猎