阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题(8)

2023-05-04 来源:飞速影视
[Williams, 1992] 提出了一种具有普适性的强化学习方法,此种方法能够在训练过程中使模型参数在期望的强化方向上不断地调整。基于此种方法,本研究在训练的每一步中,在获得了奖励值(reward)、基准值(baseline value)和预测的概率分布之后,模型参数的更新公式为:
其中 b(s) 表示表面积的基准值,可以用来有效降低训练过程中梯度的方差。在训练过程中,如果我们随机选取 M 个独立同分布的样本S_1, S_2,..., S_M,则以上更新公式可以近似为:

阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题


3.2.3 基准值的更新
在本研究中,我们使用了一种基于记忆重放的方法来不断地更新基准值。首先,对于每一个样本点 s_i,通过启发式算法获取一个装箱方案,并计算其表面积,作为 b(s_i) 的初始值。之后在每一步的训练过程中,通过以下公式来更新基准值:
其中
为训练过程中获得表面积的值。
3.2.4 随机采样与集束搜索(Beam Search)
在模型的训练阶段,我们从模型预测的概率分布中进行随机选取作为输出。但是在验证阶段,我们采用贪婪策略来进行选择,即在每一步中,我们选取概率分布中概率最大的备选项作为输出。除此之外,我们还在验证阶段使用来集束搜索的方法来提高模型的效果,即在每一步中不是选择对应概率最高的备选项,而是选择概率最高的前 k 个备选项作为输出。
通过以上描述,模型的整个训练步骤总结为:

阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号