阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题(7)

2023-05-04 来源:飞速影视

阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题


图 1 神经网络模型的结构
3.2.2 基于策略的强化学习方法
本研究中使用了强化学习方法来训练网络模型。网络模型的输入可以表示为

阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题


,其中 l_i, w_i, h_i 分别表示第 i 个物品的长宽高。网络模型的输出为物品放入箱子的顺序,用 o 来表示。我们使用表面积(Surface area,SA)来评价模型的输出结果,使用 SA(o|s) 表示在模型输入为 o,输出为 s 的情况下对应的表面积。模型的随机策略可以表示为 p(o|s),即在模型输入为 s 的情况下,输出为 o 的概率。模型训练的目标为尽可能的使对应表面积较小的输出 (o) 以较大的概率被选中。我们使用
表示网络模型的参数,则训练目标可以表示为:

阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号