阿里IJCAI2017Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题(9)

2023-05-04 来源:飞速影视
4. 数值实验
为了验证模型的效果,我们基于大量实际业务数据完成了数值实验。根据实验过程中每个订单中物品数量的不同(8,10 和 12),实验分为了三个部分,但是每次实验过程中的超参数均相同。在每次实验中,我们采用了 15 万条训练样本和 15 万条测试样本。在实验过程中,每批训练的样本量为 128,LSTM 的隐层单元的数量为 128,Adam 的初始学习速率为 0.001,并且每 5000 步以 0.96 的比例衰减。网络模型的参数的初始值均从 [-0.08, 0.08] 中随机选取。为了防止梯度爆炸现象的出现,我们在训练过程中使用 L2 正则方法对梯度进行修剪。在更新基准值的过程中,
的取值为 0.7。在每次训练中,我们在 Tesla M40 GPU 上训练 100 万步,每次的训练时间大约为 12 小时。在验证阶段,使用集束搜索方法时,集束搜索的宽度为 3。模型主要通过 TensorFlow 来实现。
数值实验的结果请见表 2。主要评价指标为平均表面积(Average surface area, ASA). 从表中可以看出,在使用集束搜索的情况下,本文提出的基于 DRL 的方法在三类测试集上分别可以获得大约 4.89%, 4.88%, 5.33% 的效果提升。此外,我们还通过穷举的方法获得了对于 8 个物品测试数据中 5000 个样本数据的最优物品放入顺序,并计算得到了启发式算法的结果与最优解的平均差距为 10% 左右,这说明基于 DRL 的方法的结果已经与最优解比较接近。
表 2 不同方法下获得的 ASA
物品数量
随机方法
启发式算法
深度强化学习方法
(随机选取)
深度强化学习方法
(集束搜索)
8
44.70
43.97
41.82
41.82
10
48.38
47.33
45.03
45.02
12
50.78
49.34
46.71
46.71
5. 结论
本文提出了一类新型三维装箱问题。不同于传统的三维装箱问题,本文提出的问题的优化目标为最小化能够容纳所有物品的箱子的表面积。由于问题的复杂性和求解难度,此类问题非常难以获得最优解,而大部分启发式算法又缺乏普适性。所以本文尝试将 Pointer Net 框架和基于深度强化学习的方法应用到了对此类问题的优化求解中。本文基于大量实际数据对网络模型进行了训练和验证,数值实验的结果表明基于深度强化学习方法获得的结果显著好于已有的启发式算法。本项研究的主要贡献包括:第一,提出了一类新型的三维装箱问题;第二,将深度强化学习技术应用到了此类新问题的求解中。在之后的研究中将会深入探索更有效的网络模型和训练算法,并且会尝试将物品的摆放位置和朝向的选择整合到模型中。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号