一人队勇夺冠军:IJCAI2018阿里妈妈国际广告算法大赛圆满落幕(3)
2023-04-27 来源:飞速影视
「最简代码」方案获胜
在决赛的答辩环节中,花志祥分享了自己的获胜方案。
根据初赛、复赛组委会提供的数据,选手认为数据呈现了某次购物节前七天,和购物节当天消费者行为和店铺点击/购买数据的状态——消费者的购物数字在前七天保持稳定,在购物节前一天略有下降。在购物节当天,消费数量突然暴增。而比赛的要求是预测购物节期间的消费数据。这种特性也成为了比赛的难点:如何利用常规日期的消费习惯预测购物节。
在分析了数据之后,花志祥决定使用迁移学习的观点,利用前七天普通日和购物节当天上午的销量训练模型,其结果作为 feature。随后建立一个新的模型来预测购物节后期,即第八天下午的销量。
上图所示为获胜方法的主要结构,其中 Level-1 和 Level-2 表示两个 LightGBM 模型的处理过程。Level-1 将使用预热期的所有数据对这一时期的购物行为建模,并将它在购物节当天的预测作为第二个模型的输入,这样就能避免预热期与购物节之间的剧烈变化。此外,第一个模型的输出特征还为第二个模型提供先验知识,因而能与当天的数据一起更高效地建模购物行为。
值得注意的是,和入围决赛的所有其他模型集合方法不同,获胜模型仅使用了 LightGBM,并取得了最优的效果。
在模型之外,花志祥还介绍了针对数据处理的思路。在特征工程上,选手参考了四种特征:统计特征、时差特征、排序特征、表征特征。其中统计特征即浏览商品数等用户行为的统计特征,时差特征即用户两次购物行为之间的时长,排序特征即用户与商品的交互次数。在表征特征中,选手使用了词袋和其它统计数据找出重要的属性及选手的特征。这些独特的特征工程确保了机器学习模型能正确地对用户购物行为进行建模。
最后,获胜算法的核心代码很短,只有一页。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号