ACL2020|对抗式query-doc相关性模型,让线上搜索结果大幅提升!(6)

2023-05-01 来源:飞速影视
这里的和分别是query和生成的query分别通过query LSTM后产生的结果,是一个满足概率为的伯努利分布。
展开来看看这个公式其中的原理,首先,如果query本身就和title不相似,也就是,则整个公式下其实就只使用了原始query,相反,如果,则完全使用生成的query。而为了产生一定的噪音,引入了一个随机数。
6、损失函数设计与训练
双重任务——分类和生成,那就要谨慎考虑两者的联合学习了,为此作者设计出了这么一个公式:

ACL2020|对抗式query-doc相关性模型,让线上搜索结果大幅提升!


仔细看看这个公式是不是和上面公式(3)有些类似?说白了,只有当query和titile非常相似的时候(负例),才会更多的考虑生成器生成的query与title之间的相关性。但是其实我们可以发现,上面这个损失函数,无论是看query还是生成的query,都只是在分析他们与doc的不相似性,换言之都是再考虑“正样本”,而没有负样本,实际上他们是怎么做的呢?来看看他们的训练流程。

ACL2020|对抗式query-doc相关性模型,让线上搜索结果大幅提升!


在训练过程中,首先要做的是对分类器进行第一轮训练,然后用分类器划分出相似和不相似的query,然后用这块数据训练出第一版本的VED,在此基础上,再用公式(4)作为损失去做调整,最终得到需要的模型,尤其是这个分类模型。
3
实验与结果
有了基本的模型以及一定的理论基础,当然就要开始实操这块的内容了。作者是针对电商搜索来进行的设计,当然就要用电商的数据进行实验,实验数据量将达到了320万对,其中只有少量是不匹配的,这里面的“匹配”是指query查询后频繁购买的那些商品的title。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号