ACL2022图文多模态预训练Tutorial整理(6)

2023-04-29 来源:飞速影视
预训练噪声越来越多,但是也越来越大了!
数据集需要注意的一个事项:语言

ACL2022图文多模态预训练Tutorial整理


影响数据集好坏的原因:
1. 图片-文字索引:性能和图片并不相关,而是和文字的质量有关。
2. 图片-文字索引:更多的噪声会影响到模型的性能。
3. 图片-文字索引:合并数据集会带来更好的结果,但是采样方式很重要,建议加权采样更好的数据集。
4. 最佳的数据集,取决于任务。
因此:语言模型的损失是否足够好?不,我们需要更好的视觉模型损失。模态之间的交叉对话(cross-attention)重要吗?是的,跨模态注意力是很重要的。什么是好的预训练数据集?噪声水平和语言描述很重要!
模型结构

ACL2022图文多模态预训练Tutorial整理


Dual Encoders(双流编码器结构)
用于图像和语言模态的两个独立编码器,两者之间没有串扰。[Weston et al. 2011; Frome et al., 2013; Kiros et al., 2014]检索任务非常成功[Chowdhury et al., 2018; Miech, Alayrac, et al.2020]
最近的大尺度双流编码器结构(Large-Scale Dual Encoders)
CLIP [Radford et al, 2021] and ALIGN [Jia et al, 2021]: Larger models & datasets其中ALIGN收集1.8B数据集,但是噪声比较多,使用了label smoothing。CLIP稍微清理了下数据集,拥有400M训练数据。需要在数据集的大小和噪声之间取得一个Tradeoff。[Jia et al, 2021]
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号