当前位置：首页 > 资讯 >

ACL2022图文多模态预训练Tutorial整理(6)

2023-04-29 来源:飞速影视

预训练噪声越来越多，但是也越来越大了！
数据集需要注意的一个事项：语言

影响数据集好坏的原因：
1. 图片-文字索引：性能和图片并不相关，而是和文字的质量有关。
2. 图片-文字索引：更多的噪声会影响到模型的性能。
3. 图片-文字索引：合并数据集会带来更好的结果，但是采样方式很重要，建议加权采样更好的数据集。
4. 最佳的数据集，取决于任务。
因此：语言模型的损失是否足够好？不，我们需要更好的视觉模型损失。模态之间的交叉对话（cross-attention）重要吗？是的，跨模态注意力是很重要的。什么是好的预训练数据集？噪声水平和语言描述很重要！
模型结构

Dual Encoders（双流编码器结构）
用于图像和语言模态的两个独立编码器，两者之间没有串扰。[Weston et al. 2011; Frome et al., 2013; Kiros et al., 2014]检索任务非常成功[Chowdhury et al., 2018; Miech, Alayrac, et al.2020]
最近的大尺度双流编码器结构（Large-Scale Dual Encoders）
CLIP [Radford et al, 2021] and ALIGN [Jia et al, 2021]: Larger models & datasets其中ALIGN收集1.8B数据集，但是噪声比较多，使用了label smoothing。CLIP稍微清理了下数据集，拥有400M训练数据。需要在数据集的大小和噪声之间取得一个Tradeoff。[Jia et al, 2021]

1 ...4 5 6 7 8 9 查看全文

ACL2022图文多模态预训练Tutorial整理(6)

训练日

突袭训练室

怪兽训练营

僵尸训练营

宝贝训练营

青春训练班粤语版

乘风2023直播训练室

青春训练班国语版