ACL2022图文多模态预训练Tutorial整理(4)
2023-04-29 来源:飞速影视
基本的语言-视觉多模态预训练,是语言-视觉的基础。
一次训练,多次使用。多模态预训练模型,可以用于很多多模态任务和应用。
多模态预训练的目标:概述解决多模态问题(特别是视觉和语言)所需的要素。此外,讨论一些开放性问题。
预训练NLP模型的成功:NLP模型性能的提高是由于体系结构创新和更大的数据集。
多模态需要相似的预训练模型吗?数据集?模型?目标?
多模态预训练时如何开始的?
模型会使用相似的backbone,但是loss的设计,和预处理方面各有不同。
他们在一系列任务中,取得了Sota的成果。
典型的多模态Transformers(Joint Encoders结构)
对于语言特征,通常使用BERT模型的token作为输入,LM的loss。对于视觉,可以使用bounding box作为图片单词,作为输入。
是什么促使这些模型的成功?
是由于体系结构的进步还是大型预训练数据集?语言模型的损失是否足够好?模态之间的交叉对话(cross-attention)重要吗?什么是好的预训练数据集?
评估指标:Zero-shot 图片检索 Zero-shot图像检索直接评估预训练模型的优劣。
典型的损失函数:
语言/视觉模型:masked language/region modeling语言-视觉匹配:二分类任务或对比损失。
所有的损失函数我们都需要吗?[Hendricks et al. TACL, 2021]
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号