ACL2022图文多模态预训练Tutorial整理

2023-04-29 来源:飞速影视
资料源:ACL 2022 Tutorial - Vision-Language Pretraining: Current Trends and the Future (vlp-tutorial-acl2022.github.io)

Vision-Language Pretraining: Current Trends and the Future


An ACL 2022 tutorial by Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind).
目标:本教程的目标是概述处理多模态问题所需的要素,特别是视觉和语言。我们还将讨论该领域的一些开放性问题和有前景的未来方向。
在过去几年中,人们对建立多模态(视觉语言)模型越来越感兴趣,该模型是在更大但噪声更大的数据集上预训练的,其中两种模态(例如图像和文本)松散地相互对应(例如,ViLBERT和CLIP)。
给定一项任务(如视觉问答),这些模型通常会在特定任务的监督数据集上进行微调。除了更大的预训练数据集,transformer架构,特别是应用于两种模式的self-attantion,是最近预训练模型在下游任务上的出色表现的原因。
这种方法之所以吸引人,有几个原因:首先,预训练数据集通常是从网络上自动管理的,提供了巨大的数据集,收集成本可以忽略不计。第二,我们可以训练大型模型一次,并将其用于各种任务。最后,这些预训练方法比以前的任务特定模型表现更好或相当。一个有趣的问题是,除了良好的任务性能之外,这些预先训练的模型是否学习了更善于捕捉两种模式之间对齐的表示。
在本教程中,我们将重点介绍最近的视觉语言预训练范例。我们的目标是在多模态预训练区域之前,首先提供图像-语言数据集、基准和建模创新的背景。接下来,我们将讨论用于视觉语言预训练的不同系列模型,强调它们的优缺点。最后,我们讨论了通过统计学习进行视觉语言预训练的局限性,以及对替代方法(如因果建模)的需求。
接下来,我将从3个部分展示:第1部分:视觉-语言预训练前的视野。(主要讲预训练之前的多模态任务和数据集)第2部分:视觉-语言预训练的现代视野。(主要讲预训练结构、数据、评测等)第3部分:超越统计学习。(可解释性)
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号