ACL2022图文多模态预训练Tutorial整理(7)
2023-04-29 来源:飞速影视
编码器-解码器结构(Encoder-Decoders)
使用语言作为视觉或多模态的监督信号。需要的图片更少。
组合冻结模型(Combining Frozen (Pretrained) Models)
考虑到训练大型模型的成本,我们是否能够重用和组合现有的视觉或语言模型?但是,需要映射不同的特征空间->训练适配器层。Frozen, MAGMA, Flamingo
生成模型?(Moving Towards Generative Models)
统一图文多模态任务。有更好的在VQA中的泛化能力。如何正确的评估文本?
语言编码器(Language Encoder)
使用视觉信号作为语言的预训练。
不同方法的概述(Summary of Different Approaches)
为了构建强大的模型,我们需要首先更好的评估他们。
如何评估预训练模型?
使用特定下游任务任务头(ViLBERT, LXMERT, UNITER, OSCAR, VinVL)将所有下游任务视为无任务特定头的语言生成(VL-T5, VL-BART, SimVLM)。
如何使用特征?视觉任务(VirTex, CLIP, ALIGN),语言任务(Vokenization, M3P, VL-T%, SimVLM)
Zero-shot, few-shot
此外,对于文本-图像索引任务,可以从主题,动词,目标三个维度来进行粒度评估。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号