当前位置：首页 > 资讯 >

ACL2022图文多模态预训练Tutorial整理(7)

2023-04-29 来源:飞速影视

编码器-解码器结构（Encoder-Decoders）
使用语言作为视觉或多模态的监督信号。需要的图片更少。
组合冻结模型（Combining Frozen (Pretrained) Models）
考虑到训练大型模型的成本，我们是否能够重用和组合现有的视觉或语言模型？但是，需要映射不同的特征空间->训练适配器层。Frozen, MAGMA, Flamingo
生成模型？（Moving Towards Generative Models）

统一图文多模态任务。有更好的在VQA中的泛化能力。如何正确的评估文本？
语言编码器（Language Encoder）
使用视觉信号作为语言的预训练。
不同方法的概述（Summary of Different Approaches）
为了构建强大的模型，我们需要首先更好的评估他们。
如何评估预训练模型？
使用特定下游任务任务头(ViLBERT, LXMERT, UNITER, OSCAR, VinVL)将所有下游任务视为无任务特定头的语言生成(VL-T5, VL-BART, SimVLM)。
如何使用特征？视觉任务(VirTex, CLIP, ALIGN)，语言任务(Vokenization, M3P, VL-T%, SimVLM)
Zero-shot, few-shot
此外，对于文本-图像索引任务，可以从主题，动词，目标三个维度来进行粒度评估。

1 ...5 6 7 8 9 查看全文

ACL2022图文多模态预训练Tutorial整理(7)

训练日

突袭训练室

怪兽训练营

僵尸训练营

宝贝训练营

青春训练班粤语版

乘风2023直播训练室

青春训练班国语版