当前位置：首页 > 资讯 >

ACL2022图文多模态预训练Tutorial整理(2)

2023-04-29 来源:飞速影视

第一部分：Vision-Language landscape before the Pretraining Era

公共的VL任务（Common VL tasks）
图像索引（Image Retrieval）：High level similarity，Easy evaluation（recall@k）指代表达物体（Grounding Referring Expressions）：空间位置（Spatial Localization），细粒度（Finer Grained grounding）， Easy evaluation。图像描述（Image Captioning）：语言生成（Language generation），不容易评估（Difficult automatic evaluation）视觉问答（Visual Question Answering）：从图中获取特定信息，相对容易评估。视觉对话（Visual Dialog）：额外的上下文建模，很难去评估自由形式的答案。
为什么要有视觉和语言多模态？直觉：人类是在多模态环境中学习的。应用：对视觉障碍人士对帮助。网上购物或整理图片。科学：视觉识别。视觉理解。视觉中的语言。组合推理。常识推理。
任务指定的数据集和模型（Task specific datasets and models）
常用的模型结构：

常用的数据集：

1 2 3 4 5 ...9 查看全文

ACL2022图文多模态预训练Tutorial整理(2)

第一部分：Vision-Language landscape before the Pretraining Era

训练日

突袭训练室

怪兽训练营

僵尸训练营

宝贝训练营

青春训练班粤语版

乘风2023直播训练室

青春训练班国语版