ACL2022图文多模态预训练Tutorial整理(2)

2023-04-29 来源:飞速影视

第一部分:Vision-Language landscape before the Pretraining Era


ACL2022图文多模态预训练Tutorial整理


公共的VL任务(Common VL tasks)
图像索引(Image Retrieval):High level similarity,Easy evaluation(recall@k)指代表达物体(Grounding Referring Expressions):空间位置(Spatial Localization),细粒度(Finer Grained grounding), Easy evaluation。图像描述(Image Captioning):语言生成(Language generation),不容易评估(Difficult automatic evaluation)视觉问答(Visual Question Answering):从图中获取特定信息,相对容易评估。视觉对话(Visual Dialog):额外的上下文建模,很难去评估自由形式的答案。
为什么要有视觉和语言多模态?直觉:人类是在多模态环境中学习的。应用:对视觉障碍人士对帮助。网上购物或整理图片。科学:视觉识别。视觉理解。视觉中的语言。组合推理。常识推理。
任务指定的数据集和模型(Task specific datasets and models)
常用的模型结构:

ACL2022图文多模态预训练Tutorial整理


常用的数据集:
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号