ACL2022图文多模态预训练Tutorial整理(3)

2023-04-29 来源:飞速影视

ACL2022图文多模态预训练Tutorial整理


这里聊一下VQA:

ACL2022图文多模态预训练Tutorial整理


Evaluation Code
为了与“人类精度”保持一致,机器精度在所有10组中取平均值。选择9组人类注释器。
多模态社区获得了什么?(What did the community gain?)
VQA的发展:性能的发展:VQAv2数据集,从2015年ICCV取得55的acc,到2021年取得近80的acc,提升了25%。模型的创新:基于网络的注意力(Grid based),基于区域的注意力(Region based),跨模态池化(Multimodal Pooling),组成网络(Compositional networks)。
开放问题和未来发展的途径(Open problems and avenues for future research)
Challenge1: 以视觉为基础的语言任务。Challenge2: 严格的评测指标。Ohter Challenges: 视觉实体计数,文字识别,组合推理,基于常识和知识的推理,处理真实世界的数据分布变化。未来的研究途径: 具有反事实的数据集,对话任务和数据集,基于视频的VL任务和数据集。

第二部分:Vision-Language Pretraining: Current Trends and the Future


为什么要多模态预训练?(Why Vision-Language Pretraining?)
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号