AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性(2)

2024-06-16 来源:飞速影视
由于每个MS-COCO示例都有五个辅助描述,因此我们平均每个辅助描述编码以创建每个示例的单个表征,从而确保所有描述对都可以映射到图像。

AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性


上:使用平均辅助描述编码构造的文本相似度矩阵(每个单元格对应一个相似度分数),每个文本条目对应于单个图像。下:数据集中每个图像的图像相似度矩阵。
我们从文本相似度矩阵中选择两个具有较高计算相似度的描述,然后获取它们的每个图像,从而生成一对新的图像,这些图像在外观上不同,但根据描述的相似。
例如,「一只害羞地向侧面看的狗」和「一只黑狗抬起头来享受微风」具有相当高的模型相似性,因此下图中两只狗的对应图像 可以选择图像相似度等级。此步骤也可以从两个具有较高计算相似度的图像开始,以产生一对新的描述。

AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性


上:根据描述相似度来选择图像匹配。下:根据描图像的相似度来选择描述匹配。
通过使用现有的图像标题对在模态之间进行链接来做到这一点。例如,如果人对一个描述匹配样本ij的评级为高度相似,我们从样本i中选择图像,并从样本j中选择描述,以获得一个新的用于人工评级的模态内匹配。然后,我们使用具有最高相似性的模态内对进行采样,这可以包括一些具有高度相似性的新匹配。

AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号