AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性(4)
2024-06-16 来源:飞速影视
不同相似度的语义图像相似性(SIS)和语义图像文本相似性(SITS)示例,其中5为最相似,0为完全不相似。
评估
MS-COCO的匹配是不完整的,因为有时为一幅图像的描述同样适用于另一幅图像,但这些关联并未记录到数据集中。CxC使用新的正向匹配增强了这些现有的检索任务,并且还支持新的图像-图像检索任务。
通过其相似度的评级判断,CxC还可以测量模型和人工评级之间的相关性。不仅如此,CxC的相关性分数还考虑相似度的相对顺序,其中包括低分项(不匹配项)。
我们进行了一系列实验,以展示CxC评级的效用。为此,我们使用基于BERT的文本编码器和使用EfficientNet-B4作为图像编码器构造了三个双编码器(DE)模型:
1. 文本-文本(DE_T2T)模型,双方使用共享的文本编码器。
2. 使用上述文本和图像编码器的图像文本模型(DE_I2T),且在文本编码器上方有一个用来匹配图像编码器输出的层。
3. 在文本-文本和图像-文本任务的加权组合上训练的多任务模型(DE_I2T T2T)。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号