当前位置：首页 > 资讯 >

AI识图驴唇不对马嘴？GoogleAI：用交错训练集提升图像描述准确性(4)

2024-06-16 来源:飞速影视

不同相似度的语义图像相似性（SIS）和语义图像文本相似性（SITS）示例，其中5为最相似，0为完全不相似。
评估
MS-COCO的匹配是不完整的，因为有时为一幅图像的描述同样适用于另一幅图像，但这些关联并未记录到数据集中。CxC使用新的正向匹配增强了这些现有的检索任务，并且还支持新的图像-图像检索任务。
通过其相似度的评级判断，CxC还可以测量模型和人工评级之间的相关性。不仅如此，CxC的相关性分数还考虑相似度的相对顺序，其中包括低分项（不匹配项）。
我们进行了一系列实验，以展示CxC评级的效用。为此，我们使用基于BERT的文本编码器和使用EfficientNet-B4作为图像编码器构造了三个双编码器（DE）模型：
1. 文本-文本（DE_T2T）模型，双方使用共享的文本编码器。
2. 使用上述文本和图像编码器的图像文本模型（DE_I2T），且在文本编码器上方有一个用来匹配图像编码器输出的层。
3. 在文本-文本和图像-文本任务的加权组合上训练的多任务模型（DE_I2T T2T）。

1 2 3 4 5 查看全文

AI识图驴唇不对马嘴？GoogleAI：用交错训练集提升图像描述准确性(4)

唇心萌动她的嘴唇令我欲罢不能

一个女教练的自述

感染她嘴唇的欲望

再见，嘴唇

唇唇欲动

描准

牛头不对马嘴

毛驴上树2倔驴搬家