当前位置：首页 > 资讯 >

AI识图驴唇不对马嘴？GoogleAI：用交错训练集提升图像描述准确性

2024-06-16 来源:飞速影视

来源：Google AI Blog
编辑：好困
【新智元导读】图像描述是计算机视觉、自然语言处理和机器学习的综合问题。近日，谷歌AI提出了一个新的训练集，可以有效提升图像和文本语义匹配的相似性。
如果一张图片可以用一千个单词描述，那么图片中所能被描绘的对象之间便有如此多的细节和关系。我们可以描述狗皮毛的质地，要被追逐的飞盘上的商标，刚刚扔过飞盘的人脸上的表情，等等。

现阶段，包含文本描述及其相应图像的描述的数据集（例如MS-COCO和Flickr30k）已被广泛用于学习对齐的图像和文本表示并建立描述模型。
然而，这些数据集的跨模态关联有限：图像未与其他图像匹配，描述仅与同一张图片的其他描述匹配，存在图像与描述的匹配但未被标记为匹配项，并且没有标签标明何时图像与描述之间是不匹配的。
为了弥补这一评估空白，我们提出了「交叉描述：针对MS-COCO的扩展的模内和模态语义相似性判断」。
纵横交错描述（CxC）数据集使用图像-文本，文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试范围。
评级标准基于「语义文本相似性」，这是一种在短文本对之间广泛存在的语义相关性度量，我们还将其扩展为包括对图像的判断。我们已经发布了CxC的评分以及将CxC与现有MS-COCO数据合并的代码。
创建CxC数据集
CxC数据集扩展了MS-COCO评估拆分，并在模态内和模态之间具有分级的相似性关联。鉴于随机选择的图像和描述匹配的相似性不高，我们提出了一种方法来对项目进行选择，通过人工评级从而产生一些具有较高相似性的新匹配。为了减少所选匹配对用于查找它们的模型的依赖性，我们引入了一种间接采样方案，其中我们使用不同的编码方法对图像和描述进行编码，并计算相同模态项匹配之间的相似度进而生成相似度矩阵。图像使用Graph-RISE嵌入进行编码，而描述则使用两种方法进行编码-基于GloVe嵌入的通用语句编码器（USE）和平均单词袋（BoW）。

1 2 3 4 5 查看全文

AI识图驴唇不对马嘴？GoogleAI：用交错训练集提升图像描述准确性

唇心萌动她的嘴唇令我欲罢不能

一个女教练的自述

感染她嘴唇的欲望

再见，嘴唇

唇唇欲动

描准

牛头不对马嘴

毛驴上树2倔驴搬家