AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性
2024-06-16 来源:飞速影视
来源:Google AI Blog
编辑:好困
【新智元导读】图像描述是计算机视觉、自然语言处理和机器学习的综合问题。近日,谷歌AI提出了一个新的训练集,可以有效提升图像和文本语义匹配的相似性。
如果一张图片可以用一千个单词描述,那么图片中所能被描绘的对象之间便有如此多的细节和关系。我们可以描述狗皮毛的质地,要被追逐的飞盘上的商标,刚刚扔过飞盘的人脸上的表情,等等。
现阶段,包含文本描述及其相应图像的描述的数据集(例如MS-COCO和Flickr30k)已被广泛用于学习对齐的图像和文本表示并建立描述模型。
然而,这些数据集的跨模态关联有限:图像未与其他图像匹配,描述仅与同一张图片的其他描述匹配,存在图像与描述的匹配但未被标记为匹配项,并且没有标签标明何时图像与描述之间是不匹配的。
为了弥补这一评估空白,我们提出了「交叉描述:针对MS-COCO的扩展的模内和模态语义相似性判断」。
纵横交错描述(CxC)数据集使用图像-文本,文本-文本和图像-图像对的语义相似性评级扩展了MS-COCO的开发和测试范围。
评级标准基于「语义文本相似性」,这是一种在短文本对之间广泛存在的语义相关性度量,我们还将其扩展为包括对图像的判断。我们已经发布了CxC的评分以及将CxC与现有MS-COCO数据合并的代码。
创建CxC数据集
CxC数据集扩展了MS-COCO评估拆分,并在模态内和模态之间具有分级的相似性关联。鉴于随机选择的图像和描述匹配的相似性不高,我们提出了一种方法来对项目进行选择,通过人工评级从而产生一些具有较高相似性的新匹配。为了减少所选匹配对用于查找它们的模型的依赖性,我们引入了一种间接采样方案,其中我们使用不同的编码方法对图像和描述进行编码,并计算相同模态项匹配之间的相似度进而生成相似度矩阵。图像使用Graph-RISE嵌入进行编码,而描述则使用两种方法进行编码-基于GloVe嵌入的通用语句编码器(USE)和平均单词袋(BoW)。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号