AI识图驴唇不对马嘴?GoogleAI:用交错训练集提升图像描述准确性(5)
2024-06-16 来源:飞速影视
文本-文本(T2T),图像-文本(I2T)和多任务(I2T T2T)双编码器模型的CxC检索结果
从检索任务的结果可以看出,DE_I2T T2T(黄色条)在图像文本和文本图像检索任务上的性能优于DE_I2T(红色条)。因此,添加模态内(文本-文本)训练任务有助于提高模态间(图像-文本,文本-图像)性能。
相同模型的CxC相关结果
对于关联任务,DE_I2T在SIS上表现最好,而DE_I2T T2T在总体上是最好的。相关分数还显示DE_I2T仅在图像上表现良好:它具有最高的SIS,但具有更差的STS。
添加文本-文本损失到DE_I2T训练中(DE_I2T T2T),可以使整体性能更加均衡。
参考资料:
https://ai.googleblog.com/2021/05/crisscrossed-captions-semantic.html
https://arxiv.org/pdf/2004.15020.pdf
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号