华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”(4)

2023-04-26 来源:飞速影视
奥斯卡最佳标题论文
正是受到基于提示的LLMs通用接口发展的启发,研究人员提出了SEEM。
如图所示,SEEM模型可以在没有提示的开放集中执行任何分割任务,比如语义分割、实例分割和全景分割。

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”


此外,它还支持任意组合的视觉,文本和引用区域提示,允许多功能和交互式的引用分割。
在模型架构上,SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”


特征和提示被相应的编码器,或采样器编码到一个联合的视觉语义空间。
可学习查询是随机初始化,SEEM解码器接受可学习查询、图像特征和文本提示作为输入和输出,包括类和掩码嵌入,用于掩码和语义预测。
值得一提的是,SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。
在人工循环中,人工接收上一次迭代的掩码输出,并通过视觉提示给出下一轮解码的正反馈。在模型循环中,模型接收并更新未来预测的记忆提示。

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号