华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”(7)

2023-04-26 来源:飞速影视
数据集和设置上,SEEM在三种数据集接受了训练:全景分割,引用分割和交互式分割。
交互式分割
在交互式分割上,研究者将SEEM与最先进的交互式分割模型进行了比较。
作为一个通用模型,SEEM获得了RITM,SimpleClick等相当的性能。而且与SAM取得非常相似的性能,SAM还多用了50个分割数据进行训练。
值得注意的是,与现有的交互式模型不同,SEEM是第一个不仅支持经典的分割任务,而且还支持广泛的多模态输入,包括文本、点、涂鸦、边界框和图像,提供了强大的组合能力。

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”


通用分割
通过对所有分割任务预先训练的一组参数,研究者可以直接评估它在通用分割数据集上的性能。
SEEM实现了比较好的全景视图,实例和语义分割性能。

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割“瞬息全宇宙”


研究人员对SEEM有四个期望目标:
1. 多功能性:通过引入多功能提示引擎处理不同类型的提示,包括点、框、涂鸦、遮罩、文本和另一图像的引用区域;
2. 复合性:通过学习一个联合视觉-语义空间,为视觉和文本提示组合即时查询进行推理;
3. 交互性:通过整合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;
4. 语义感知:通过使用文本编码器对文本查询和遮罩标签进行编码,实现开放词汇表的分割。
和SAM区别
Meta提出的SAM模型,可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,一键分割出物体。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号