SAM3来了:从点选到“听懂人话”,CV分割再迎GPT
最近AI圈有个新动静,第三代“分割一切”模型SAM3,已经悄悄投稿给ICLR2026了。论文还在双盲评审,作者没露名字,但光看标题就知道不简单,这模型终于能听懂人话了,不用再像以前那样靠点选、画框才能分割东西。
比如你跟它说“条纹猫”,它就能自己在图里找出所有带条纹的猫,一个个都分割出来。
比前代方便太多了。
以前用SAM1、SAM2,想分割多个同类物体,得一个一个用鼠标点,要是图里有十几只条纹猫,手都得点酸。
SAM3不光能处理图片,视频也能搞,处理一张有100多个物体的图才30毫秒,速度快到能接近实时。
SAM3的“听懂人话”,靠的是啥技术?能做到这点,可不是随便改改代码就行。
SAM3背后有个叫PCS的新任务范式,全称是“可提示概念分割”。
简单说,就是你给它个短语、或者一张示例图,它就能把所有匹配的东西都找出来。
为了实现PCS,SAM3还改了架构。
它的检测器用了DETR变形Transformer的设计,能根据文字和视觉提示找实例。
最关键的是加了个PresenceHead模块,把“认东西”和“找位置”拆开来处理。
老实讲,以前的模型老是把这两件事放一起做,比如判断“这是不是猫”的同时还要找猫在哪,很容易出错,尤其是东西多的时候。
现在拆开来,精度确实提上去了。
光有架构还不够,数据得跟上。
研究团队专门搭了个数据引擎,弄出400万种不同的概念标签,还有5200万条经过验证的掩码数据。
本来想觉得这么多数据,肯定全靠AI生成,后来发现不是,是人和大语言模型互相检查,既保证质量又快,比纯人工标数据效率高多了。
他们还搞了个SA-Co基准,用来测试模型表现,里面的概念有21万多,比现有基准多50倍,能更全面地看出模型到底行不行。
有了这些技术打底,SAM3的实际表现怎么样?数据说话最实在。
在LVIS数据集的零样本分割测试里,它的准确率到了47.0,比之前最好的结果高了不少。
在新的SA-Co基准里,表现更是比基线方法强两倍。
视频分割也比SAM2好,处理的时候延迟不会涨太快。
研究团队还试着把SAM3和多模态大模型搭在一起,处理复杂需求。
比如让它分割“坐着但没拿礼物盒的人”,多模态模型会先拆需求:先找坐着的人,再排除拿礼物盒的,然后给SAM3发指令。
结果还真不错,比专门做这种推理分割的模型效果还好,而且不用专门训数据。
SAM3不是万能的,这些短板得注意不过话说回来,SAM3也不是完美的。
它只能懂简单的短语,复杂点的话就不行了,比如你说“左边窗户旁边那只眯着眼的条纹猫”,它就反应不过来。
而且它没有多模态大模型那种生成文字、复杂推理的能力,别指望它能跟你聊分割之外的事。
还有个问题,它在细分领域表现不行。
比如医疗图像、热成像图这些,它没法零样本处理,得专门训数据才行。
视频里要是东西太多,比如超过5个目标,实时性就会下降,还得用多块GPU一起跑。
有人还质疑,说“概念分割”其实不算新东西,以前就有类似的文本提示分割模型,比如2022年的T-Rex。
还有开源社区早就用YOLO加GPT-4API实现过类似功能,觉得SAM3有点“炒冷饭”。
这种质疑也有道理,SAM3确实是在现有基础上优化,但它把多实例、图片视频统一处理这些点整合到一起,还是有进步的。
整体来看,SAM3算是给分割模型开了个新方向,从“靠手点”变成“靠嘴说”,门槛低了很多。
以后做视频剪辑、AR/VR这些事,用它来分割东西会方便不少。
比如剪视频的时候,想把所有“人物”都挑出来,不用再一帧一帧画框,说句话就行。
不过要想更实用,还得解决那些短板。
比如把复杂语言理解加上,再适配医疗、工业这些细分场景。
要是下一代模型能做到这些,说不定真能像SAM1那样,在CV领域再掀起一次小浪潮。
毫无疑问,SAM3现在还不是终点,但它至少让我们看到了分割模型“更聪明”的样子。
页:
[1]