[db:作者] 发表于 2025-10-20 11:12

无需显式3D表征!李飞飞RTFM模型,单图解锁持久交互3D世界


李飞飞团队连夜发布了个叫RTFM的实时生成式世界模型,最让人意外的是,这模型不用堆显卡,单张H100GPU就能跑起来。
它能靠一张2D图片,直接构建出3D场景,还能处理镜面反射、动态阴影这些复杂的光影效果,甚至支持推拉变焦、鱼眼失真这类镜头操作。
现在很多AI模型都走“算力内卷”路线,动辄要好几张高端显卡组队,普通人想体验下都没机会。
RTFM这波操作算是反其道而行之,不仅门槛降下来了,还开放了研究预览版,DEMO地址就放在那,感兴趣的都能去试试。

我点开体验了下,感觉真跟在真实房间里漫步似的,视角切换特别丝滑,难怪网友们都说效果惊艳,还有人开玩笑说“咱们身处的世界,会不会也是跑在‘单张’H100上的”。
ManifoldsAI的联合创始人体验后说,RTFM的空间一致性做得很到位,但速度太快的时候会崩溃。
还有懂行的网友拆解,这模型不是直接生成3D世界,而是靠一张2D图,补充出同一个场景下其他角度的2D图。

如此看来,它的核心思路不是“重建立体结构”,而是“补全视角画面”,这想法还挺巧妙。
单H100就能hold住?RTFM的三大核心底气RTFM能这么火,离不开它的三个核心设计原则。
第一个是高效性,单张H100GPU就能实现交互级帧率的推理运算。
可能有人对H100没概念,这显卡的运算能力在行业里算是顶尖的,但即便如此,能让它“单打独斗”就撑起3D生成任务,还是很有难度的。

要知道,同类模型大多需要多卡集群才能搞定,RTFM算是把单卡潜力挖到极致了。
第二个是可扩展性,它不用依赖显式的3D表征,靠通用端到端架构从大规模视频数据里学东西。
简单说,就是它不搞“固定套路”,算力和数据越多,它的表现就越好。
这一点很关键,AI技术一直在迭代,算力成本也在慢慢下降,这种能跟着技术发展一起进化的模型,才不会轻易被淘汰。
第三个是持久性,支持无限时长交互,就算你转身离开,之前构建的3D场景也不会消失。
这解决了很多生成式模型的“通病”生成的世界是“一次性”的,视角移开就没了。

RTFM给每帧画面都加了三维位姿信息,相当于给每个画面标了“空间坐标”,这样它就能记住场景的空间结构,不管你逛多久、走多远,回来还能找到原来的地方。
其实做这个模型,李飞飞团队一开始就找准了痛点。
他们发现,生成式世界模型对算力的需求,比现在的大语言模型还要夸张。
要是按传统视频架构来,想搞个60帧4K的交互视频流,每秒得生成超10万token,这差不多是一整部《哈利・波特》的文本量。

持续交互一小时,需要处理的内容就更多了,以现在的硬件条件,既不现实也不划算。
无奈之下,他们没走“堆算力”的老路,而是把目标定在“当下就能部署”单张H100、交互级帧率、无限持久交互。
这个目标贯穿了整个设计过程,从架构搭建到模型蒸馏,再到推理优化,每个环节都精打细算,最后才达成了现在的效果。
传统的3D图形技术,都是先构建三角网格、高斯泼溅这类显式3D表征,再把它们渲染成2D图像。

这种方法用了几十年,是计算机图形学的支柱,但问题也很明显,扩展性太差,想升级效果就得重新设计数据结构和算法,特别麻烦。
RTFM直接另辟蹊径,它基于生成式视频建模的最新进展,训练一个单一神经网络,输入一张或几张2D图像,不用构建任何显式3D表征,就能生成新视角的画面。
它就像个“学习型渲染器”,把输入帧转化成隐含世界信息的神经网络激活值,生成新画面时,再通过注意力机制读取这些信息。
本来以为3D生成就得先有“立体框架”,但后来发现RTFM完全绕开了这个步骤。

它不用人工设计任何算法,只要在训练中多看多学,就能自己掌握反射、阴影这些复杂效果的建模方法。
更有意思的是,它还模糊了“重建”和“生成”的界限输入多视角图像时,它就侧重“还原已有场景”;输入视角少的时候,它就自动“创造没见过的内容”。
为了实现持久性,RTFM还搞了个“空间记忆系统”它给每帧画面都赋予了位置和朝向信息,这些带位姿的帧凑在一起,就形成了场景的空间记忆。
生成新画面时,系统会从记忆里找邻近的帧,构建定制化上下文,不用一直盯着不断增长的帧序列推理,这样就能在长期交互中保持世界的一致性。

这种“不按常理出牌”的技术路径,反而给生成式世界模型指了条新路子。
IDC预测,2025年AI生成式3D的市场规模会达到187亿美元,现在不管是游戏制作、影视特效,还是VR/AR、机器人导航,都需要高效的3D生成技术。
RTFM刚好契合了这个需求,它能快速生成多视角3D场景,降低内容创作门槛,未来要是能扩展到动态世界建模,允许用户实时操控虚拟物体,应用场景还会更宽。
毫无疑问,RTFM的发布,让“在当今硬件上部署世界模型”从愿景变成了现实。
它不用依赖昂贵的算力集群,靠巧妙的架构设计和数据驱动思路,就破解了行业的核心难题。

更重要的是,它确立了“世界模型即端到端数据驱动渲染器”的技术方向,给后来者提供了参考。
未来随着算力成本继续下降,RTFM这类模型还会不断进化。
它们能实时重建、生成并模拟具有物理精确性的持久交互世界,说不定真的会彻底改变媒体、机器人等多个行业的发展格局。
对于AI行业来说,这不仅是一次技术突破,更是对“如何平衡性能与成本”的一次成功探索,而这种探索,恰恰是推动技术进步的关键。
页: [1]
查看完整版本: 无需显式3D表征!李飞飞RTFM模型,单图解锁持久交互3D世界