爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯

查看: 13|回复: 0

提速63%!中科院天生式衬着器冲破效力瓶颈,分歧性提升20%

[复制链接]

4万

主题

0

回帖

13万

积分

论坛元老

Rank: 8Rank: 8

积分
139563
发表于 2025-9-29 08:32 | 显示全部楼层 |阅读模式
在阅读此文之前,辛劳您点击一下“关注”既方便您停止会商和分享,又能给您带来纷歧样的介入感,,感激您的支持!编辑:康康
曩昔,具身智能(智能体经过身材与情况的静态交互实现自立进修和进化)的赛道上,一切玩家都面临一两难处境:想追求实在感就很多花钱,想省钱质量又太差。
大师不是没想过法子。换了新的衬着技术、重新打光、上了新材质,看起来是好起来了,可开销大到让人望而生畏。凡是放点水,视频里恼人的闪灼和跳变又让人抓狂。

如此一来,结果、稳定、本钱,这似乎成了一个无解的不等式。
但是,就在全行业抓狂之时,中科院自动化所张兆翔教授团队的TC-Light却忽然横空出世,在全球AI科技范畴再次掀起一股飓风。
那末张兆翔教授团队是若何平衡那看似无解的三大焦点要素?

聪明的懒人先抄作业TC-Light的第一步棋,走得相当务实,甚至可以说是“聪明地偷懒”。它没有从零起头构建一个庞大的新模子,而是挑选站在伟人的肩膀上,把业界已经历证过的顶尖技术拿来,做了一次奇妙的整合。
这套计划的基座,融合了两个明星项目标DNA。一个是图像重衬着范畴的SOTA模子IC-Light,它保证了单帧画面的处置才能和结果底线。

另一个则是视频天生模子VidToMe,它的焦点上风在于晓得若何高效处置视频序列——经过在自留意力模块前后,把分歧帧里类似的信息块聚合起来处置再拆分回去,大大下降了计较劲,提升了效力。
简单说,就是把最会画画的手,嫁接到最会省力的身材上。但这还不够,实在的点睛之笔在于对一个叫Slicedit的技术停止了魔改。

Slicedit的思绪很风趣,它把视频看成一堆XY平面的图像,再从侧面“切”出另一堆YT平面的时空切片。TC-Light借用了这个想法,并引入了一个名为“
DecayedMulti-AxisDenoising”的关键模块。
这个模块利害在它在去噪时,一组指令让AI依照新的文本要求去衬着,另一组则用空指令,让AI只管连结原视频的静态。然后,它并不粗鲁地把两者夹杂,而是先对这两组噪声的统计特征做个“对齐”,让它们在气概上先同一,避免抵触。

更绝的是,它还加了个“衰减”机制。随着去噪步调的推动,从时空切片(也就是原视频光影信息)里来的那部分噪声权重会指数级下降。
这就比如一个画家摹仿,刚起头会多看几眼原作,找到骨架,但越到前期越要发挥自己的创意,不能被原作的细节约束。这样一来,既操纵了原视频的活动信息,又奇妙地摆脱了原视频光影纹理的“净化”,为后续的邃密化调剂打下了坚固的根本。

两分钟快充结果拉满假如说第一步是打好地基,那接下来这套“先粗后精”的两阶段优化流程,就是TC-Light实在的杀手锏。它完全绕开了传统计划那种动辄需要十几分钟甚至半小时停止3D重建的粗笨途径,用一种极为轻量化的方式,实现了可谓“量变”的结果奔腾。
初步衬着的成果虽然不错,但细看之下,光照和纹理在时候线上还是会有一些反面谐的跳变。第一阶段优化,方针就是快刀斩乱麻,处理最刺眼的全局题目。研讨团队给每一帧画面都引入了一个“表面嵌入”的调理器,用来同一整体的曝光和色彩。

同时,他们还借助光流信息——也就是像素在前后帧之间的活动轨迹——来约束帧间的静态分歧性。这些光流信息既可以由仿真器间接供给,也可以经过一个叫MemFlow的工具快速预算出来。全部进程行云流水,处置一个300帧、960x540分辨率的视频,在A100显卡上仅仅需要几十秒。
但这只是开胃菜,真正让效力实现数目级提升的是第二阶段的细节精调。这里的焦点思惟是一次标致的“降维冲击”。团队没有去优化海量的视频像素,而是先将全部视频快速紧缩成一个极为精简的码本,他们称之为“UniqueVideoTensor”。

这个紧缩进程很是聪明。它不像传统方式那样只按照色彩类似性来聚类,而是连系了光流和像素的空间位置信息,为每个像素分派码本里的索引。
这意味着,时空上有关联的像素,在码本里也是“邻人”。这么一来,优化工具就从庞大的视频自己,酿成了一个玲珑且包含时空信息的码本。

接下来,一切的优化都围绕这个码本停止。同时,为了确保在提升分歧性的同时不“画蛇添足”,还加上了两个帮助的约束:一个叫TVLoss,用来抑制能够发生的噪点。
另一个叫SSIMLoss,用来确保优化后的画面结构和第一阶段的成果连结类似。全部精调进程,处置一样规格的视频,也仅仅花费大约2分钟。相比NeRF或3DGS计划动辄半小时的练习时候,这简直是火箭般的速度。

是骡子是马拉出来遛遛固然了,理论说得再口不择言,终极还是要看现实结果。TC-Light团队明显也深谙此道,他们设想了极为严苛且周全的尝试来考证自己的功效。
首先是场景的广度。他们从多个支流的自动驾驶和机械人数据集合,包括CARLA、Waymo、AgiBot-DigitalWorld以及DROID,收集了整整58个包括复杂剧烈活动的长视频序列。这些场景覆盖了从城市街道到室内幕况的各类应战,足以证实TC-Light的普适性。

其次是评价的深度。团队还利用了带有真值的VirtualKITTI数据集停止测试。这意味着AI衬着的成果可以间接和“标准答案”停止像素级的比力,经过CLIP-T、SSIM、LPIPS这些客观量化目标,来评判谁做得更传神、更稳定。
成果不出所料,不管是在哪个数据集上,TC-Light都在重衬着结果、时序分歧性和计较开销这三个关键维度上,获得了最好的平衡。

更有压服力的是可视化的间接对照。在放出的Demo视频中,可以看到Slicedit等算法偶然会出现不自然的光影结果,而TC-Light则过度平滑。一些追求效力的方式会发生模糊失真的题目,TC-Light的画面则始终连结锋利。
即即是作为其技术根本的IC-Light和VidToMe,零丁利用时也没法避免时序上的跳变和闪灼,而TC-Light则完善地处理了这些题目。

结语回过甚来看,TC-Light的成功,并非源于某个单一的、倾覆性的理论冲破,而是一次工程思维的完全成功。
它向我们展现了,在AI技术快速迭代的明天,若何经过务实的“根本继续+焦点优化”组合战略,去解开那些看似无解的产业困难。
它没有堕入对单一目标的极致追求,而是像一位经历丰富的工程师,切确地计较着每一分本钱与收益,终极找到了阿谁让质量、分歧性与本钱三者和谐共存的“甜点区”。

随着论文、代码、项目主页和视频Demo的周全公然,TC-Light已经不但仅是一项优异的研讨功效,它更是一个即插即用的强大工具。
它的出现,无疑将为身处数据瓶颈的具身智能范畴注入一剂强心针,让Sim2Real和Real2Real的数据增强变得史无前例的高效和廉价,从而加速全部AI产业的进化步伐。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯  

GMT+8, 2025-10-3 23:47 , Processed in 0.438499 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表