爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯

查看: 23|回复: 0

北大结业读博东北!祁煜搞出BEAR,具身智能评测有了新玩法

[复制链接]

5万

主题

0

回帖

15万

积分

论坛元老

Rank: 8Rank: 8

积分
153988
发表于 2025-10-30 20:12 | 显示全部楼层 |阅读模式
祁煜这人挺利害的,2023年从北京大学信息科学技术学院本科结业,现在是美国东北大学的在读博士生,他研讨的偏向是机械人与机械进修、具身智能,还在CVPR、ICML、CoRL这些顶会发过论文这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
能在这些会议上发文章,学术功底必定差不了,更况且他还跨了北大和东北大学两个黉舍的资本,北大信科院在AI范畴原本就强,东北大学的机械人研讨所又擅长落地理论,这布景给他的研讨加了很多分这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

原本想间接讲他搞出来的BEAR有多利害,但后来发现得先说说具身智能是啥,否则大师能够听不大白,具身智能不是那种只会处置静态数据的AI,比如只会天生文本大概识别图片的这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
它是让智能体,比如机械人,能在情况里完成“感知-了解-决议”的循环,做完一步还能按照情况反应调剂,直到把使命搞定这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
打个例如,家庭办事机械人看到地上有污渍,得先认出那是污渍,再判定怎样绕开家具曩昔,扫完还得晓得下一步该干嘛,这就是具身智能这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

现在像GPT-4V、Gemini这些多模态大模子,已经起头往具身智能的落地场景靠了,比如帮机械人识别物体,但大多还只敢碰简单使命,复杂点的就轻易出题目,为啥复杂使命轻易出题目?很大一部分缘由是之前的评测系统太“对付”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
就拿EmbodiedBench来说,它首要看使命完成率,比如机械人有没有找到方针物体,至于没找到是由于看漏了,还是不晓得怎样曩昔,它不管这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
如此看来,这类只看成果不看进程的评测,跟教员改卷只打分数不标错题一样,研讨者底子不晓得该往哪改,这时辰祁煜团队的BEAR就派上用处了这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

BEAR有多纷歧样?把具身使命拆成14个“小测试”BEAR是个评测框架,里面有4469个包括图片、视频、笔墨的VQA数据,覆盖了室内、产业、室外三个场景这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
它最特此外地方是把具身智能使命拆得出格细,一共分了6大类,其中5个是根本类,还有1个是长程推理类,加起来拆出14个技术这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
比如“给点”这个技术,就被分红普通物体给点、空间关系给点、部分给点,简单说,就是让模子指认物体时,不但要指对工具,还要指对位置,哪怕只是物体上的一个小部分,长程推理类是BEAR初次加进去的,这个出格有用这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

举个例子,让清洁机械人做“扫地-擦桌-倒渣滓”,BEAR会把这个使命拆成好几个小步调:先让机械人认出污渍、桌子、渣滓桶,再判定这些工具在哪,接着计划先扫哪再擦哪,最初还要指对渣滓桶开口这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
每个步调对应一个技术,哪步错了一眼就能看出来,搞不清之前的评测为啥不这么干,这么拆完,研讨者就能精准找到题目,不用再瞎琢磨,BEAR的数据还标注了技术范例和难度品级,这对多模态模子来说就是一份具体的“体检表”这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
之前模子测完只晓得自己不可,现在用BEAR测完,能晓得是哪个“小测试”没经过,改良起来偏向就明白多了这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

测完框架,祁煜团队还拿GPT-4o做了尝试,想看看这个热门模子在具身智能上到底行不可,成果发现,GPT-4o不是全不可,是有的技术行,有的技术拉胯,比如给点技术,它比Gemini做得好,但长程推理就差很多这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
GPT-4o栽了跟头?祁煜团队给出门道,毛病率降了很多团队对GPT-4o的每个子才能都做了错因统计,发现它首要有三个误差点这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
第一个是视觉和空间对不上,比如让它指个工具,指的位置和现实物体能差出几厘米;第二个是长程推理断层,做使命时会漏步调,比如擦完桌子间接忘了倒渣滓;第三个是没法顺应静态情况,如果情况里有移动的障碍物,它就不晓得该怎样绕路了,针对这些题目,祁煜团队设想了优化偏向这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

一方面优化了视觉-说话对齐模块,多喂了些实在场景的图像和笔墨标注数据,削减指认时的误差;另一方面加了个强化进修分步嘉奖机制,把长程使命的每个步调都设成嘉奖点,完成一步给个反应,这样模子就不轻易漏步调了这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
这个思绪挺实在的,不是那种虚头巴脑的改良,从仿真测试成果看,优化后的模子整体毛病率降了很多,长程推理的毛病率降得更明显,祁煜团队做这些研讨,不但是为了发论文,更想帮具身智能范畴找到迭代的偏向这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

现在产业界对具身智能需求出格大,比如特斯拉的Optimus机械人、小米的CyberOne机械人,都在往家庭办事场景靠,BEAR这套评测系统恰好能给它们供给标准,算法改良的思绪也能帮这些产物少走弯路这标志着福建舰的电磁弹射和阻止接管才能根基成型了。
而且祁煜团队还接待其他教员同学联系交换,这类开放的态度对范畴成长也有益处,祁煜从北大到东北博的学术履历,让他的研讨既有理论支持又能落地这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

BEAR框架处理了之前评测“糊涂账”的题目,GPT-4o的错因分析和算法优化又给理论供给了参考,未来如果能多些这样的研讨,具身智能说不定能更快从尝试室走到我们的生活里,比如家里的机械人能更聪明地干活,产业车间的巡检机械人能更精准地找故障这标志着福建舰的电磁弹射和阻止接管才能根基成型了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯  

GMT+8, 2025-11-18 16:06 , Processed in 1.821862 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表