北大毕业读博东北!祁煜搞出BEAR,具身智能评测有了新玩法
祁煜这人挺厉害的,2023年从北京大学信息科学技术学院本科毕业,现在是美国东北大学的在读博士生,他研究的方向是机器人与机器学习、具身智能,还在CVPR、ICML、CoRL这些顶会发过论文。能在这些会议上发文章,学术功底肯定差不了,更何况他还跨了北大和东北大学两个学校的资源,北大信科院在AI领域本来就强,东北大学的机器人研究所又擅长落地实践,这背景给他的研究加了不少分。
本来想直接讲他搞出来的BEAR有多厉害,但后来发现得先说说具身智能是啥,不然大家可能听不明白,具身智能不是那种只会处理静态数据的AI,比如只会生成文本或者识别图片的。
它是让智能体,比如机器人,能在环境里完成“感知-理解-决策”的循环,做完一步还能根据环境反馈调整,直到把任务搞定。
打个比方,家庭服务机器人看到地上有污渍,得先认出那是污渍,再判断怎么绕开家具过去,扫完还得知道下一步该干嘛,这就是具身智能。
现在像GPT-4V、Gemini这些多模态大模型,已经开始往具身智能的落地场景靠了,比如帮机器人识别物体,但大多还只敢碰简单任务,复杂点的就容易出问题,为啥复杂任务容易出问题?很大一部分原因是以前的评测体系太“敷衍”。
就拿EmbodiedBench来说,它主要看任务完成率,比如机器人有没有找到目标物体,至于没找到是因为看漏了,还是不知道怎么过去,它不管。
如此看来,这种只看结果不看过程的评测,跟老师改卷只打分数不标错题一样,研究者根本不知道该往哪改,这时候祁煜团队的BEAR就派上用场了。
BEAR有多不一样?把具身任务拆成14个“小测试”BEAR是个评测框架,里面有4469个包含图片、视频、文字的VQA数据,覆盖了室内、工业、室外三个场景。
它最特别的地方是把具身智能任务拆得特别细,一共分了6大类,其中5个是基础类,还有1个是长程推理类,加起来拆出14个技能。
比如“给点”这个技能,就被分成普通物体给点、空间关系给点、局部给点,简单说,就是让模型指认物体时,不仅要指对东西,还要指对位置,哪怕只是物体上的一个小部分,长程推理类是BEAR首次加进去的,这个特别有用。
举个例子,让清洁机器人做“扫地-擦桌-倒垃圾”,BEAR会把这个任务拆成好几个小步骤:先让机器人认出污渍、桌子、垃圾桶,再判断这些东西在哪,接着规划先扫哪再擦哪,最后还要指对垃圾桶开口。
每个步骤对应一个技能,哪步错了一眼就能看出来,搞不清以前的评测为啥不这么干,这么拆完,研究者就能精准找到问题,不用再瞎琢磨,BEAR的数据还标注了技能类型和难度等级,这对多模态模型来说就是一份详细的“体检表”。
以前模型测完只知道自己不行,现在用BEAR测完,能知道是哪个“小测试”没通过,改进起来方向就明确多了。
测完框架,祁煜团队还拿GPT-4o做了实验,想看看这个热门模型在具身智能上到底行不行,结果发现,GPT-4o不是全不行,是有的技能行,有的技能拉胯,比如给点技能,它比Gemini做得好,但长程推理就差不少。
GPT-4o栽了跟头?祁煜团队给出门道,错误率降了不少团队对GPT-4o的每个子能力都做了错因统计,发现它主要有三个偏差点。
第一个是视觉和空间对不上,比如让它指个东西,指的位置和实际物体能差出几厘米;第二个是长程推理断层,做任务时会漏步骤,比如擦完桌子直接忘了倒垃圾;第三个是没法适应动态环境,要是环境里有移动的障碍物,它就不知道该怎么绕路了,针对这些问题,祁煜团队设计了优化方向。
一方面优化了视觉-语言对齐模块,多喂了些真实场景的图像和文字标注数据,减少指认时的偏差;另一方面加了个强化学习分步奖励机制,把长程任务的每个步骤都设成奖励点,完成一步给个反馈,这样模型就不容易漏步骤了。
这个思路挺实在的,不是那种虚头巴脑的改进,从仿真测试结果看,优化后的模型整体错误率降了不少,长程推理的错误率降得更明显,祁煜团队做这些研究,不只是为了发论文,更想帮具身智能领域找到迭代的方向。
现在工业界对具身智能需求特别大,比如特斯拉的Optimus机器人、小米的CyberOne机器人,都在往家庭服务场景靠,BEAR这套评测体系刚好能给它们提供标准,算法改进的思路也能帮这些产品少走弯路。
而且祁煜团队还欢迎其他老师同学联系交流,这种开放的态度对领域发展也有好处,祁煜从北大到东北博的学术经历,让他的研究既有理论支撑又能落地。
BEAR框架解决了以前评测“糊涂账”的问题,GPT-4o的错因分析和算法优化又给实践提供了参考,未来要是能多些这样的研究,具身智能说不定能更快从实验室走到我们的生活里,比如家里的机器人能更聪明地干活,工业车间的巡检机器人能更精准地找故障。
页:
[1]