打破AI参数迷信!三星微型模型何以击败GPT、Gemini?
最近AI圈出了个大新闻,三星SAIL蒙特利尔实验室搞出个“小个子”模型,就700万参数,居然在复杂推理任务里赢了那些动辄千亿参数的大模型。这事儿直接把“模型越大性能越强”的老规矩给破了,我刚看到这消息的时候都有点不敢信。
大模型推理总掉链?三星玩了个“复盘式”新花样现在主流的大模型,比如谷歌的Gemini、OpenAI的GPT系列,写文案、聊家常是挺厉害,但一碰到多步骤的逻辑推理就容易拉胯。
它们是逐词生成内容的,推理链条里只要有一步错了,后面全得乱。
之前谷歌搞了个“思维链”技术,让模型边想边说,本以为能解决这问题,结果不仅没根治,还让计算成本涨了不少。
我身边做AI开发的朋友说,用“思维链”跑一次复杂推理,服务器成本比平时高两三倍,属实不划算。
三星的团队没跟着这条老路走,反而搞了个新架构,微型递归模型。
这模型有意思,它不单向推理,而是自己反复检查、修正答案,最多能迭代16次,跟咱们做完题回头复盘似的。
它把推理拆成两部分:内部先琢磨怎么优化,再根据琢磨的结果更新最终答案,形成一个闭环。
本来我觉得模型层数越多肯定越厉害,后来发现三星这模型两层的反而比四层的表现好。
问了懂行的人才知道,原来太复杂的模型容易“死记硬背”训练数据,简化之后反而能更好地应对新问题,避免过拟合。
这一点真的挺反直觉,也给行业提了个醒:不是堆料越多越好。
实测碾压!700万参数AI在“智商测试”里赢麻了架构改得好,实际表现到底咋样?看几个测试数据就清楚了。
AI圈有个叫ARC-AGI的“智商测试”,专门考模型的抽象推理能力,之前最厉害的模型也就考个三成多的准确率。
结果三星这700万参数的模型,在ARC-AGI-1上直接考了四十多,而谷歌最新的Gemini2.5Pro才考了2%,差距一下子就拉开了。
还有极限数独测试,就给1000个训练样本,这模型准确率能到八十七左右,比它之前的分层推理模型高了三成多。
30×30的复杂迷宫寻路,成功率也比前代高了十个百分点。
为啥能这么牛?关键是训练方法改了。
以前的分层推理模型,得遵守“不动点定理”才能保证训练收敛,束手束脚的。
三星这模型直接把这约束扔了,用完整的递归过程做反向传播训练,理论上简化了,效果反而更好。
我查了下PyTorch社区的测试数据,这种训练方法比传统的快12倍,效率一下子就提上来了。
搞不清之前为啥大家都盯着参数规模猛堆,现在看来,优化训练策略才是突破口。
AI不搞“参数军备竞赛”了?这波操作让小团队也有机会这技术不光性能厉害,对整个AI行业的影响才是最深远的。
现在AI圈有点陷入“参数军备竞赛”了,从GPT-3的1750亿参数到GPT-4的万亿级参数,都是大公司在玩。
我查了2024年的全球AI算力报告,头部五家科技公司占了八成多的算力,中小型机构根本玩不起,单台AI训练服务器就要五百万以上,普通实验室哪扛得住?
肯尼亚去年刚成立的一个AI实验室,就是因为算力不够,只能做传统机器学习的应用,没法碰前沿研究。
三星这模型一出来,情况就不一样了。
资源少的机构、初创公司,甚至发展中国家的团队,都能用普通服务器做推理类AI研究,不用再跟在大公司后面跑。
而且这模型特别省电,能耗是大模型的千分之一到万分之一。
斯坦福有报告说,训练一次GPT-4的能耗,够200户家庭用一年,碳排放一百五十吨。
现在欧盟都要出“AI碳足迹强制披露政策”了,这低能耗模型刚好踩中了绿色AI的趋势。
更实用的是,它能装在边缘设备上。
比如自动驾驶的车载芯片,像特斯拉HW4.0,内存就16GB,根本装不下千亿参数的模型,但这微型模型256MB内存就够了。
工业上的传感器之前只能采集数据,没法实时分析故障,现在装个这模型,就能当场判断问题,效率能提不少。
本来我觉得这技术只能用在特定场景,后来发现物联网设备、智能家居这些地方都能用,全球一百多亿台边缘设备要是都装上,每年能少排两亿吨碳,相当于少开四百万辆燃油车,这价值就大了。
三星这700万参数的模型,不光是技术上的突破,更给AI行业指了条新路子,别再盲目堆参数了,优化架构和训练策略才是王道。
未来可能会出现更多“小而精”的模型,针对不同任务做优化,AI也能从大公司的“专属玩具”变成更多人能用的工具。
我挺期待看到明年有没有更多团队跟进这技术,说不定到时候咱们身边的智能设备,都会因为这“小个子”模型变得更聪明、更省电。
页:
[1]