[db:作者] 发表于 2025-10-15 21:54

中国Qwen3成关键!国际团队靠它突破AI难题,造全球最大开源模型

文 | 金锐点
编辑 | 金锐点
新一代的扩散语言模型明明有优势,能并行生成文本,理论上速度更快,还能更好地理解上下文逻辑,可就提不上速度。
核心问题出在训练上,它的效率比老款的自回归模型低不少,想追上AR的效果,得在有限数据集里多迭代好多次才行。
不过最近这局面被打破了,一个由DeepMind、Meta老兵组建的国际团队,突然推出了全球最大的开源DLM,测试里还轻松超过了Dream-7B、LLaDA-8B这两款热门模型。

更让人意外的是,他们没砸钱从零造新架构,反而是靠改造中国的Qwen3老款AR模型实现的。
为啥国际团队偏偏选了Qwen3?这改造到底藏着什么门道,能把困扰行业的DLM难题给解决了?
要弄明白这件事,得先搞清楚DLM之前的卡脖子点在哪,过去业内想做DLM,要么死磕全新架构,要么硬着头皮反复训练。
结果要么成本高到扛不住,要么效果不如预期,更麻烦的是,老款AR模型还有先发优势。

训练工具成熟、流程稳定,还有大量从业者积累的经验,想绕开AR直接做DLM,基本等于从零开始踩坑。
就是在这种情况下,这个国际团队走了条捷径,既然AR模型已经很成熟,那不如拿现成的AR改造成DLM。
既省了从头建体系的麻烦,还能保留AR原本的能力,而他们最终挑中的AR模型,不是别家的,正是咱们中国的Qwen3-30BA3B。
选Qwen3可不是随便拍板的,它的硬实力摆在那,首先,Qwen3本身是款成熟的AR模型,用的是稀疏MoE架构。

总参数有300亿,但实际激活的只有30亿,这种设计特别实用,既能保证模型的处理能力,又能降低计算成本,对后续改造来说太关键了。
其次,Qwen3早就经过了大规模预训练,语言理解、事实储备甚至代码生成的本事都有。
这些老知识要是能保留下来,改造DLM时就不用让模型从头学起,省了大把时间。
另外,Qwen3是开源的,团队能直接拿到模型框架和训练工具,不用额外花时间去破解或重建基础,这对想快速突破的团队来说,相当于拿到了快捷键。

更值得说的是,他们的改造思路比早期方法简单得多,却更管用,以前业内想把AR改成DLM。
要么一步步调整注意力掩码,跟慢慢松绑似的,还得设计复杂的调整节奏。
要么直接改模型结构,把AR的单向注意力换成双向的,可这么改容易把原有的知识给丢了。
这些方法在小模型上还行,一到300亿参数的大模型就容易出问题,而这个国际团队用的是简单持续预训练,步骤其实很直接。

先拿Qwen3-30BA3B当底子,把原本只能往前看的单向注意力掩码,直接换成能前后都顾到的双向掩码。
接着在新的训练目标下,用5000亿个token接着训练,就这么两步,居然真让模型具备了DLM的能力。
他们还考虑到了一个关键问题,怕改造过程中,Qwen3原有的知识被忘光。
之前有研究发现,AI模型里的事实知识,大多存在MLP层和嵌入层里,要是这些层在改造中被改乱了,模型就算有了DLM的能力,基础本事也会打折扣。

所以团队用了分层学习率的策略,给需要适应双向上下文的注意力层,用更高的学习率,让它能快速调整。
给存着知识的MLP层、嵌入层,就用更低的学习率,尽量保住Qwen3原本的知识库。
这么一来,改造后的模型既学会了DLM的并行生成,又没丢了AR时期积累的本事,算是把两者的优势结合起来了。
改造完的成果,就是全球最大的开源DLM——RND1-Base,从测试数据来看,表现确实扎实。

在推理、STEM、代码生成这些常用场景里,它都稳定超过了Dream-7B和LLaDA-8B。
更重要的是,它没丢了Qwen3的底子,基础能力跟老款AR模型比没缩水。
而且团队特别敞亮,把模型、训练流程、推理代码甚至样例输出全开源了,不管是企业还是研究者,都能直接拿过去用。
这在AI圈里其实挺少见的,毕竟很多大模型要么闭源,要么只开放部分功能,能把300亿参数的DLM全开源,也能看出他们对改造效果的信心。
不过客观说,这模型也不是没局限,团队没把它跟LLaDA系列的最新款做对比,从现有部分指标看,它也没超过这款模型。

所以现在还不能说RND1-Base就是最强DLM,后续还得跟更多新款模型PK,才能真正站稳脚跟。
但即便如此,这件事的价值已经很明确了,它证明不用从零造新模型,改造成熟的AR模型也能做出大规模DLM,而且还能控制成本、保留知识,给行业提供了一条更务实的路。
更值得关注的是Qwen3在其中的角色,它不只是个被改造的工具,更像是中国AI技术实力的一个缩影。
以前提到国际AI突破,大家总觉得是国外团队靠自己的技术领跑,可这次不一样,国际团队主动用中国的Qwen3当基础,还靠它解决了行业难题。

这其实能看出来,中国AI模型的成熟度、兼容性,已经足够支撑起全球级别的技术突破了。
往后说不定会有更多团队效仿这种思路,用现成的成熟模型做改造,而Qwen3的案例,也给中国AI技术的走出去多了一个方向。
不只是输出最终产品,也能靠扎实的基础模型,成为全球AI创新的垫脚石,而且技术创新不一定非要推倒重来。
有时候,把现成的好技术用对地方、改到点子上,反而能更快解决难题。
页: [1]
查看完整版本: 中国Qwen3成关键!国际团队靠它突破AI难题,造全球最大开源模型