演讲嘉宾 | 章苏迟
编辑 | 李忠良
策划 | AICon 全球野生智能开辟与利用大会
近年来,行业内不竭出现各类十亿,百亿,千亿级此外大模子,在各个范畴均展现了强大的才能。而智妙手机作为具有最大用户数目的终端装备,正成为大模子实现本性化场景与办事的焦点载体。但是想在移动端有限的硬件资本上摆设参数目庞大的大模子,其性能,内存,功耗均面临着严重的应战。 在 AICon2025 上海站上,来自 vivo AI 研讨院的高性能计较工程师章苏迟颁发了题为《vivo 蓝心大模子端侧轻量化摆设的创新途径》的演讲,从 vivo 已上线的营业场景动身,深度分解大模子落端进程中的焦点瓶颈题目及其对应的处理计划,包括模子参数范围挑选,性能 / 内存 / 功耗技术目标的优化等多个方面。AI 大模子重塑手机智能化体验
我是来自 vivo AI 研讨院的章苏迟,当前在 vivo AI 研讨院负责大模子的在端侧的摆设与营业落地。明天很是侥幸能在这里同大师分享我们 vivo 在端侧大模子端侧化进程中的处理计划与思考。
大师这几年买手机的时辰,经常会听到一个概念叫做 AI 手机,相信大师对 AI 手机这个词已经不陌生了。
传统上,虽然智妙手机有五花八门的 AI 功用,但现实上很多人在用的时辰城市感应一些困惑,就是这些所谓的 AI 功用都是单点的,它并没有与系统有很好的连系,而且所谓的智能化 AI 体验,听起来似乎也没法了解用户的意图。
所以 AI 手机现适用起来,大师最初的感受就是并没有那末智能,这也是以往 AI 手机的痛点。
随着大模子技术的成长,特别是这几年多模态大模子不竭出现,它在各个专业范畴都展现出了惊人的才能。行业正从传统的 AI 时代周全迈向大模子 AI 时代。
面临这类行业变化,我们也发生了一个想法就是,假如我们能把大模子技术与手机连系,那末势必能给用户带来加倍智能、本性化的办事,周全重塑手机体验。
在手机上利用大模子云端大模子和端侧大模子这两种计划。云端大模子不会受得手机有限计较资本的影响,它的才能很是强,发挥的空间也很是大,具有相当多的上风。
但手机上还有很是多的与隐私相关的场景,比如说我们不能把一些用户的隐私数据上传到云端,此时我们就只能挑选端侧化的计划。但假如选用了端侧化计划,就意味着我们要把端侧大模子塞得手机里,这听起来就有点不成思议,这真的能实现吗?
我们回溯一下这几年大模子算法的成长趋向,可以发现大模子的常识密度是在延续增强的。对于同等才能的模子,它的参数目随时候推移是呈快速下降的趋向。
比如说我们现在自研的 vivo 蓝心大模子,3B 大模子在算法才能上已经可以比肩以往的 10B 甚至几十 B 的模子,所以大模子的小型化已经成为了一种趋向,与我们将大模子落地到端侧这个诉求是恰好婚配的。
我们 vivo 当前已经将大模子落地到端侧,为用户带来了加倍智能战争安的体验。这里的平安指的是我们对用户隐私数据的庇护。
端侧大模子在推理的进程中,它全部链路一切的数据都是纯端处置的,所以用户的任何隐私信息都不会上云,很好地保证了我们用户的隐私庇护需求。
至于小我智能化的体验,我们就来看看 vivo 把端侧大模子应用在了哪些场景。当前我们把蓝心大模子应用在了很多系统利用中。
第一个就是 vivo 输入法,这是小 V 写作的功用,它首要用到了大模子的文案天生与润饰才能,比如说大师在写购物评价,又大概同朋友聊天,它能帮你一键天生指定的文案和一些高情商的答复。
第二个是我们电话助手的通话摘要功用,它首要用到了蓝心大模子的总结摘要才能,它可以帮用户天生通话内容,比如说你同你的老板打了工作电话,它可以帮你总结整通电话,天生待处事项。
第三个是我们蓝心小 V 里的文本总结功用,它可以帮助你自动总结文档的主题摘要。你不需要看整篇文档,它可以帮你快速天生几百字的摘要,帮助用户快速领会文章方法。
最初一个功用就是我们录音机里的智能命名功用,它可以帮助用户自动识别录音文件内容,自动天生对应的文件名,这样可以避免用户为了找录音文件而频频听,可以省很多时候。
以上一切场景都是经过 vivo 端侧大模子实现的。 大模子端侧化处理计划
大师都说大模子落地到端侧很是难,首先我们要大白它到底难在那里,最关键在于模子的参数目与性能目标之间的平衡。手机真个硬件资本是很是有限的,芯片算力有限,内存巨细也有限,手机的功耗也是很是重要的目标。模子参数目越大,就意味着它消耗的计较劲越大,它对带宽的需求也越高,功耗也就越高。
所以若何平衡模子结果与手机上的这些体验目标,是很是大的题目。假如我们把模子参数目选的很是大,那末它计较劲就很高,它间接带来的题目就是速度很是慢,用户体验的提早就会很是久。
别的也带来一个题目,就是内存占用会很是大,进而致使系统的流利性会遭到一些影响,功耗随之升高,致使我们手机掉电很是快,发热也很是严重,这些都是我们端侧化很是辣手的题目。
决议场景则是需要一切的词全数输出以后才能停止下一步处置,全部出词进程中不会同用户交互。最有代表性的场景就是 AI 自动化操纵手机的场景,这类场景需要极致性能来满足快速响应需求,是以我们在该场景将大模子的推理性能推到极致。
这样按照分歧场景的体验目标来设定对应的性能战略,就能在各个场景都能实现最好体验。
最初就是平安合规的题目。我们针对大模子的平安合规设有专门的端侧考核模子,用户在现实利用端侧的进程中,针对用户的输入以及大模子的输出,我们均有考核模子停止判定,如果有分歧规的内容,我们就会中途中断返回,从而保证全部进程傍边内容的平安性。
我们在其他模态上也有了一些技术功效,比如说在视觉模态实现了端侧 AI 消除,单张图片的全链路处置耗时能控制在 6 秒内。在语音模态实现了超拟人音色,也就是所谓的 TTS,初次播放耗时在 300 毫秒之内,出词性能也满足了二倍速的标准,在 70 token 每秒左右。别的在视觉多模态的部分,我们实现了图文问答,单次回答的响应耗时能控制在两秒内。
我们从大模子的场景展开,再到技术目标以及场景的优化,终极这一切都是由我们 vivo AI 研讨院的 AI 团队自研的 VCAP 计较加速平台作为支持的。
针对大模子,我们对全部 VCAP 的工程架构停止了升级,在工具链以及运转时均针对大模子推理设想了专属的优化模块。比如说我们在推理时可以针对这个营业场景自在挑选推理形式,它既可所以标准的推理形式,也可以是并行解码的加速形式。
别的我们还有静态 cache、prompt 缓存技术以及 LoRA 切换等特征。在硬件层面,我们支持挪用 CPU 以及高通和联发科的 NPU 硬件才能。 嘉宾先容
章苏迟,vivo AI 研讨院高性能计较工程师。于 vivo AI 研讨院任职,首要处置 AI 高性能计较偏向,负责 NN 收集在移动真个摆设与性能优化,在 CPU、GPU、DSP 指令集优化和 AI 推理框架设想上有丰富经历,是 vivo 端计较处理计划 VCAP 的主力开辟之一。当前正在负责 AI 大模子在移动真个摆设与优化,处理大模子落真本性能和功耗题目,打造行业领先的端侧大模子才能。 会议保举
首届 AICon 全球野生智能开辟与利用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “摸索 AI 利用鸿沟” 为主题,聚焦 Agent、多模态、AI 产物设想等热门偏向,围绕企业若何经过大模子下降本钱、提升经营效力的现实利用案例,约请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模子理论经历和前沿洞察。一路摸索 AI 利用的更多能够,挖掘 AI 驱动营业增加的新途径!