一股“端侧大模型”浪潮正在涌来。华为、高通等芯片巨头正探索将AI大模型植入端侧,让手机实现新一代物种进化。
(资料图片)
相比ChatGPT、Midjourney等AI应用依赖云端服务器提供服务,端侧大模型主打在本地实现智能化。它的优势在于能够更好地保护隐私,同时让手机能通过学习成为用户的私人智能助手,还不必担心云端服务器宕机等问题。
不过,现有技术条件下,手机性能远不足以支撑大模型运行。业内主流的技术方案是,通过剪枝、量化、蒸馏来给大模型“瘦身”,在尽可能少地减损精度的前提下,降低它所需的资源和能耗。
高通已经开始研发用于端侧大模型的芯片。这预示着,部署AI模型的手机终端正在向我们走来。
手机厂商将大模型引向移动端
AI大模型正在从云端向智能终端狂奔。
8月4日,在2023年华为开发者大会上,华为对外发布HarmonyOS 4,相比前几代操作系统,它最显著的一大变化是,将AI大模型能力内置在了系统底层。华为正在拉开AI模型走向“智能终端侧”的序幕。
目前,人们使用ChatGPT、Midjourney等AI应用提供的服务,基本都是通过云端服务器来完成。以ChatGPT为例,它背后的大模型和计算资源都存储在远程服务器上,用户通过与服务器实时交互,被输入的文本经服务器处理后,获得返回响应。这样的好处在于,可以确保模型的高效稳定运行,因为服务器通常配置了强大的计算资源,而且可以随时扩展以适应高负载。
如今,新的支持逻辑出现了。华为正在尝试将大模型引入终端,这意味着上述所有工作都能在本地完成,手机系统本身就具备了一定的AI能力,不需要接入AI云端服务,也能实现智能化升级。
华为常务董事、终端BG CEO余承东介绍,HarmonyOS 4由华为盘古大模型提供底层支持,希望给用户带来智慧终端交互、高阶生产力效率、个性化服务的全新AI体验变革。
HarmonyOS 4引入了AI大模型
HarmonyOS 4的AI能力目前主要由华为智慧助手“小艺”体现。大模型接入后,小艺在语音交互的基础上,扩展了文字、图片和文档等多种形式的输入,自然语言理解能力得到提升。小艺还能根据指令,连接多种服务和场景,比如自动提取图片文字,生成各类商业电子邮件内容或生成图像等。
更重要的改变是,小艺具备了记忆和学习能力,随着不断使用,它将变得越来越懂“主人”,能够智能给出出行、活动计划等方案,并根据根据用户习惯,实现个性化推荐。华为透露,小艺这些新的能力,将在8月下旬开启公开测试体验。
将AI大模型内置于手机系统底层,华为希望借此全盘提升手机的智能化程度。虽然小艺的上述功能并不“高深”,但要实现起来,用户往往需要同时调用ChatGPT、Midjourney等众多应用才能完成。当手机本身有了AI能力后,它就像一个更全能的助手,提供全面的服务。
在HarmonyOS 4发布之前,华为其实已经尝试过将AI大模型接入移动终端。今年3月,华为发布P60手机,其中自带的智慧搜图功能就是基于多模态大模型技术,通过在手机侧对模型做小型化处理,实现了手机端的自然语言模型运行。
将AI模型引入端侧,华为并不是头一家。在2023世界人工智能大会上,高通展示了大模型进入端侧的操作实践,将生成式AI模型Stable Diffusion放在搭载了第二代骁龙8的手机上运行,15秒内执行了20步推理,并生成了一张512x512像素的图像,且图像效果与云端处理水平相差并不明显。
在上海MWC 2023期间,荣耀CEO赵明也表示,荣耀将在智能手机端推动部署端侧大模型,以此实现多模态自然交互、精准意图识别、复杂任务的闭环服务等体验。
备受瞩目的还有苹果,一个月前,苹果被曝出正在秘密研发“Apple GPT”,它是一款基于苹果自研的Ajax框架开发的人工智能工具。尽管具体的细节尚有待披露,但业内普遍猜测,苹果很可能在系统层加入大模型,提升提升语音助手Siri的智力,让Siri摘掉“人工智障”的帽子。
炒作还是新革命?
手机厂商盯上大模型不稀奇,但为啥他们要走“端侧”路线?毕竟,华为小艺的交互、生成能力通过云端服务器也能提供,而且看起来成本更经济、技术实现更容易。
把AI大模型装进智能移动端,是炒作还是确实有其必要性?在这一问题上,无论是余承东还是赵明,都提到了两个关键词:隐私安全和个性化。
余承东强调,华为主张所有AI体验创新和场景设计的第一原则是安全与隐私保护,打造更负责任的AI,并承诺AI生成的内容都会进行标识。
相比在云端处理数据,智能终端侧最明显的优势在于隐私安全。此前,ChatGPT屡次陷入数据泄露风波。今年3月,三星在内部发布了ChatGPT使用禁令,起因是半导体员工疑似因使用ChatGPT泄露了公司机密;上个月,ChatGPT背后公司OpenAI及其股东微软被16人匿名起诉,控诉他们在未经允许的情况下使用并泄露了个人隐私数据,索赔金额高达30亿美元。
当数据处理都在端侧,用户的个人数据将不会上传至云端服务器,大幅降低了隐私泄露风险。这也为手机AI助手真正变成生活管家提供了先决条件——只有隐私得到保障,用户才会放心将数据交给AI去学习。
在赵明的理解中,端侧AI大模型的使命就是更好地理解用户,“知道我几点睡觉,知道我喜欢吃什么,能解决我的即时需求,相当于拥有洞察我需求的能力。”而要做到这些,就需要AI基于用户的个人数据和习惯进行训练,最终智能手机将有希望成为全能助手,或者说是私人机器人秘书,能够帮助用户解决餐饮、订票、咨询、娱乐、办公等多场景的需求。
相比之下,无论是ChatGPT还是其他主流的AI应用,都是标准化产品,在不加改造的情况下很难具备私人助手的能力,它并不了解用户,只是根据用户的输入指令做出相应的回应。个人手机已经是一个私有的个人智能设备,如果理解人类语言的AI模型能跑在手机上,智能化程度无疑将得到大提升。
另外,依赖云端的应用也存在不稳定性,比如由于网络或服务器原因,云端的响应速度可能会变慢,甚至干脆宕机,这在ChatGPT上已经出现多次,本地化的大模型将大大削弱对云端的依赖,从而避免“云卡顿”。
基于上述特点,大模型的“端侧革命”展现出了潜力,甚至有希望让进入发展瓶颈多年的手机再来一次激动人心的物种进化,就像当年大屏智能手机的出现以及iPhone发布时刻一样。
但大模型想在手机端发挥实力存在一个显而易见的问题:手机芯片顶得住吗?由于大模型动辄包含上百亿、千亿的参数,且需要天文级的训练,消耗庞大的算力,现有手机芯片的性能显然无法满足要求。
对此,业内目前较主流的解决方案是“模型小型化”。
简单来说,当模型网络结构确定后,在尽可能少地降低精度的前提下,给模型“瘦身”,从而降低它所需的资源和能耗。这一过程通常有三步,将模型中对精度影响非常小的参数裁剪掉,被称为“剪枝”;使用更低精度的数据类型进行推理,行话叫“量化”;而从复杂的模型中,提取出效果相近但更加简单的模型,被形象地称作“蒸馏”。最终目的,都是为了减小模型体积。
另一方面,高通等芯片厂商,也在针对AI大模型端侧部署研发专用的芯片。此前,高通5G移动平台骁龙8 Gen2首度集成的AI专用Hexagon处理器,采用了独立的专用供电系统,支持微切片推理、INT4精度和Transformer网络加速等,能在提供更高性能的同时,降低能耗和内存占用。
端侧大模型正在掀起新一代智能终端革命。IDC预测,到2026年,中国市场中近50%的终端设备的处理器将带有AI引擎技术。AI带给人类科技生活的又一个巨变或将出现。