新闻动态

端侧AI时代,如何铸造软硬协同“芯”底座?

2025年,随着DeepSeek、机器人、AI AgentGPT-4o多模态生成AI应用的接连破圈,“深度思考”、“智能体”、“多模态”等AI概念迅速从专业领域进入大众视野,这不仅催生全新的大模型软硬件生态加速各类AI应用形态和终端硬件产品迭代升级,更通过爆发式增长的用户体验,让消费者切实感受AI的独特创新价值。行业巨头纷纷加码投入,为模型训练、推理计算、应用开发等核心环节筑牢底层技术支撑。


在云侧AI场景如火如荼发展的同时,端侧创新也在奋进提速。包括芯片厂商、操作系统开发商、手机及PC等消费电子企业在内的产业链上下游玩家,共同探索算力提升、成本优化、应用场景拓展等关键要素的平衡之道。







端侧设备

AI技术普惠的重要载体




随着智能终端设备的不断普及与算力升级,端侧AI从技术概念转化为实际生产力。PC、手机机器人、XR设备智能座舱等消费级终端凭借高渗透率与实时交互特性,成为AI端侧落地的重要载体在芯片性能提升和模型优化技术的双重驱动下,当前端侧设备已具备高效部署AI模型的能力,加速了AI应用从云端向终端迁移。在技术实现路径上,以下几个关键方向值得重点关注




SLM轻量化模型方面,相较于云端百亿级参数大语言模型(LLM),1.5B至7B参数规模的小语言模型(SLM)凭借优异的计算效率和更低的内存占用,逐渐成为端侧AI的主流选择。以DeepSeek-R1蒸馏版为例,该模型在保持高性能的同时,有效降低计算资源需求,进一步拓宽了端侧AI的应用边界。




多模态计算领域,随着LLM和SLM技术的持续迭代,搭载摄像头、麦克风等多模态传感器的各类主流消费电子在AI技术的加持下,正加速推动图像识别和语音交互技术升级,这不仅实现了隐私数据的本地化安全处理,同时为机器人等新兴应用场景注入了强劲的增长潜能,使其能够实时处理海量音视频数据,进而显著提升环境感知和交互等关键能力。




Copilot智能生产力工具方面,生成式AI已广泛应用于编程辅助、智能办公、图像处理、音视频编辑等诸多生产力场景。这类应用对低延迟和隐私保护的特殊要求,使其天然适配端侧计算架构,同步带动终端算力需求的高速增长。




AI Agent技术正在重构人机交互范式。通过自然语言理解、任务分解和多任务协同等能力,智能助理系统将逐步取代传统图形界面,为用户提供更自然流畅、更高效智能的新型交互体验。




异构算力

端侧突围赛的“智”胜关键




算力,始终是AI应用场景拓展与技术创新核心要素。于云侧集中式部署高算力CPUGPU集群,端侧算力则呈现出显著的差异化特性。由于端侧设备数量庞大且分散,算力水平参差不齐,且功耗与成本约束严苛这些因素催生出了多元化的端侧算力体系。从长远来看,异构计算无疑是端侧AI落地最优解。


CPU作为端侧设备的基础计算单元,凭借其卓越的通用性,广泛应用于从入门级到高端的各类设备。Arm® Cortex®系列IP不仅满足稳定的通用计算需求,其配套的Kleidi软件库还针对CPUAI加速能力进行了专门优化。实际应用中CPU通常作为AI工作负载的起点,为开发者提供便捷的部署路径。此外,随着LLM日趋轻量化CPU承担着更为复杂AI计算任务。


NPU则凭借其出色的能效优势逐渐成为端侧AI计算主力担当特别适合处理高算力、长耗时的AI任务。安谋科技自研新一代周易NPU采用专为大模型特性优化的架构设计,将对外带宽提高至256GB/s,全面支持FP16计算,提供完整的INT4软硬量化加速方案通过软硬协同优化,周易NPU实现多核算力的高效扩展,为终端设备的智能化升级提供了核心动能。


在图形相关AI计算领域GPU独特优势,在视频处理和游戏场景中表现尤为突出。Arm MaliImmotalisGPU在保持优异能效比的同时,通过并行计算架构有效支持各类AI工作负载,实现图形渲染与AI计算的协同优化为用户带来更加沉浸式的体验。


CPUNPUGPU的协同工作结合端云混合计算模式,能够满足绝大多数AI应用场景的不同算力需求。随着异构计算技术的持续演进,端侧设备正逐步承担更大比例的AI计算任务,这一趋势正在重塑整个AI计算生态。




软件框架

连接AI应用与算力的关键纽带




AI软件生态作为应用发展的土壤,承担着高效调度硬件算力的重任。当前,云侧已形成以PyTorch+CUDA+GPU为核心的成熟技术体系,为AI研发提供标准化支持;而端侧AI生态暴露出诸多亟待解决的问题,例如生态碎片化严重大模型适配能力欠佳、跨平台兼容性差扩展性受限无法快速响应应用功能迭代需求等。


为此,安谋科技“周易”NPU提供了一套完整的AI软件平台——周易Compass,使开发者可以便捷、快速地进行算法移植和部署。该平台提供一整套端到端的AI软件栈工具,覆盖了仿真器、驱动、RuntimeOpenCL语言编译器、Compiler网络编译器等,能够有效支持不同层级的开发需求。此外,平台新增了对备受开发者关注的Hugging Face模型的支持,并通过开源网络编译器的ParserOPT、适配TVM、发布DSL特定领域编程语言等举措,切实有效地帮助开发者将基于周易NPUAI技术融入到各类开发项目中。


当前,端侧AI软件生态正处于关键发展期,需要在标准化与定制化之间寻找平衡。产业界普遍预期,未来23年将形成12个主导性的基准框架,需要在保持开放性的同时,深度优化特定硬件平台的计算效能。




展望:AI应用为端侧芯片

按下创新“加速键”




回顾PC互联网移动互联网的发展历程,应用需求始终是芯片技术迭代的关键驱动力。在移动应用场景中,对性能与功耗兼顾的需求使CPU大小核架构成为主流;消费者对拍照质量的高要求,推动芯片级影像处理技术成为旗舰手机的标配;人们随时随地的游戏和观影需求,也促使芯片厂商不断提升芯片图形渲染和视频编解码能力。


步入新一轮AI技术浪潮,如何构建异构算力体系,协同适配软件生态,加速AI应用在PC、手机、智能穿戴、机器人、座舱等场景的落地,这无疑将成为端侧厂商们实现可持续发展的关键命题。安谋科技将深耕端侧AI领域,通过自研周易NPU等产品、结合Arm体系优势、以及开放开源软件生态,持续赋能AI时代的技术创新与产业升级。


声明:Arm、Cortex、Immortalis和Mali是Arm Limited(或其子公司)的注册商标或商标。