\u200E
最新动态 一手掌握

专访港科大王帅:国内终端智能体需模型极致瘦身与端云明确分工,香港科技大学王帅

时间: 2026-03-06 18:02作者: 李狂刀

21世纪经济报道记者 章驰 王俊

今年初,从OpenClaw开源引爆行业想象,到2026年世界移动通信大会上AI与终端设备的深度融合,人工智能正经历从“对话”到“做事”的能力跃迁。在今年的全国两会上,人工智能也成为热议话题,工信部部长李乐成在“部长通道”集中采访中表示,要大力推动人工智能(AI)和制造业双向奔赴,要努力推动AI电脑、AI手机、智能家居,更好满足人民群众对美好生活的需求。

技术的发展让人类对终端智能体的想象无限延伸,未来三年内行业会有哪些突破性变革?智能体执行任务时不同技术路线的选择,国内终端智能体产业如何在创新与安全之间找到平衡点?面对国外科技巨头的竞争,国内厂商如何应对挑战,寻求突围?

围绕上述问题,香港科技大学副教授王帅接受21世纪经济报道商业秩序工作室专访,深入剖析了终端智能体发展的核心挑战与突破方向。他指出,从算力和工程两个维度来看,智能体须坚持“端侧优先、云端用完即删”的技术原则,走向“模型极致瘦身”与“端云明确分工”。目前,智能体技术已有成熟手段,GUI 路线门槛低,是一条能让大家“先跑起来”的务实路径。不论使用何种技术路线,行业都应集中精力提高每种技术路线的安全水位线。

王帅强调,除了智能体内生的“自我纠错”能力,也要把重点放在构建类似“交规与红绿灯”的一体化机制,并呼吁将独立的第三方安全审计机制标准化为智能体产品入网的“强制国标”。

完善智能体外围架构是突破重点

《21世纪》:过去一年,人工智能从“会说话”走向“会做事”,从云端模型进入手机、电脑等终端设备。您怎么看这种趋势?智能体的出现对人工智能行业意味着什么?

王帅:这是一个水到渠成的演进。以前大模型更多是待在云端充当“大脑”,帮我们做文本认知和生成;现在终端智能体的出现,相当于给大脑接上了执行任务的“手和脚”。

对行业来说,这意味着 AI 跨过了单纯的“对话工具”阶段,开始具备真正的生产力落地能力。我们正在进入一个向“可靠智能体”过渡的新周期。AI 不再只是陪你聊天,而是要真正替你干活了。

《21世纪》:2025年被认为是智能体元年,但直到今年初OpenClaw开源,不少业内人士才认为智能体真正开始进入现实生活、成为个人助理。智能体发展的关键难点在哪里?接下来两三年,您觉得终端智能体可能会有哪些突破?

王帅:我认为,最大的难点集中在“开放环境下的可靠性”和AI系统安全上。在实验室跑基准测试是一回事,但在真实的手机环境里,面对五花八门的 App 界面、突发的系统弹窗、用户模糊的指令,怎么保证智能体不“幻觉”、不引发灾难性的误操作,是一个极具挑战的系统工程问题。

接下来两三年,除了端侧模型本身理解能力的提升,我觉得行业的突破重点不是过度依赖智能体内生的“自我纠错”,而是外围架构的成熟。打个比方,保障交通安全不能只指望每个司机都不犯错,而是要靠完善的交规、红绿灯和监控。智能体也是一样,未来我们会看到围绕它的“安全围栏”以及一体化防御机制变得越来越完善,用系统级的规则来保障运行安全。

GUI技术路线是能“先跑起来”的务实路径

《21世纪》:终端智能体要能执行任务,有多种技术路线,比如API GUI A2A等,您怎么看行业不同的技术选择,以及它们的影响?几种路线并存会是行业发展的长期状态吗?

王帅:把 API 和 GUI 这两条路线对立起来看,意义不大,它们本质上解决的是不同场景下的痛点。API 路线效率高、结构化好,但太依赖大厂的生态开放意愿,容易形成寡头话语权;GUI 路线门槛低,能迅速打破 App 之间的“生态孤岛”,把长尾应用也盘活,所以它是一条能让大家“先跑起来”的务实路径。

长期来看,这两者必然是走向融合的——极大概率是混合架构。行业与其陷入路线之争,不如把精力集中在怎么把这两条路的安全水位线都提上来。

《21世纪》:GUI视觉路线的一个问题是,智能体需要持续识别屏幕内容,上传到云端进行推理,这意味着多个用户的互动页面、聊天记录等都有可能进入模型处理链条。这个环节存在的不确定性是争议核心。您如何看待这一风险?技术上有没有解决方法?

王帅:风险确实存在,毕竟手机屏幕包含了极高的隐私密度。但我们要厘清一点:风险的根源在于“数据怎么被处理”,而不在于“GUI视觉”这项技术本身。

技术层面,我们其实有成熟的应对手段。首先肯定是坚持“端侧优先”,基础的界面识别尽量在本地处理,绝不上云;其次,针对必须依靠云端大模型做复杂推理的场景,可以通过技术手段在端侧先进行脱敏,剥离掉个人身份、密码等敏感信息;最后,云端的处理机制必须做到“用完即删”,确保用户数据不落盘、绝对不进入后续的模型训练链条。

找到模型迭代和数据最小化的平衡点

《21世纪》:您说的“端侧优先”需要手机端的芯片、算力足够强大,国内厂商该如何破局?

王帅:这个问题非常现实。苹果在软硬件垂直整合以及隐私架构上确实起步早,是目前的行业标杆。但这绝不意味着国内厂商“难以企及”。我们不妨从算力和工程两个维度来看:

首先,我们需要打破对“端侧优先”的算力焦虑。在我的观察中,端侧不需要硬跑一个“全能大模型”,只需要部署一个轻量级的“小模型”,专门把屏幕解析、本地脱敏等“脏活”干好就够了。依托目前最新的旗舰移动芯片,国内厂商在端侧 NPU 算力上足以支撑这种量级的本地处理。

其次,“用完即删”和精密的隐私架构,在我看来,对国内厂商而言并非无法逾越的技术鸿沟。像TEE(可信执行环境)和硬件级安全芯片等技术工具箱,国内手机其实已经具备。目前的挑战更多在于“商业惯性与工程架构的重新平衡”。过去行业比较依赖数据沉淀来反哺和打磨服务,假设现在要全面转向隐私优先,则需要厂商在模型迭代需求和数据最小化之间找到新的平衡点。这不仅是技术的升级,更是整个生态理念转型和磨合的过程。

因此,对于国内硬件厂商来说,或许是要在两个方向破局:一是走向“模型极致瘦身与端云明确分工”,降低对极限算力的依赖;二是从各自为战走向标准共建,基于现有的可信Agent计算基座,建立一套透明、可审计的“端云协同安全标准”等。

推进独立第三方合规检测标准

《21世纪》:假如现在一个智能体产品发布前,必须要求遵循三条安全原则,您会选什么?为了保障行业的安全水位线,除了依赖企业自律,您认为还有哪些机制是必要的?

王帅:如果要定三条铁律,我的选择是:

第一,控制权前置原则: 智能体是助手,不能越俎代庖。在涉及支付、隐私授权等关键节点,必须把控制权交还给用户,操作过程也要保持透明和随时可中断。

第二,数据最小化原则: 只拿当前任务必须拿的数据,多一点都不行。

第三,防御性执行原则: 遇到不确定的界面或模棱两可的指令,系统默认策略必须是“安全拒绝”或“弹窗确认”,决不能为了彰显智能而强行操作。

至于保障机制,单靠企业自律肯定是不够的。我们需要把隐私影响评估和智能体安全审计机制标准化。未来,独立的第三方合规检测标准应该成为智能体产品入网的“强制国标”。