AI正处在L2向L3的关键过渡期 智能体时代才刚刚开始

作者:拓荒牛 分类:默认分类 时间:2025-06-21 23:03
软件著作权服务中心-企业CBD - 服务中心

我们距离 AGI 还有多远?

作者/ IT 时报记者 贾天荣

编辑/潘少颖 孙妍

关于 AGI(通用人工智能)的时间表,马斯克曾预测,AGI 可能会在 2026 年投入使用;DeepMind 联合创始人、首席 AGI 科学家谢恩 · 莱格在一次访谈中提到,2028 年,人类有 50% 的概率开发出第一个 AGI。

6 月 19 日凌晨,OpenAI CEO 山姆 · 奥特曼在接受采访时表示:“五年前,如果让我或其他人基于软件的认知能力给出 AGI 的定义,我认为那时的定义现在已经远远被超越了。尽管定义会不断扩展,但人们仍然会同意我们已经越来越接近 AGI。”

业界关于 AGI 的观点众说纷纭,有人视其为洪水猛兽,有人将其看作下一次技术革命,这也引发了关于 AGI 发展路径的争论:它是即将到来的颠覆性变革,还是一个尚需漫长探索的理想愿景?

在 MWC25 上海期间,众多行业领袖与顶尖科学家就 AGI 的演进路径展开了深入讨论,人们也不禁发问:我们距离实现 AGI 究竟还有多远?

当务之急是让 AI 能够解决问题

“无论 AI 如何发展,最终都应服务于人,服务于人的工作和生活。”在荣耀 CEO 李健看来,“让 AI 真正走进生活、解决问题,是当前最紧迫的任务”。

如何才能够让 AI 真正走进生活?山姆 · 奥特曼曾经提出 AI 发展的五个阶段:L1 聊天者— L2 推理者— L3 行动者— L4 创新者— L5 组织者。

“我们正在从‘思考’向‘行动’跨越,AGI 不可能突然宣布问世,一定是一个持续演进的过程。”李健表示,当前 AI 正处在 L2 向 L3 的关键过渡期,“当务之急是要让 AI 能够解决问题,只有让 AI 落地生根,让用户日常使用起来,才能够真正释放 AI 的潜力。”

围绕这一需求,当前 AI 技术正在发生三大结构性变化:首先是从“模型能力”向“落地能力”的转变。未来 AI 之间的竞争不再是模型参数的大小,而是能否将 AI 真正部署、运行,并解决实际问题。“能跑起来、干得动的模型,才是好模型。”李健说。

其次,AI 的价值定位也在发生变化。从原本的“工具效率”向“结果闭环”转变,AI 不再仅仅是辅助工具,而是应成为能够自主完成任务流程的“执行者”。未来的 AI 应用必须实现结果归因、持续进化,并带来可衡量的价值。

最后,AI 产品形态也在转变,从云端计算到切实存在。李健认为,AI 不应停留在云端或数据中心,而应深入到每一台设备、每一个场景中,真正成为人类的“贴身伙伴”。

在 MWC25 上海现场,越来越多的企业将“ AI 如何解决问题”作为展示重点。

在中国电信展区,AI 已深入多个真实生活场景:如支持情绪识别与心情日报推送的儿童陪伴机器人、可进行实物取用的四足陪跑机器人、内置大模型矩阵的天翼 AI 手机、支持定制化应用调用的 AI 云电脑等。这些应用背后,是电信级 AI 基础能力的体现。

联想围绕个人智能和企业智能两大主线,全面展示了在 AI 终端、AI 基础设施、AI 解决方案与服务三大业务板块的创新实践与落地成果。其新一代人机交互入口——天禧个人超级智能体,具备 AI 操控、AI 搜索、AI 翻译、AI 笔记、AI 服务五大黄金功能,重新定义智能交互体验,并且确保数据安全和个人隐私保护,让用户像相信自己一样相信 AI。

突破场景、性能和信任三大瓶颈

AI 从“概念创新”走向“场景落地”,正成为业界共识。

为了实现 AI 落地,李健提出“两个支柱”概念:一个支柱是硬件,是核心载体,AI 硬件不再是模型的外壳,而是与用户共处、共感、共生的“人格延伸”;第二个支柱是 Agent,即核心入口。AI Agent 不仅是任务执行工具,更是理解用户意图、交付结果闭环的“智能化交互中心”,是用户的数字化分身。

尽管 AI 技术已取得显著进展,但要真正走向 AGI,仍有三大难题尚未解决:场景闭环尚未打通,当前 AI 在多设备、多场景之间仍然存在割裂,用户在不同设备间调用 AI 仍显烦琐;性能瓶颈依旧存在,端侧算力不足,内存偏小,难以支撑 7B 以上的模型运算,推理复杂任务仍需依赖云端计算,造成时延和功耗挑战;信任体系仍未建立,幻觉、隐私、安全、伦理等问题仍是用户的顾虑所在,行业尚未形成统一的治理标准与技术规范。

只有突破场景、性能和信任的三大瓶颈,才能让 AI 真正走进生活。对此,李健提出三个解决方案:首先是打破数据孤岛,在保证数据隐私和安全的前提下,实现数据共享和训练;其次,打破服务孤岛,建立开放的 API 机制,整合服务生态;第三,打破设备孤岛,建立开放的通信协议,实现设备的互联互通。只有这样,AI 才能真正做到“通、好、全”,为用户带来解放感和自由感。

对于性能闭环的打通,李健认为需要通过端云协同、软硬协同和上网协同来突破算力瓶颈,并提升计算效率,从而让 AI 更加流畅、高效,提供极致体验。

在信任体系方面,他建议行业要在模型、算法技术、隐私保护标准和 AI 伦理治理方面共同协作,建立一个更可靠、更可控、更可信的 AI 系统。

据了解,荣耀将在即将发布的 Magic V5 中率先落地上述理念,展示让 AI 真正“跑起来”的能力。

多模态是实现 AGI 的必经之路

“多模态是实现 AGI 的必经之路。”大会现场,阿里巴巴集团智能信息事业部副总裁兼首席科学家许主洪指出,现实世界本身就是多模态的,模型要想拥有接近人类的认知能力,必须能整合图像、语音、文本、视频等多种模态,增强上下文理解力,提高可信度与准确率,并大幅降低幻觉发生的风险。

目前,多模态大模型技术主要分为理解型模型和生成型模型。理解型模型主要集中在如何“读懂”不同模态的信息,而生成型模型则专注于如何遵循指令生成高质量的多模态内容,如图片、视频和音频等。

“理解型模型的重点仍集中在视觉与语言领域,但我们希望未来能有处理更多种类的模态。”许主洪表示,阿里巴巴自研的“ Qwen2.5-Omni 全模态模型”相比传统的视觉语言模型,具备更强的多模态处理能力,不仅能处理图像、视频、文本,还能支持语音,并具备实时双工交互能力。

目前的多模态理解模型大多基于自回归模型框架,而主流的多模态生成模型大多采用扩散模型框架,理解和生成任务基于两套不同的体系。如何将这两种任务统一,是行业内讨论的焦点之一。

“我们预测,未来的多模态大模型将逐步走向统一延伸的多模态范式。”许主洪表示,要实现这一目标,设计统一模型时需回答多个关键的开放式问题:是选用自回归模型、扩散模型还是融合架构?如何实现不同模态之间的编码解码与对齐融合?这些仍有待技术突破。

过去一年,OpenAI 的“ O 系列”模型与 DeepSeek 的 R1 等大模型推动了大语言模型推理能力的跃升。如今,业界正在尝试将这一范式扩展到多模态场景,并构建“多模态思维链(Multimodal Chain-of-Thought)”,以增强推理能力。通过在输入、思考与输出三个阶段引入多模态信息,并辅以规则驱动的强化学习,模型的“思维能力”有望得到进一步激发。

“多模态和 AI Agent 的时代才刚刚开始。”许主洪总结道,尽管 AGI 的实现仍需解决诸多技术难题,包括多模态大模型的基础能力、Agent 核心模块的完善、数据世界的连接与操作、物理世界的控制与交互等,行业面临着巨大的技术挑战,但这些也为未来多模态大模型领域提供了丰富的机会。

排版/ 季嘉颖

图片/ MWC IT 时报

来源/《IT 时报》公众号 vittimes

当前用户暂时关闭评论 或尚未登录,请先 登录注册
暂无留言
版权所有:拓荒族 晋ICP备17002471号-6