
新眸原创·作者 | 鹿尧
2025年,中国科技圈的关键词无疑是“智能体”(Agent)。
在几乎任何一场科技论坛或创投峰会上,你都能听到“全能助理”类的AI被热捧,它能帮你写邮件、做PPT、分析数据,甚至语气语调都越来越像人。市场热钱涌动,无数创业公司凭借一个精巧的对话Demo就能拿到可观融资,“自主决策”“AI员工”等成为常提及的词汇。
但如果走进金融机构的核心部门,会发现另一种反差:尽管这些“智能助理”被宣传得无所不能,但它们依然大多被局限在客服、文案、会议纪要等基础场景中“试水”。在真正关键的领域,如信贷风控、财富管理、投资决策——AI的介入依然慎之又慎。
一边是供给方声称技术已无限接近通用人工智能,另一边是需求方最核心的业务流程仍未被真正触动。对于金融机构来说,AI看起来聪明,用起来却危险。一旦涉及专业的金融推理和严苛的合规要求,模型若产生“幻觉”,信任赤字便成为横亘在AI与核心业务之间的鸿沟。
正是在这种普遍的行业焦虑与期待中,国际权威研究机构IDC近期发布的《IDC MarketScape:中国智能体开发平台2025年厂商评估》报告,提供了一个关键坐标。蚂蚁数科凭借其全栈企业级智能体平台Agentar,入选最高级别的“领导者”象限。
IDC给出的入选理由直接而清晰——“全栈技术能力”与“金融领域的深度积累与规模化落地成果”。
这并非空谈:蚂蚁数科自研的金融推理大模型Agentar-Fin-R1,在三大金融基准测试中均位列榜首,超越多个主流开源模型。目前,宁波银行、上海银行、天津银行、新华人寿等多家机构,均已基于该模型打造自主的“AI大脑”。
如今,AI竞争的胜负手从“技术有无”转向“产业深度”,这已是行业共识,但难就难在“怎么做”。蚂蚁数科的实践,恰好提供了一个观察范本。它并非只提供单一的智能体开发工具,而是以“行业大模型”和“可信智能体”为双引擎,驱动了一套从数据治理、算力调度、模型训练、安全防御到场景应用的全栈式解决方案。
更关键的是,这套体系“已规模化落地”的标签——目前已服务100%的国有股份制银行、超60%的地方性商业银行及数百家金融机构,在真实业务场景中历经严苛淬炼。从这个角度看,此次入选远超一次厂商排名,它或许正预示着一个更务实、更贴近产业需求的AI发展阶段的到来。
01、为何AI总在金融深水区“失灵”?
在金融这条赛道上,技术的试错成本是以亿元、甚至机构信誉为单位计算的。这决定了金融机构引入AI的核心诉求,与互联网用户的体验有着本质区别。它们的核心诉求不是单一的智能,而是“可信的智能”。
这种“可信”是一个系统性的工程,意味着AI的输出必须是专业、可靠、可解释。当前AI在金融核心领域推进缓慢的症结,很大程度上源于一种认知错配:许多技术供应商仍习惯用打造互联网产品的“用户体验逻辑”来套用金融AI。
在这种逻辑下,竞争维度还在拼更长的停留、对话模板是否丰富、接入的应用接口数量是否庞大——AI被视为交互界面升级或解决易用性这些浮于表面的问题,核心是优化“怎么问”和“怎么答”。
然而,金融业需要的AI,是决策内核的升级——“答案为何可信?”、“决策依据是否可追溯?”以及“出现问题时,谁来负责?”
因此你会看到,市场上有大量“盆景式”的AI解决方案,但它们很难在真实的业务中发挥作用。金融机构的痛点,并不是信息不足,它们坐拥海量数据,缺的是在专业领域内进行“闭环推理”的能力。
如果一个平台只提供最基础的AI生成bot,却没有解决数据隐私泄露风险、无法防御“AI换脸”攻击、不能保证大模型输出合规,那么整个系统在客户看来就是不可用的。对于金融行业而言,风控、投资、合规这些场景,要求AI的每一分输出,都必须有十分的可解释性作为支撑。
这正好呼应了蚂蚁数科对金融AI未来的四个关键趋势判断。
其中前两点:“从通用走向专业化”与“智能体成为核心载体”——直指上述痛点。水平通用模型无法满足金融业的专业与严谨,而智能体,正是将大模型能力与金融工具、业务流程深度融合,以实现“闭环推理”的最佳载体。
更深刻的是后两点判断:“大模型建设是系统工程”与“业务价值成为核心驱动力”。
它们揭示了一个趋势:AI与金融行业的关系,从一个单向的“技术赋能”阶段,进入一个双向的“业务驱动AI优化”的聚焦阶段。AI建设不再由科技部门孤立推动,业务部门根据真实的客户经营和增长需求来驱动,能够让AI落地更稳。
换句话说,在一个能确保最终输出“可信”的完整系统里,AI的最终效能不取决于其最长的长板(如对话的拟人度),而取决于它最短的那块短板——可能是数据隐私、模型安全,也可能是对抗“幻觉”的能力。
在严谨行业,最大的商业价值就是提供“信任”。
02、黑箱白化 如何用AI交付“信任”?
理解了金融行业对“可信智能”的刚性需求,再回头看蚂蚁数科入选领导者象限,其关键不在于它做了“更聪明”的AI,而是致力于打造更透明、更可嵌入的AI。
我们可以将这个过程称作“黑箱白化”——把AI不可见的思考过程,变成一条清晰可见、可审查的轨迹。这种能力,在金融这类严谨行业里,比模型参数规模的大小更为重要。
当然,蚂蚁数科的能力并非一蹴而就。其技术体系根植于金融领域数字科技的长期实践,在“强监管、高并发、零容忍”的真实业务环境中持续锤炼。诸如AI安全风控(ZOLOZ)、隐私计算(摩斯)等关键产品,也是在一线的炮火中诞生并成熟起来的。
我们可以透过两个典型案例,来摸清这套系统在实际中交付“信任”的运行逻辑。
为了解决金融机构普遍面临的“知识孤岛”挑战,宁波银行与蚂蚁数科合作,依托Agentar知识工程平台(KBase),共建了一套融合“知识加工管理平台+逻辑推理引擎+智能应用场景”于一体的智能化决策系统。
简单来说,这套系统能管理行内外各类数据,核心能力包括智能问答、知识加工等。凭借“知识增强生成引擎”的技术突破,通过“规划-检索-推理”机制,关联知识图谱与文本,实现从“模糊匹配”到“精准推理”的跨越。这样一来,AI不只是能“看懂”金融专业知识,还具备了类似人类的逻辑思考能力。
现在该方案在宁波银行的行情分析、产品解读、写报告等多个内部场景在用。测试结果显示,复杂问题的回答准确率从68%升到91%,回应速度快到几百毫秒。除此以外,推荐内容的准确率提高了35%,召回率提高了40%。
由于Agentar知识工程平台具备强可解释性,还能明确展示答案是怎么推理出来的,数据来自哪里。这在金融行业强监管的环境下,能保证AI使用的安全和合规。
另一边,上海银行案例的创新并非“对话”技术本身,而是用对话重构了银行业务流的入口:传统手机银行App是“人找服务”的逻辑,用户需要在一系列菜单中导航。而上海银行的AI手机银行,通过“对话即服务”,将模式转变为“服务找人”。
一句“我这个月的养老金到账了吗?”,不再需要先找到“账户查询”,再选择“养老金账户”,最后查看明细。AI直接理解意图,调动后台的“账户查询”和“养老金管理”等服务能力,一站式交付结果。
银行将所有的业务能力打包成“服务能力”,由AI作为智能的“调度中心”进行统一调配。这么做的好处很明显,用户的交易摩擦系数降低。这展示了AI的另一个核心价值:它不仅优化流程,更能重塑企业与客户的连接方式。
两个案例,一个对内赋能,一个对外服务,共同指向一个超越技术的竞争维度:对行业业务本质的理解深度与重构能力。
目前,蚂蚁数科的金融AI智能体业务核心产品,已覆盖从专为银行客户经理设计的全能型“数字分身” Agentar业务助理、到面向内部营销、运营专家的运营助理,以及面向面向终端用户的个人金融管家,和面向企业对公经营的企业经营专家。
更值得一提的是蚂蚁数科与金融机构的合作方式,前期搭好垂直行业AI地基,解决80%的共性需求,再根据各机构业务需求进行模型二次训练。以全栈产品为基座,与金融机构共创、共建,交付一种“授人以渔”的系统工程、一个可持续进化的AI大脑——如其判断,真正的AI原生是一个系统化工程。
03、从“工具”到“操作系统” 谁定义架构,谁就定义未来
回顾蚂蚁数科的路径,从打造金融推理大模型Fin-R1,到构建集成了安全风控(ZOLOZ)、模型安全(蚁天鉴)、智能体研发全栈平台Agentar,其目标始终清晰:交付一个确保AI在严谨行业里安全、合规、有效运行的“可信环境”。
这份“可信”由一系列硬性指标所背书。无论是Agentar平台通过代表最高成熟度的 “信通院5级认证” ,还是其大模型在金融基准测试中持续领先,都指向一个核心特质:可控、可解释,共同构成了金融级应用不可或缺的“安全底座”。
它系统性地解决了AI落地金融的“木桶效应”——最薄弱的短板(安全、合规、可解释性)决定了AI价值的最终上限。这揭示了一个关键转折:金融AI的上半场是“技术有无”的竞赛,而下半场,将是“合规与信任”的较量。
当“可信”成为基础条件,竞争便升维至下一个层面。蚂蚁数科AI业务总裁余滨的判断,精准描绘了升维图景:
“AI已从试试看走向必须做,正从成本中心转变为服务、营销与价值创造的核心。金融AI的升级需要科技与业务的深度融合。经由大规模数据治理、知识工程、模型训练,驱动从内外部协作、迭代研发、用户体验甚至组织关系的变革,这才是真正的‘AI原生’”。
这指向一个结论:智能体的竞争,从“单点工具”的售卖,进入“行业操作系统”阶段。
何为“行业操作系统”?
传统软件是流程的自动化,云服务是资源的池化,而AI时代的操作系统,其核心任务是“智能的标准化生产、调度与价值兑现”。它不再只是调用某个API,而是需要管理从数据原料、算力能源、模型算法、安全规则到业务工具的一整套复杂体系,并确保输出的智能是可靠、可用、可进化的。
蚂蚁数科的全栈解决方案,正是在尝试扮演这个角色。
相比提供分散的“工具箱”,先搭建包含垂类模型、知识库、工具集和方法的“AI地基”,并与金融机构实战共建,这实际上是将高度定制化的系统工程,转变为可配置、可运营的“交钥匙”产品,让银行能快速构建并拥有自主可控的“AI大脑”。
与此同时,在“操作系统”的逻辑下,“数据飞轮”也远不止是拥有更多数据。它的本质,是在“特定业务闭环”中产生的、带有明确业务含义和结果反馈的高浓度燃料。
蚂蚁数科通过服务海量金融机构,持续获取的是经过业务场景反馈调优的“任务数据”和“效果数据”。这些数据反哺其垂类模型迭代,形成“场景越深、数据越精、模型越专、价值越显”的增强回路。
这个闭环,是其“操作系统”保持领先且难以被复制的核心动力。
最能体现这种“操作系统”级深度与自信的,莫过于其“按效果付费”的商业模式。这是技术深度与业务绑定强度达到临界点后的自然结果。毕竟只有当“操作系统”能深度融入客户的业务流程,并对最终业务结果拥有可衡量、可归因的影响力时,才敢与客户共担风险、共享收益。
IDC的领导者象限认证,也从一个侧面揭示了市场分化:一端是众多停留在“盆景式”智能体的应用层创新,虽具巧思却难以深入产业核心价值层;另一端,则是如蚂蚁数科这般,在少数高壁垒产业中,通过构建“操作系统”来定义智能如何生成、调度与兑现的生态级公司。
随着AI技术从概念走向落地,市场从追逐工具的浮华,转向关注产业价值的沉淀。那些能够深入产业场景、定义智能架构并持续交付确定性的平台,不仅决定智能时代的生产关系与商业格局,也印证了AI与产业融合的真正方向。
— END —
晋ICP备17002471号-6