Gemini 2.5 Computer Use模型登场 可理解并代为操控设备界面 进一步接近通用代理模型

作者:拓荒牛 分类:默认分类 时间:2025-10-15 18:34
代理记账服务中心 - 服务中心

Google于10月7日发布Gemini 2.5 Computer Use模型,这款基于Gemini 2.5 Pro视觉理解和推理能力开发的专门模型,让AI代理能够像人类一样操控用户界面。

该模型在多个网页和移动设备控制基准测试中,表现超越Anthropic Claude Sonnet 4.5及OpenAI竞争产品,同时保持更低延迟。开发者现可通过Google AI Studio和Vertex AI的Gemini API使用这些功能。

虽然AI模型可通过结构化API与软件互动,但许多数码任务仍需直接与图形用户界面互动,例如填写和提交表格。要完成这些任务,代理必须像人类一样浏览网页和应用程序,通过点击、输入和卷动操作。原生填写表格、操作下拉菜单和过滤器等互动元素,以及在登录后操作的能力,是创建强大通用代理的关键一步。

该模型的核心功能通过Gemini API中的新computer_use工具公开,并应在循环中运行。工具输入包括用户请求、环境截屏和近期操作历史。输入还可指定是否从完整支持的UI动作列表中排除某些功能,或指定要包含的额外个性化功能。

Gemini 2.5 Computer Use模型会分析这些输入并产生回应,通常是代表UI动作的函数调用,例如点击或输入。此回应也可能包含需要终端用户确认的请求,某些动作如进行购买前需要此确认。客户端程序代码随后执行收到的动作。

动作执行后,GUI的新截屏和当前网址会作为函数回应传回Computer Use模型,重新启动循环。这个迭代过程会持续进行,直到任务完成、发生错误或因安全回应或用户决定而终止互动。Gemini 2.5 Computer Use模型主要针对网页浏览器优化,但对移动设备UI控制任务也展现强大潜力,目前尚未针对桌面操作系统层级控制进行优化。

Gemini 2.5 Computer Use模型在多个网页和移动设备控制基准测试中展现强劲表现。下表包括自我报告数据、Browserbase进行的评估和Google自行运行的评估结果。该模型在浏览器控制方面提供领先品质,同时保持最低延迟,这是根据Online-Mind2Web的Browserbase测试平台性能测量得出。

在实际应用场景中,该模型能完成复杂任务,例如从宠物护理登记网站获取加州居住宠物所有详细数据,并将它们作为访客添加到CRM系统,然后与专家预约10月10日上午8时后的关注探访。另一个示范展示模型能够组织艺术俱乐部的混乱便利贴看板,将任务拖拽到正确分类。

Google表示,创建能惠及所有人代理的唯一方法是从一开始就负责任。控制计算机的AI代理带来独特风险,包括用户的故意滥用、意外模型行为,以及网络环境中的提示注入和诈骗。因此谨慎实施安全防护措施至关重要。

Google已在模型中直接训练安全功能,以解决这三个关键风险。Google也为开发者提供安全控制,让开发者能够阻止模型自动完成潜在高风险或有害动作。这些动作包括损害系统完整性、危及安全性、绕过验证码或控制医疗设备。控制措施包括:每步安全服务,即模型外的推理时安全服务,在执行前评估模型提出的每个动作;以及系统指令,开发者可进一步指定代理在采取特定类型的高风险动作前拒绝或要求用户确认。

Google团队已将该模型部署到生产环境,用于UI测试等用例,这可以显著加快软件开发速度。此模型的版本也一直为Project Mariner、Firebase Testing Agent和AI Mode in Search中的一些代理功能提供支持。Project Mariner是Google DeepMind开发的研究原型,能代表用户操作网站和执行任务。

早期使用计划用户也在测试该模型,为个人助理、工作流程自动化和UI测试提供支持,并取得强劲成果。AI助理Poke.com表示,Gemini 2.5 Computer Use远超竞争对手,速度通常快50%,表现优于他们考虑的次佳解决方案。

自动化AI代理Autotab表示,Gemini 2.5 Computer Use在复杂情况下可靠解析上下文的表现优于其他模型,在最困难评估中性能提升达18%。Google支付平台团队将Computer Use模型实施为应急机制,用于解决导致25%测试失败的脆弱端到端UI测试,现在成功修复超过60%的执行问题(过去需要多天才能修复)。

来源:Google

当前用户暂时关闭评论 或尚未登录,请先 登录注册
暂无留言
版权所有:拓荒族 晋ICP备17002471号-6