谷歌AI安全框架首度引入操控防护,全面升级内部部署监管

作者:拓荒牛 分类:默认分类 时间:2025-09-24 15:03
企业第二办公区-企业CBD - 宣传部

谷歌的DeepMind部门对其人工智能(AI)安全框架进行了修订,新增了针对操控性AI系统的防护措施,并扩大了对内部部署的监管范围。

《前沿安全框架》第3.0版(PDF)首次引入了针对有害操控的关键能力等级。

这一新分类针对的是那些“具备强大操控能力,可能被滥用以系统性、显著地改变特定高风险场景中的信念和行为”的AI模型。

“此项新增基于我们已开展的研究,旨在识别并评估生成式AI中驱动操控的机制,”DeepMind负责安全与隐私、责任与AI安全以及对齐的约翰·“Four”弗林、海伦·金以及安卡·德拉根写道。

Google DeepMind还表示,他们已将对错位风险的处理方式从探索性措施扩展到更广泛的层面。

该框架现在提供了针对机器学习研发模型的详细协议,这些模型可能“加速AI研发至潜在不稳定的水平”。

这些先进系统在整合进AI研发流程时,既可能被滥用,也可能由于缺乏指向性而产生风险,构成双重威胁。

安全案例审查的范围现已扩展至大规模内部部署的先进机器学习研发能力,而不仅限于对外发布。

公司承认,这些内部部署同样可能带来风险,尤其是涉及能够自动化AI研究工作的系统时。

能够完全自动化谷歌任何研究团队工作、专注于提升AI能力的模型,将受到框架中最高的安全等级4的保护。

Google DeepMind通过更细致的能力评估和明确的风险可接受性判定,进一步强化了风险评估流程。

该框架在化学、生物、放射或核威胁、网络攻击以及有害操控等风险领域设立了安全措施。

“我们的框架旨在依据风险的严重程度进行相应的防护,”DeepMind的研究人员写道,并补充说明,只有行业范围内广泛采用,这些安全建议才能真正发挥效用。

谷歌表示,当模型对公共安全构成未被缓解的重大风险时,将向政府部门共享相关信息。

其他AI供应商也相继发布了AI安全政策。

Anthropic推出了《负责任扩展政策》(RSP),Meta则可能对被视为风险过高的模型实施发布限制。

与此同时,OpenAI在今年四月更新了《准备框架》,改变了以往的做法——不再在发布前对模型进行风险评估,以检测其可能的说服或操控能力,这类模型可被用于制造高效的宣传活动。

不过,OpenAI将会在模型发布后持续监测其是否被用于AI操控。

当前用户暂时关闭评论 或尚未登录,请先 登录注册
暂无留言
版权所有:拓荒族 晋ICP备17002471号-6