AI视频“考物理”，谷歌DeepMind联合多家机构发现评分体系存在漏洞，于是亲手修了它-拓荒牛-知识产权服务中心-拓荒族

AI视频“考物理”，谷歌DeepMind联合多家机构发现评分体系存在漏洞，于是亲手修了它

作者：拓荒牛分类：默认分类 时间：2026-06-22 22:40

知识产权服务中心 - 服务中心

这项由德国慕尼黑工业大学、纽伦堡工业大学、图宾根大学AI中心、亥姆霍兹人工智能中心与谷歌DeepMind联合完成的研究，以预印本形式于2026年6月17日发布，论文编号为arXiv:2606.18943。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。

**AI视频模型真的"懂物理"吗？一个听起来荒唐、却极其重要的问题**

如果你用手机拍下一杯水从桌边掉落的瞬间，再把这段视频开头三秒钟交给一个AI，让它预测后续五秒会发生什么——AI给出的答案，到底是"真的推理出来的物理结论"，还是"看起来像真的，但其实是瞎蒙的"？

这个问题比看上去重要得多。因为现在越来越多的AI视频生成模型被寄予厚望，不仅要"生成好看的视频"，还要充当所谓的"世界模型"，帮助机器人理解和预测物理世界的运作方式。换句话说，如果这些模型要用于机器人控制、科学模拟或自动驾驶辅助，它们必须真正理解物理规律，而不只是制造视觉上"看起来合理"的假象。

然而，要评估AI是否"真懂物理"，首先需要一把靠谱的尺子。2026年初，一个名为Physics-IQ的基准测试正是为此而生，它通过让AI续拍真实物理实验视频，再把AI生成的结果与真实录像对比，来打出一个"物理理解分"。

这把尺子听起来很科学，但研究团队仔细审查后发现：这把尺子本身存在不少问题。于是他们花费大量精力，把这把尺子重新校准了一遍，并把修好的版本命名为Physics-IQ Verified。

**一、原来的"物理考试"是怎么考的**

Physics-IQ基准测试的核心设计思路有点像一道开放性作文题。研究人员在实验室里录制了66种不同的物理实验场景，涵盖固体碰撞、流体运动、热力学现象、光学效果和磁力互动。每种实验都从三个不同角度拍摄，并且每种实验各做了两次，所以总共产生了396段视频。

每段视频大约8秒长，前3秒展示实验初始状态，后5秒是真正"好戏上演"的部分——比如一个球被松开后的滚落轨迹，或者颜料滴入水中后的扩散形状。AI的任务是：看完前3秒，再配合一段文字描述，预测并生成后续的5秒画面。

评分时，系统会把AI生成的5秒视频和真实拍摄的5秒视频进行四个维度的比较。前三个维度都基于"运动激活图"——简单说，就是把每一帧里发生了变化的区域标记出来，然后比较AI的"变化区域"和真实视频的"变化区域"有多少重合。这三个指标分别回答了三个问题：动作发生在哪里？动作发生在什么时候、什么位置？动作有多强烈？第四个指标则直接在像素层面比较AI画面和真实画面的差异，答案是：画面长什么样？

最终分数会用第二次实验录像作为"人类自然误差"的参照线，因为就算同一个实验做两次，也不会完全一模一样。这个参照线的设计是为了让满分代表"和第二次重复实验一样准确"，而不是"和真实视频像素级吻合"。

这个设计方向本身是合理的，但研究团队发现，从细节执行到最终打分，整个流程里藏着三类系统性问题，足以让分数偏离"真实物理理解能力"这个本来应该测量的目标。

**二、发现问题一：考题本身描述不清**

先说最直观的那类问题：题目写得不好。

物理考试里，题目出得含糊，学生不是因为不懂物理、而是因为看不懂题而答错，这对测量物理能力来说是一种污染。Physics-IQ的文字提示词也存在类似问题，研究团队把这些问题归纳为四种类型，按照严重程度从高到低排列。

最严重的是"事实错误"——文字描述和视频里实际发生的事情根本不一样。举一个论文里提到的真实案例：视频里滚动的是一个灰色和棕色的网球，但提示词写的是"蓝色和黄色网球"。AI按照描述生成的视频，颜色对了可能动作错，颜色错了可能动作反而对，这时候打出来的分数，到底在测什么？

第二严重的是"时间描述混乱"——提示词描述的动作，其实在视频前3秒就已经完成了，但文字却写成了好像接下来还会发生一样。比如某个实验里，网球已经在初始帧之前就被松开，但提示词却说"球正被握住然后松开"。AI不知道该不该"再松一次"，就只能乱猜。

第三类问题是"关键信息缺失"——描述里没有告诉AI一些对预测至关重要的细节。比如一个陶瓷马克杯从桌子上掉下来，但提示词只说"黄色马克杯"，没说材质，也没说会不会摔碎——而这恰恰是决定后续画面走向的核心变量。从纯物理推理角度看，你不知道杯子是陶瓷的还是橡皮的，就无法预测它落地后的样子。

第四类问题相对轻微，是"语言模糊"——动作描述太笼统，缺少足够的约束条件，导致AI可以生成各种各样"看起来合理"但彼此差异极大的结果。

研究团队审查了全部198段待评估视频，发现其中69段、也就是超过三分之一的视频，存在上述至少一种提示词问题。

除了内容上的问题，还有一个形式上的问题：原始提示词没有按照各个AI模型的"说话方式"来写。就像你用普通话写了一道考题，交给一个只习惯用粤语理解指令的人来作答，就算题目本身对，对方理解起来也会有偏差。不同的AI视频模型，其实都有自己偏好的提示词结构和表达方式，原始Physics-IQ完全没有考虑这一点。

研究团队的解决方案是为每道题重写提示词，并把提示词拆分成六个固定的功能区：场景初始状态描述、场景补充信息、动作描述、摄影机规格、画面风格要求，以及"本视频只包含上述内容，不会出现其他人物或互动"这一明确边界声明。后两个区域是全新添加的，在原始Physics-IQ里完全不存在。

特别值得一提的是"边界声明"这个设计。研究团队注意到，用原始提示词让Wan 2.2生成一只静止的黄色橡皮鸭时，模型会自发地在视频里凭空冒出一只手来戳它——因为提示词里没有明确说"只有鸭子，没有别的东西"。加上边界声明之后，AI就不再添油加醋了。

还有一个细节：所有提示词都被改写成了正面陈述，而不使用否定句式。这不是因为写法习惯，而是有研究依据的——多项针对大语言模型和视觉语言模型的研究都发现，这类AI对于"不要做某事"的理解能力远不如"请做某事"，某些模型提供商甚至在官方指南里明确建议用户避免否定指令。

**三、发现问题二：打分规则对每道题的权重不公平**

第二个问题藏得更深，需要一点耐心才能看明白。

原始Physics-IQ的打分是在整个数据集层面统一计算的。具体来说，它把所有198个视频的得分加起来，除以所有198个"自然误差基准"加起来，得到一个比值。

听起来没问题，但有一个隐患：这个"除法"让不同的视频具有不同的"权重"，而这种权重差异和物理理解能力本身没有关系。

打个比方：假设有两道物理题，第一道题的"自然误差基准"很小（比如磁铁吸引铁片，每次实验结果几乎完全一样），第二道题的"自然误差基准"很大（比如水从高处倒下后的飞溅形状，每次都不太一样）。在原始打分系统里，第二道题的"分母"很大，所以即便AI在这道题上表现出色，对总分的贡献也会相对放大；而第一道题即便AI答对了，由于分母小，其实很难通过"超越基准"来获得高分。

换句话说，实验本身的"自然随机性"大小，会系统性地影响最终分数对不同实验的权重分配，这和我们想测量的"AI物理推理能力"并没有直接关系。

研究团队的解决方案是把打分从"数据集级别"改为"每道题单独打分"。在新的Physics-IQ Verified评分体系里，每段视频都会先独立计算四个维度的得分，每个维度各占四分之一，然后四个分数平均，得到这道题的"物理理解分"。最后所有题目的分数再做平均，得到总分。

这样一来，每道题对最终分数的影响完全相等，不再被"自然随机性"的大小扭曲。同时，还有一个意外收获：研究者可以追溯到每一道具体题目的分数，知道AI在哪类物理场景上表现好、在哪类场景上表现差，而不是只有一个笼统的总分。这对于指导AI模型的改进，意义要大得多。

**四、发现问题三：视频里混入了"干扰动作"**

第三个问题最直观，也最能用图片说明白（论文里有大量配图，这里用文字描述代替）。

Physics-IQ的三个IoU指标，本质上都在测量"哪里发生了运动"。具体做法是：对于视频的每一帧，把和上一帧相比"发生了变化的区域"标记出来，形成一张"运动热力图"。好的AI应该在视频里的正确位置、正确时间产生运动，和真实视频的热力图高度重合。

但问题来了：真实录制的视频里，并不是所有的运动都来自我们关心的物理现象本身。

研究团队把这类无关运动称为"虚假激活"或"干扰项"，并把它们分为两种。一种是"确定性干扰"，比如实验装置里有一个旋转台，实验结束之后旋转台还在转，台子的运动会持续产生激活信号，但这和物理效果本身完全无关。另一种是"非确定性干扰"，即偶然出现的、无法预测的干扰，比如录制时摄像机轻微抖动、背景里有人影晃过、或者用来抓取物品的机械臂在物体落地后继续移动产生的额外激活。

这两种干扰的危害机制不同。确定性干扰虽然存在，但至少是可以预测的，所以AI只要足够聪明，在原则上也能模拟出来。非确定性干扰就麻烦多了——因为它们本来就是随机出现的，没有任何提示词会告诉AI"录制时摄像机会在第87帧微微抖动一下"，所以AI无论如何都无法预测，导致这部分的得分降低完全不能反映AI的物理推理能力。

研究团队的解决方案是手工标注。他们为每一段需要修正的真实视频添加了两类注释：一类叫"效果结束帧"，标记物理现象在哪一帧结束；该帧之后的所有视频画面，都被替换为定格画面，杜绝后续无关运动产生的激活。另一类叫"冻结区域"，在物理现象还在进行的时段内，把视频中存在干扰运动的空间区域也替换为静止画面，清除这部分区域对热力图的污染。

这两个操作的底层思路是一致的：不是涂掉问题区域，而是让问题区域"静止下来"。之所以选择"静止"而不是"遮盖"，是因为遮盖本身也会产生视觉边界，进而产生新的激活信号，制造出新的干扰。静止则不会。

经过这番清理，在198段视频中，有59段存在需要处理的干扰问题，约占总量的三成。在所有"活跃帧"（即存在运动激活的帧）里，有超过四分之一被不同程度地修改，以移除干扰成分。

**五、修好了之后，分数发生了什么变化**

研究团队用修改前和修改后的两套评估体系，分别测试了六个当前主流的图像转视频AI模型：三个开源模型（Wan 2.2、HunyuanVideo 1.5、Cosmos3-Nano），三个闭源商业模型（Sora 2、P-Video、Grok Imagine Video）。

结果揭示出了一些意料之外的发现。

从绝对分数看，使用修改后的评估体系，除了Wan 2.2，其余五个模型的最终得分都有所上升。这主要来自两方面：改善后的提示词让AI更准确地理解任务，从而生成了更符合物理预期的视频；而新的每道题单独打分的方式，也消除了原来系统对某些题目的权重压低。

但Wan 2.2是个例外——它的得分反而下降了。研究团队的分析表明，这主要来自两方面的叠加效应。第一，Wan 2.2对改善后的提示词反应不如其他模型正面，使用更规范的提示词后，得分反而下滑。第二，干扰项清除后，Wan 2.2的得分损失最大，说明它的原始高分有相当一部分来自对视频里"无关运动"的匹配，而不是对物理现象本身的准确预测。

从排名来看，变化也相当明显。在原始评估体系里，Wan 2.2排第一，Grok Video第二，HunyuanVideo第三，P-Video第四，Cosmos3-N第五，Sora 2垫底。切换到修改后的体系，Grok Video和HunyuanVideo跃升到第一、第二，Wan 2.2跌至第三，Cosmos3-N升到第四，Sora 2升到第五，P-Video落到最后。

研究团队用一个叫Kendall's τ的统计量来衡量两套排名的差异程度：这个数值为0表示两套排名完全无关，为1表示完全一致。计算结果是0.46——这意味着两套体系下的排名存在"中等程度但不可忽视"的差异，足以让研究者和开发者对模型的相对实力做出不同判断。

统计检验还进一步证实了这种差异不是偶然波动：通过反复重采样模拟出500个虚拟评估场景，两套体系各自内部的排名稳定性都接近完美（相关系数超过0.97），但两套体系之间的排名相关性明显更低，且两者的置信区间不重叠——这是排名变化具有实质意义、而非统计噪声的有力证据。

关于改进后的逐题打分方式本身，有一个有趣的观察：单独切换到新的打分公式，不改变提示词也不清除干扰，排名几乎不变，但所有模型的绝对分数都会均匀上升。这说明新打分公式本身主要改善了分数的"可解读性"和"可追溯性"，而不是系统性地偏袒或惩罚某类模型。

**六、改进了什么，又没改变什么**

理解这项工作，有一个角度特别重要：研究团队并没有重新设计Physics-IQ，而是在保持其核心框架不变的前提下，修补了三类具体的测量缺陷。

那么这三类修补各自的独立影响有多大？论文做了系统性分拆分析。

提示词改善带来的影响：用改善后的提示词替换原始提示词，在保持其他一切不变的情况下，五个模型的得分都有统计显著的提升，效应量达到"中等到较大"级别。Sora 2的提升尤为突出，因为原始提示词下Sora 2倾向于生成有明显摄像机移动的视频，而改善后的提示词明确要求静止镜头，生成质量大幅改善。

干扰项清除带来的影响：把真实视频里的干扰运动清除后，所有模型的基于运动重合度的得分都有统计显著的下降，效应量达到"较大"级别。这一发现的重要性在于：它告诉我们，原始评估体系下，模型的部分分数来自对"非物理现象"的匹配，而非对物理规律的正确预测。Wan 2.2在这方面的分数下降最大，直接解释了它的排名下滑。

打分公式改变带来的影响：如前所述，对排名几乎没有影响，但使每道题的贡献权重更加公平，并提供了逐题分析的能力。

**说到底，这项研究告诉了我们什么**

归根结底，这篇论文在做一件看起来朴素但意义深远的事：检查我们用来衡量AI物理能力的"尺子"，是不是真的在量它应该量的东西。

研究结论相当明确：原始Physics-IQ的尺子存在三处系统性误差——题目描述不准确、打分对不同题目的权重不公平、以及参考答案里混入了无关的干扰运动。这三处误差不是可以忽略的小细节，而是会系统性地影响模型的绝对得分和相对排名。

对于普通人来说，这意味着下次看到"AI物理理解能力测试结果"时，需要多问一句：这个测试本身，经过严格校验了吗？就像一把生了锈的尺子量出来的长度，不能当作可靠数据来使用一样。

对于AI研究者和开发者来说，这意味着一旦某个评估基准成为行业标准，它的缺陷会通过优化目标传导到模型训练本身，让模型朝着"在有缺陷的尺子上看起来更好"的方向进化，而不是朝着"真正更好地理解物理"的方向进化。Physics-IQ在2026年初已经被OpenAI的Sora 2、Meta的VJEPA-2等多个顶级视频生成项目引用为评估标准，其分数直接影响研究方向的选择。在这个背景下，修复尺子，不只是学术洁癖，而是一种对整个领域负责任的行为。

当然，即便是修复后的Physics-IQ Verified，研究团队也坦诚承认它的局限：它仍然是基于特定视角下的真实视频录制，当AI生成了一个"物理上同样合理、但和参考视频略有不同"的结果时，它仍然会被扣分。毕竟，很多物理过程是有内在随机性的，同样条件下倒水，水花形状每次都会有些差异，都是正确的，都是符合物理规律的。如何处理"多个合理答案"的问题，仍然是下一步需要面对的挑战。

有兴趣深入探讨这一话题的读者，可以在arXiv上通过编号2606.18943找到完整论文，也可以访问谷歌DeepMind的Physics-IQ GitHub页面，查看改进后的完整评估代码和数据。

---

Q&A

Q1：Physics-IQ Verified和原始Physics-IQ有什么具体区别？

A：Physics-IQ Verified主要做了三方面改进：修正了原始评估中34.8%存在问题的提示词（包括事实错误、时间描述混乱、信息缺失和语言模糊四类问题）；清除了29.8%视频中存在的无关运动干扰，让评分更准确地反映物理现象本身；同时把打分从数据集整体计算改为每道题单独打分，让每段视频对总分的贡献完全平等，也让分析者能够追溯到具体哪类物理场景表现好或差。

Q2：Wan 2.2为什么在修改后的Physics-IQ Verified里排名下滑了？

A：Wan 2.2是六个被测模型里唯一在改用改善后提示词后得分反而下降的模型，说明它对规范化提示词的响应不如其他模型。更重要的是，清除视频里的干扰运动后，Wan 2.2的得分损失在所有模型中最大，表明它的原始高分有相当一部分来自对"与物理现象无关的运动"的匹配，而非真正准确预测了物理效果。这两方面叠加，导致它的排名从第一跌至第三。

Q3：AI视频模型的"物理理解能力"目前处于什么水平？

A：根据Physics-IQ Verified的评测，当前表现最好的模型得分约在33至35分（满分100），距离"像做第二次重复实验一样准确"这一参照上限还有相当距离。论文还提到，目前所有模型中得分最高的历史记录约为62.6分，但这是在存在测量缺陷的原始体系下取得的。总体而言，当前AI视频模型对物理规律的理解仍然十分有限，视觉上逼真并不等于物理上准确。

AI视频“考物理”，谷歌DeepMind联合多家机构发现评分体系存在漏洞，于是亲手修了它

阅读(0) 评论(0) 分享(0)

暂无留言