这项由德国慕尼黑工业大学、纽伦堡工业大学、图宾根大学AI中心、亥姆霍兹人工智能中心与谷歌DeepMind联合完成的研究,以预印本形式于2026年6月17日发布,论文编号为arXiv:2606.18943。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。
**AI视频模型真的"懂物理"吗?一个听起来荒唐、却极其重要的问题**
如果你用手机拍下一杯水从桌边掉落的瞬间,再把这段视频开头三秒钟交给一个AI,让它预测后续五秒会发生什么——AI给出的答案,到底是"真的推理出来的物理结论",还是"看起来像真的,但其实是瞎蒙的"?
这个问题比看上去重要得多。因为现在越来越多的AI视频生成模型被寄予厚望,不仅要"生成好看的视频",还要充当所谓的"世界模型",帮助机器人理解和预测物理世界的运作方式。换句话说,如果这些模型要用于机器人控制、科学模拟或自动驾驶辅助,它们必须真正理解物理规律,而不只是制造视觉上"看起来合理"的假象。
然而,要评估AI是否"真懂物理",首先需要一把靠谱的尺子。2026年初,一个名为Physics-IQ的基准测试正是为此而生,它通过让AI续拍真实物理实验视频,再把AI生成的结果与真实录像对比,来打出一个"物理理解分"。
这把尺子听起来很科学,但研究团队仔细审查后发现:这把尺子本身存在不少问题。于是他们花费大量精力,把这把尺子重新校准了一遍,并把修好的版本命名为Physics-IQ Verified。
**一、原来的"物理考试"是怎么考的**
Physics-IQ基准测试的核心设计思路有点像一道开放性作文题。研究人员在实验室里录制了66种不同的物理实验场景,涵盖固体碰撞、流体运动、热力学现象、光学效果和磁力互动。每种实验都从三个不同角度拍摄,并且每种实验各做了两次,所以总共产生了396段视频。
每段视频大约8秒长,前3秒展示实验初始状态,后5秒是真正"好戏上演"的部分——比如一个球被松开后的滚落轨迹,或者颜料滴入水中后的扩散形状。AI的任务是:看完前3秒,再配合一段文字描述,预测并生成后续的5秒画面。
评分时,系统会把AI生成的5秒视频和真实拍摄的5秒视频进行四个维度的比较。前三个维度都基于"运动激活图"——简单说,就是把每一帧里发生了变化的区域标记出来,然后比较AI的"变化区域"和真实视频的"变化区域"有多少重合。这三个指标分别回答了三个问题:动作发生在哪里?动作发生在什么时候、什么位置?动作有多强烈?第四个指标则直接在像素层面比较AI画面和真实画面的差异,答案是:画面长什么样?
最终分数会用第二次实验录像作为"人类自然误差"的参照线,因为就算同一个实验做两次,也不会完全一模一样。这个参照线的设计是为了让满分代表"和第二次重复实验一样准确",而不是"和真实视频像素级吻合"。
这个设计方向本身是合理的,但研究团队发现,从细节执行到最终打分,整个流程里藏着三类系统性问题,足以让分数偏离"真实物理理解能力"这个本来应该测量的目标。
**二、发现问题一:考题本身描述不清**
先说最直观的那类问题:题目写得不好。
物理考试里,题目出得含糊,学生不是因为不懂物理、而是因为看不懂题而答错,这对测量物理能力来说是一种污染。Physics-IQ的文字提示词也存在类似问题,研究团队把这些问题归纳为四种类型,按照严重程度从高到低排列。
最严重的是"事实错误"——文字描述和视频里实际发生的事情根本不一样。举一个论文里提到的真实案例:视频里滚动的是一个灰色和棕色的网球,但提示词写的是"蓝色和黄色网球"。AI按照描述生成的视频,颜色对了可能动作错,颜色错了可能动作反而对,这时候打出来的分数,到底在测什么?
第二严重的是"时间描述混乱"——提示词描述的动作,其实在视频前3秒就已经完成了,但文字却写成了好像接下来还会发生一样。比如某个实验里,网球已经在初始帧之前就被松开,但提示词却说"球正被握住然后松开"。AI不知道该不该"再松一次",就只能乱猜。
第三类问题是"关键信息缺失"——描述里没有告诉AI一些对预测至关重要的细节。比如一个陶瓷马克杯从桌子上掉下来,但提示词只说"黄色马克杯",没说材质,也没说会不会摔碎——而这恰恰是决定后续画面走向的核心变量。从纯物理推理角度看,你不知道杯子是陶瓷的还是橡皮的,就无法预测它落地后的样子。
第四类问题相对轻微,是"语言模糊"——动作描述太笼统,缺少足够的约束条件,导致AI可以生成各种各样"看起来合理"但彼此差异极大的结果。
研究团队审查了全部198段待评估视频,发现其中69段、也就是超过三分之一的视频,存在上述至少一种提示词问题。
除了内容上的问题,还有一个形式上的问题:原始提示词没有按照各个AI模型的"说话方式"来写。就像你用普通话写了一道考题,交给一个只习惯用粤语理解指令的人来作答,就算题目本身对,对方理解起来也会有偏差。不同的AI视频模型,其实都有自己偏好的提示词结构和表达方式,原始Physics-IQ完全没有考虑这一点。
研究团队的解决方案是为每道题重写提示词,并把提示词拆分成六个固定的功能区:场景初始状态描述、场景补充信息、动作描述、摄影机规格、画面风格要求,以及"本视频只包含上述内容,不会出现其他人物或互动"这一明确边界声明。后两个区域是全新添加的,在原始Physics-IQ里完全不存在。
特别值得一提的是"边界声明"这个设计。研究团队注意到,用原始提示词让Wan 2.2生成一只静止的黄色橡皮鸭时,模型会自发地在视频里凭空冒出一只手来戳它——因为提示词里没有明确说"只有鸭子,没有别的东西"。加上边界声明之后,AI就不再添油加醋了。
还有一个细节:所有提示词都被改写成了正面陈述,而不使用否定句式。这不是因为写法习惯,而是有研究依据的——多项针对大语言模型和视觉语言模型的研究都发现,这类AI对于"不要做某事"的理解能力远不如"请做某事",某些模型提供商甚至在官方指南里明确建议用户避免否定指令。
**三、发现问题二:打分规则对每道题的权重不公平**
第二个问题藏得更深,需要一点耐心才能看明白。
原始Physics-IQ的打分是在整个数据集层面统一计算的。具体来说,它把所有198个视频的得分加起来,除以所有198个"自然误差基准"加起来,得到一个比值。
听起来没问题,但有一个隐患:这个"除法"让不同的视频具有不同的"权重",而这种权重差异和物理理解能力本身没有关系。
打个比方:假设有两道物理题,第一道题的"自然误差基准"很小(比如磁铁吸引铁片,每次实验结果几乎完全一样),第二道题的"自然误差基准"很大(比如水从高处倒下后的飞溅形状,每次都不太一样)。在原始打分系统里,第二道题的"分母"很大,所以即便AI在这道题上表现出色,对总分的贡献也会相对放大;而第一道题即便AI答对了,由于分母小,其实很难通过"超越基准"来获得高分。
换句话说,实验本身的"自然随机性"大小,会系统性地影响最终分数对不同实验的权重分配,这和我们想测量的"AI物理推理能力"并没有直接关系。
研究团队的解决方案是把打分从"数据集级别"改为"每道题单独打分"。在新的Physics-IQ Verified评分体系里,每段视频都会先独立计算四个维度的得分,每个维度各占四分之一,然后四个分数平均,得到这道题的"物理理解分"。最后所有题目的分数再做平均,得到总分。
这样一来,每道题对最终分数的影响完全相等,不再被"自然随机性"的大小扭曲。同时,还有一个意外收获:研究者可以追溯到每一道具体题目的分数,知道AI在哪类物理场景上表现好、在哪类场景上表现差,而不是只有一个笼统的总分。这对于指导AI模型的改进,意义要大得多。
**四、发现问题三:视频里混入了"干扰动作"**
第三个问题最直观,也最能用图片说明白(论文里有大量配图,这里用文字描述代替)。
Physics-IQ的三个IoU指标,本质上都在测量"哪里发生了运动"。具体做法是:对于视频的每一帧,把和上一帧相比"发生了变化的区域"标记出来,形成一张"运动热力图"。好的AI应该在视频里的正确位置、正确时间产生运动,和真实视频的热力图高度重合。
但问题来了:真实录制的视频里,并不是所有的运动都来自我们关心的物理现象本身。
研究团队把这类无关运动称为"虚假激活"或"干扰项",并把它们分为两种。一种是"确定性干扰",比如实验装置里有一个旋转台,实验结束之后旋转台还在转,台子的运动会持续产生激活信号,但这和物理效果本身完全无关。另一种是"非确定性干扰",即偶然出现的、无法预测的干扰,比如录制时摄像机轻微抖动、背景里有人影晃过、或者用来抓取物品的机械臂在物体落地后继续移动产生的额外激活。
这两种干扰的危害机制不同。确定性干扰虽然存在,但至少是可以预测的,所以AI只要足够聪明,在原则上也能模拟出来。非确定性干扰就麻烦多了——因为它们本来就是随机出现的,没有任何提示词会告诉AI"录制时摄像机会在第87帧微微抖动一下",所以AI无论如何都无法预测,导致这部分的得分降低完全不能反映AI的物理推理能力。
研究团队的解决方案是手工标注。他们为每一段需要修正的真实视频添加了两类注释:一类叫"效果结束帧",标记物理现象在哪一帧结束;该帧之后的所有视频画面,都被替换为定格画面,杜绝后续无关运动产生的激活。另一类叫"冻结区域",在物理现象还在进行的时段内,把视频中存在干扰运动的空间区域也替换为静止画面,清除这部分区域对热力图的污染。
这两个操作的底层思路是一致的:不是涂掉问题区域,而是让问题区域"静止下来"。之所以选择"静止"而不是"遮盖",是因为遮盖本身也会产生视觉边界,进而产生新的激活信号,制造出新的干扰。静止则不会。
经过这番清理,在198段视频中,有59段存在需要处理的干扰问题,约占总量的三成。在所有"活跃帧"(即存在运动激活的帧)里,有超过四分之一被不同程度地修改,以移除干扰成分。
**五、修好了之后,分数发生了什么变化**
研究团队用修改前和修改后的两套评估体系,分别测试了六个当前主流的图像转视频AI模型:三个开源模型(Wan 2.2、HunyuanVideo 1.5、Cosmos3-Nano),三个闭源商业模型(Sora 2、P-Video、Grok Imagine Video)。
结果揭示出了一些意料之外的发现。
从绝对分数看,使用修改后的评估体系,除了Wan 2.2,其余五个模型的最终得分都有所上升。这主要来自两方面:改善后的提示词让AI更准确地理解任务,从而生成了更符合物理预期的视频;而新的每道题单独打分的方式,也消除了原来系统对某些题目的权重压低。
但Wan 2.2是个例外——它的得分反而下降了。研究团队的分析表明,这主要来自两方面的叠加效应。第一,Wan 2.2对改善后的提示词反应不如其他模型正面,使用更规范的提示词后,得分反而下滑。第二,干扰项清除后,Wan 2.2的得分损失最大,说明它的原始高分有相当一部分来自对视频里"无关运动"的匹配,而不是对物理现象本身的准确预测。
从排名来看,变化也相当明显。在原始评估体系里,Wan 2.2排第一,Grok Video第二,HunyuanVideo第三,P-Video第四,Cosmos3-N第五,Sora 2垫底。切换到修改后的体系,Grok Video和HunyuanVideo跃升到第一、第二,Wan 2.2跌至第三,Cosmos3-N升到第四,Sora 2升到第五,P-Video落到最后。
研究团队用一个叫Kendall's τ的统计量来衡量两套排名的差异程度:这个数值为0表示两套排名完全无关,为1表示完全一致。计算结果是0.46——这意味着两套体系下的排名存在"中等程度但不可忽视"的差异,足以让研究者和开发者对模型的相对实力做出不同判断。
统计检验还进一步证实了这种差异不是偶然波动:通过反复重采样模拟出500个虚拟评估场景,两套体系各自内部的排名稳定性都接近完美(相关系数超过0.97),但两套体系之间的排名相关性明显更低,且两者的置信区间不重叠——这是排名变化具有实质意义、而非统计噪声的有力证据。
关于改进后的逐题打分方式本身,有一个有趣的观察:单独切换到新的打分公式,不改变提示词也不清除干扰,排名几乎不变,但所有模型的绝对分数都会均匀上升。这说明新打分公式本身主要改善了分数的"可解读性"和"可追溯性",而不是系统性地偏袒或惩罚某类模型。
**六、改进了什么,又没改变什么**
理解这项工作,有一个角度特别重要:研究团队并没有重新设计Physics-IQ,而是在保持其核心框架不变的前提下,修补了三类具体的测量缺陷。
那么这三类修补各自的独立影响有多大?论文做了系统性分拆分析。
提示词改善带来的影响:用改善后的提示词替换原始提示词,在保持其他一切不变的情况下,五个模型的得分都有统计显著的提升,效应量达到"中等到较大"级别。Sora 2的提升尤为突出,因为原始提示词下Sora 2倾向于生成有明显摄像机移动的视频,而改善后的提示词明确要求静止镜头,生成质量大幅改善。
干扰项清除带来的影响:把真实视频里的干扰运动清除后,所有模型的基于运动重合度的得分都有统计显著的下降,效应量达到"较大"级别。这一发现的重要性在于:它告诉我们,原始评估体系下,模型的部分分数来自对"非物理现象"的匹配,而非对物理规律的正确预测。Wan 2.2在这方面的分数下降最大,直接解释了它的排名下滑。
打分公式改变带来的影响:如前所述,对排名几乎没有影响,但使每道题的贡献权重更加公平,并提供了逐题分析的能力。
**说到底,这项研究告诉了我们什么**
归根结底,这篇论文在做一件看起来朴素但意义深远的事:检查我们用来衡量AI物理能力的"尺子",是不是真的在量它应该量的东西。
研究结论相当明确:原始Physics-IQ的尺子存在三处系统性误差——题目描述不准确、打分对不同题目的权重不公平、以及参考答案里混入了无关的干扰运动。这三处误差不是可以忽略的小细节,而是会系统性地影响模型的绝对得分和相对排名。
对于普通人来说,这意味着下次看到"AI物理理解能力测试结果"时,需要多问一句:这个测试本身,经过严格校验了吗?就像一把生了锈的尺子量出来的长度,不能当作可靠数据来使用一样。
对于AI研究者和开发者来说,这意味着一旦某个评估基准成为行业标准,它的缺陷会通过优化目标传导到模型训练本身,让模型朝着"在有缺陷的尺子上看起来更好"的方向进化,而不是朝着"真正更好地理解物理"的方向进化。Physics-IQ在2026年初已经被OpenAI的Sora 2、Meta的VJEPA-2等多个顶级视频生成项目引用为评估标准,其分数直接影响研究方向的选择。在这个背景下,修复尺子,不只是学术洁癖,而是一种对整个领域负责任的行为。
当然,即便是修复后的Physics-IQ Verified,研究团队也坦诚承认它的局限:它仍然是基于特定视角下的真实视频录制,当AI生成了一个"物理上同样合理、但和参考视频略有不同"的结果时,它仍然会被扣分。毕竟,很多物理过程是有内在随机性的,同样条件下倒水,水花形状每次都会有些差异,都是正确的,都是符合物理规律的。如何处理"多个合理答案"的问题,仍然是下一步需要面对的挑战。
有兴趣深入探讨这一话题的读者,可以在arXiv上通过编号2606.18943找到完整论文,也可以访问谷歌DeepMind的Physics-IQ GitHub页面,查看改进后的完整评估代码和数据。
---
Q&A
Q1:Physics-IQ Verified和原始Physics-IQ有什么具体区别?
A:Physics-IQ Verified主要做了三方面改进:修正了原始评估中34.8%存在问题的提示词(包括事实错误、时间描述混乱、信息缺失和语言模糊四类问题);清除了29.8%视频中存在的无关运动干扰,让评分更准确地反映物理现象本身;同时把打分从数据集整体计算改为每道题单独打分,让每段视频对总分的贡献完全平等,也让分析者能够追溯到具体哪类物理场景表现好或差。
Q2:Wan 2.2为什么在修改后的Physics-IQ Verified里排名下滑了?
A:Wan 2.2是六个被测模型里唯一在改用改善后提示词后得分反而下降的模型,说明它对规范化提示词的响应不如其他模型。更重要的是,清除视频里的干扰运动后,Wan 2.2的得分损失在所有模型中最大,表明它的原始高分有相当一部分来自对"与物理现象无关的运动"的匹配,而非真正准确预测了物理效果。这两方面叠加,导致它的排名从第一跌至第三。
Q3:AI视频模型的"物理理解能力"目前处于什么水平?
A:根据Physics-IQ Verified的评测,当前表现最好的模型得分约在33至35分(满分100),距离"像做第二次重复实验一样准确"这一参照上限还有相当距离。论文还提到,目前所有模型中得分最高的历史记录约为62.6分,但这是在存在测量缺陷的原始体系下取得的。总体而言,当前AI视频模型对物理规律的理解仍然十分有限,视觉上逼真并不等于物理上准确。
晋ICP备17002471号-6