2026年6月，视频生成模型推理一致性怎么样？

时间:2026-06-29 01:05:19
浏览:188
来源:南宁市武鸣区陆酷巴网络科技工作室

世界模型之殇：视频生成只是“照本宣科”？

将AI生成一辆汽车于雪地之中出现打滑状况的视频时, 它切实明白物理惯性吗。越来越多的证据已然显示, 当下处于最先进水平的视频模型像是Veo-3.1以及Sora-2, 尽管能够生成十分逼真的画面, 然而在帧与帧之间的因果推理方面却常常出现问题。一个名为MME-CoF-Pro的权威基准刚刚问世发布, 第一步系统性展示了这些模型的“推理一致性”不足之处。

推理一致性：视频连贯性的核心挑战

我们把这一维度正式定义成“推理一致性”, 也就是生成视频里的各个事件能不能于帧与帧之间维持因果一致、可信的进程。传统的评测常常仅看最后那一帧的结果正误, 或者看单一物理现象是否合乎情理, 然而从来没有描绘出模型在推理链条方面的连贯性。这次 MME - CoF - Pro 的推出, 其目的恰恰就是为了填补这一空白。

从定性到定量：过程级指标登场

在此之前, MME - CoF的研究涵盖了12个维度, 不过仅仅是粗粒度的定性评估。如今, 被ECCV 2026接收的MME - CoF - Pro进行了全面升级, 其类别从12个扩展至16个, 并且首次引入了人工校验的“过程级”Reasoning Score。这一指标并非再是那种非黑即白的“答对/答错”情况, 而是能够精准定位模型在推理链的哪一步出现崩塌。

评测样本：303个精心策划的推理任务

MME - CoF - Pro总共含有303个图像 - 文字 - 视频推理样本, 其中涉及370张图像, 覆盖了16个推理类别。这些样本是从27个现有的真实和合成基准里筛选构建而成的, 并且经过了三轮人工校验。16个类别被组织成四大能力组, 从底层感知开始逐步递进到高层任务推理, 以此确保评测具有全面性和深度。

推理引导：可控变量下的因果解码

MME - CoF - Pro把“推理引导”当作能够进行显式控制的变量, 这和以往工作最大的不一样之处在于, 通过对文字提示以及视觉提示的效果予以对比, 任何性能方面的差异都能够因果性地归源于引导自身, 这样的设计使得研究者能够分辨出模型究竟是实实在在理会世界, 还是单单在执行字面指令。

文字提示：提升推理分数，但代价高昂

不少模型在增添文字提示之后, 推理分数出现了提升, 这是实验所显示的情况。Veo - 3.1提升了4.5分, Sora - 2提升了7.6分, 而Cosmos - Predict2 - 14B同样提升了6.7分。可是, 代价却是7个模型的一致性分数几乎全都下降了, 特别是在4D Dynamics任务里, 所有模型的一致性分数下滑幅度在1.2至15.6分之间。模型常常会为了满足运动指令凭空“分裂”出多余物体。

视觉提示：精细任务上的双刃剑

在结构化、需空间引导的任务里头, 视觉提示有着较好的表现, 像Embodied和GUI任务这样的, 可当面对视觉细节、物体计数等精细任务时呢, 它却反倒让成绩降低了。Veo - 3.1在Visual Detail任务里, 推理分数下降了13.0, 一致性分数下降了14.4 , 作者进而推测, 这是源自训练数据偏差, 也就是模型常常会把箭头或者高亮这样的“引导”误以为是“内容”。

提示堆叠：并非通往强推理的捷径

存在这样一个自然的问题, 那就是, 持续不断地去增加提示方面的信息, 是否能够以单调的方式提升推理的表现? 其答案为否定的。经由实验能够表明, 文字以及视觉提示所带来的推理分数, 尽管在普遍意义上是高于没有提示的基线水平（0.23）的, 然而这两条曲线在各个阶段均呈现出剧烈的波动状态, 并不存在清晰的上升趋向。仅仅是简单地进行提示的堆叠, 根本无法确保推理表现能够得到提升, 这就引出了一个处于开放状态的问题, 即, 怎样才可以使模型把多步的提示稳定地落实为连贯的推理轨迹?

人类验证：Reasoning Score的有效性

为了验证可被称作Reasoning Score的这一事物的有效性, 十位标注者针对随机抽取出来的视频, 依据标注步骤去打分, 并且将其与现有的指标相互对比。给出的结果充分表明, Reasoning Score相比于现有的指标而言, 更具备能够捕捉处于人类视角之下的推理行为的能力, 是一种用于评估推理一致性的有效工具。它并非只是那种简单的“答对/答错”的判断方式, 而是能够精确地定位模型究竟是在推理链的哪一个步骤出现了崩塌。

未来方向：从“跟随”到“理解”

经过深思的核心结论是: 当下的视频生成模型更多的情况是在“跟随”提示, 并非是真正去“理解”然后落地世界规律。在朝着真正的世界模型推理前行的道路上, 更强的视觉对齐能力、指令理解能力以及抗幻觉机制, 仍然是必须要攻克的方向。作者期望这些分析得出的结果, 能够为视频生成模型以及世界模型的未来迭代提供具有价值的参考。更多的细节可以去访问www.fc-bowuguan.cn。

你觉得目前的AI视频模型最需要在哪个推理能力上突破？是物理规律理解，还是复杂指令的时序执行？欢迎在评论区分享你的观点，点赞并转发给更多关注AI未来的朋友！

2026年6月，视频生成模型推理一致性怎么样？

世界模型之殇：视频生成只是“照本宣科”？

推理一致性：视频连贯性的核心挑战

从定性到定量：过程级指标登场

评测样本：303个精心策划的推理任务

推理引导：可控变量下的因果解码

文字提示：提升推理分数，但代价高昂

视觉提示：精细任务上的双刃剑

提示堆叠：并非通往强推理的捷径

人类验证：Reasoning Score的有效性

未来方向：从“跟随”到“理解”

2026年6月探秘大语言模型能力来源及形成机制

2026年6月，AI自己造AI倒计时已开启？概率60%

2026年6月，人形机器人协调全身移动操作能力怎么样？

2026年6月推荐：机器人世界模型Top3评价，优缺点直击人心

2026年6月必看Top1：AI时空漫游Vlog推荐