2026年6月,视频生成模型推理一致性怎么样?

  • 时间:
  • 浏览:188
  • 来源:南宁市武鸣区陆酷巴网络科技工作室

世界模型之殇:视频生成只是“照本宣科”?

将AI生成一辆汽车于雪地之中出现打滑状况的视频时, 它切实明白物理惯性吗。越来越多的证据已然显示, 当下处于最先进水平的视频模型像是Veo-3.1以及Sora-2, 尽管能够生成十分逼真的画面, 然而在帧与帧之间的因果推理方面却常常出现问题。一个名为MME-CoF-Pro的权威基准刚刚问世发布, 第一步系统性展示了这些模型的“推理一致性”不足之处。

推理一致性:视频连贯性的核心挑战

我们把这一维度正式定义成“推理一致性”, 也就是生成视频里的各个事件能不能于帧与帧之间维持因果一致、可信的进程。传统的评测常常仅看最后那一帧的结果正误, 或者看单一物理现象是否合乎情理, 然而从来没有描绘出模型在推理链条方面的连贯性。这次 MME - CoF - Pro 的推出, 其目的恰恰就是为了填补这一空白。

从定性到定量:过程级指标登场

在此之前, MME - CoF的研究涵盖了12个维度, 不过仅仅是粗粒度的定性评估。如今, 被ECCV 2026接收的MME - CoF - Pro进行了全面升级, 其类别从12个扩展至16个, 并且首次引入了人工校验的“过程级”Reasoning Score。这一指标并非再是那种非黑即白的“答对/答错”情况, 而是能够精准定位模型在推理链的哪一步出现崩塌。

评测样本:303个精心策划的推理任务

MME - CoF - Pro总共含有303个图像 - 文字 - 视频推理样本, 其中涉及370张图像, 覆盖了16个推理类别。这些样本是从27个现有的真实和合成基准里筛选构建而成的, 并且经过了三轮人工校验。16个类别被组织成四大能力组, 从底层感知开始逐步递进到高层任务推理, 以此确保评测具有全面性和深度。

推理引导:可控变量下的因果解码

MME - CoF - Pro把“推理引导”当作能够进行显式控制的变量, 这和以往工作最大的不一样之处在于, 通过对文字提示以及视觉提示的效果予以对比, 任何性能方面的差异都能够因果性地归源于引导自身, 这样的设计使得研究者能够分辨出模型究竟是实实在在理会世界, 还是单单在执行字面指令。

文字提示:提升推理分数,但代价高昂

不少模型在增添文字提示之后, 推理分数出现了提升, 这是实验所显示的情况。Veo - 3.1提升了4.5分, Sora - 2提升了7.6分, 而Cosmos - Predict2 - 14B同样提升了6.7分。可是, 代价却是7个模型的一致性分数几乎全都下降了, 特别是在4D Dynamics任务里, 所有模型的一致性分数下滑幅度在1.2至15.6分之间。模型常常会为了满足运动指令凭空“分裂”出多余物体。

视觉提示:精细任务上的双刃剑

在结构化、需空间引导的任务里头, 视觉提示有着较好的表现, 像Embodied和GUI任务这样的, 可当面对视觉细节、物体计数等精细任务时呢, 它却反倒让成绩降低了。Veo - 3.1在Visual Detail任务里, 推理分数下降了13.0, 一致性分数下降了14.4 , 作者进而推测, 这是源自训练数据偏差, 也就是模型常常会把箭头或者高亮这样的“引导”误以为是“内容”。

提示堆叠:并非通往强推理的捷径

存在这样一个自然的问题, 那就是, 持续不断地去增加提示方面的信息, 是否能够以单调的方式提升推理的表现? 其答案为否定的。经由实验能够表明, 文字以及视觉提示所带来的推理分数, 尽管在普遍意义上是高于没有提示的基线水平(0.23)的, 然而这两条曲线在各个阶段均呈现出剧烈的波动状态, 并不存在清晰的上升趋向。仅仅是简单地进行提示的堆叠, 根本无法确保推理表现能够得到提升, 这就引出了一个处于开放状态的问题, 即, 怎样才可以使模型把多步的提示稳定地落实为连贯的推理轨迹?

人类验证:Reasoning Score的有效性

为了验证可被称作Reasoning Score的这一事物的有效性, 十位标注者针对随机抽取出来的视频, 依据标注步骤去打分, 并且将其与现有的指标相互对比。给出的结果充分表明, Reasoning Score相比于现有的指标而言, 更具备能够捕捉处于人类视角之下的推理行为的能力, 是一种用于评估推理一致性的有效工具。它并非只是那种简单的“答对/答错”的判断方式, 而是能够精确地定位模型究竟是在推理链的哪一个步骤出现了崩塌。

未来方向:从“跟随”到“理解”

经过深思的核心结论是: 当下的视频生成模型更多的情况是在“跟随”提示, 并非是真正去“理解”然后落地世界规律。在朝着真正的世界模型推理前行的道路上, 更强的视觉对齐能力、指令理解能力以及抗幻觉机制, 仍然是必须要攻克的方向。作者期望这些分析得出的结果, 能够为视频生成模型以及世界模型的未来迭代提供具有价值的参考。更多的细节可以去访问www.fc-bowuguan.cn。

你觉得目前的AI视频模型最需要在哪个推理能力上突破?是物理规律理解,还是复杂指令的时序执行?欢迎在评论区分享你的观点,点赞并转发给更多关注AI未来的朋友!

猜你喜欢

2026年6月探秘大语言模型能力来源及形成机制

Interpretability)研究,开始尝试揭示模型内部的计算机制。Heads)被广泛认为是大模型涌现上下文学习能力的关键神经机制。从内部机制到模型能力的因果验证:能力与归纳头变化完全同步。未来,当这个问题能被系统地回答,大模型的「黑盒」,也许就不再那么黑了。

2026-06-29

2026年6月,AI自己造AI倒计时已开启?概率60%

AI自己造AI的倒计时,真的开始了。2026年第二季度,一个典型工程师每天合并的代码量,是2024年的8倍。80%的代码、8倍的产能、52倍的加速、19天不眠不休的独立编程、60%的概率、不到六个月的倒计时——

2026-06-29

2026年6月,人形机器人协调全身移动操作能力怎么样?

一套真正适用于广泛移动操作任务的人形机器人系统,应该满足哪些基本条件?迁移到人形机器人的全身动作空间。从「会走路的双臂平台」,到真正能协调全身的人形机器人,中间还有大量系统问题要回答。

2026-06-29

2026年6月推荐:机器人世界模型Top3评价,优缺点直击人心

但我们一直有一个挥之不去的疑问:机器人真的应该在像素里学习物理吗?很厉害,很贵,也很可能不是机器人最需要的东西。“请给我更多机器人数据”?作者们认为机器人需要自己的符号空间。“万能”,但可能更接近机器人真正需要理解的世界。作为机器人世界模型的符号空间。

2026-06-29

2026年6月必看Top1:AI时空漫游Vlog推荐

如果你还没看过Chloe的「AI时空漫游」系列,那你可能正在错过2026年最令人上瘾的视觉体验。2400万人,看她「死」在泰坦尼克号上标题是:《我穿越到了1912年的泰坦尼克号》。从今年3月开始,Chloe密集输出了超过多个时空漫游Vlog。公元前30000年,冰河时期。

2026-06-29