
CoT思维链的下一步是什么?
DeepMind提出帧链CoF。
逐帧视频生成类似于语言模型中的链式思维。就像链式思维使语言模型能够用符号进行推理一样,“帧链”(CoF)使视频模型能够在时间和空间上进行推理。
以上观点来自DeepMind最新公开的Veo 3论文,类比语言模型中的CoT,他们首次提出了CoF这一概念。
并且,团队通过大量测试发现——
以Veo 3为代表的视频模型正在发展通用视觉理解能力,可以零样本解决从“看”到“想”的全链条视觉任务,而且进步飞快,未来有望成为机器视觉的“通用基础模型”。
更简单粗暴的总结就是,“Veo 3是视觉推理领域的GPT-3时刻”。
Anyway,要想深入理解这一新概念以及其价值意义,还是先来看看论文原文吧——
01、DeepMind首次提出CoF概念
据论文介绍,CoF的提出源于DeepMind团队的一个好奇:
视频生成模型能不能像ChatGPT这类大语言模型一样,不用专门练某个任务,就能搞定各种视觉工作,最终变成“通用视觉基础模型”?
为什么追求通用?主要是现在的机器视觉领域还停留在“NLP的老阶段”——
要分割物体就得用“Segment Anything”、要检测物体就得用YOLO、换个任务就得重新调模型、甚至重训……
既然现在的视频生成模型和LLM用的是同一套底层逻辑——用海量数据“大力出奇迹”,那说明通用视觉并非无稽之谈。
为了验证这一猜想,团队用了一个非常简单粗暴的方法:只给提示,不搞特殊训练。通过Google的API,给模型“一张初始图+ 一段文字指令”,让模型生成8秒、720p的视频。
这和LLM“用提示替代专属训练”的逻辑完全一致,目的就是为了验证模型的原生通用能力,纯靠模型自己去完成任务。
而通过一系列测试,团队发现视频模型真的具备通用潜力。
具体而言,他们以Veo 3为实验对象,发现其具备四大能力:
*,不用专门训练,Veo 3就能搞定很多经典视觉任务,具备感知能力。
无论是基础任务,还是复杂任务(如在一堆东西里找“蓝色的球”),它都能轻松应对。
第二,光看明白还不够,Veo 3还能“建立视觉世界的规则”,具备建模能力。
这体现在它既懂物理,又懂抽象关系(如把能装进背包的东西放进去)上。
第三,基于“看明白”和“懂规律”,Veo 3还能主动改变视觉世界,具备操控能力。
比如改改图,或者搞3D和模拟(让骑士从朝前变成单膝跪地)。
第四,整合前面的能力,Veo 3可以实现跨时空视觉推理,也就是所谓的CoF帧链。
给它一道解迷宫的难题:让红点从起点沿白色路径走到绿点。
Veo 3能生成红点一步步规划路径的视频,不碰黑墙。5×5迷宫玩了10次,Veo 3成功率78%,Veo 2才14%。
更多推理测试也表明,虽然推理能力还不*,但已经能看到“视觉智能的雏形”了。
整体而言,团队通过测试得出了以下三个核心结论:
1、经过对62项定性任务和7项定量任务中生成的18384个视频的分析,团队发现Veo 3能够解决许多它未曾接受过训练或调整的任务。
2、Veo 3利用其感知、建模和操作视觉世界的能力,展现出了类似“帧链”的视觉推理的早期形态。
3、尽管针对特定任务定制的模型在零样本视频模型中表现更优,但团队观察到从Veo 2到Veo 3的性能有了显著且一致的提升,这表明视频模型的能力正在迅速发展。
02、“通才会取代专才”
此外,基于Veo 3当前的表现以及成本可能持续下降的预测,DeepMind也大胆开麦:
在视频模型领域,未来“通才”会取代“专才”。
具体而言,Veo 3作为通用视频模型,在特定任务上确实仍落后于专用SOTA模型,如边缘检测精度不及专门优化的算法。
但从发展趋势看,这种差距正随模型能力快速提升而缩小,类似早期大语言模型虽整体不如任务微调模型,但通过架构、数据与训练方法的演进,最终成长为强大的通用基础模型。
比如相比前一代Veo 2,Veo 3在短期内全面升级。这证明模型的通用视觉与生成能力正处于快速上升期,类比2020年前后LLM的突飞猛进阶段。
其次,通过多尝试 策略,即同一任务多次生成并择优,Veo 3性能显著高于单次生成,且随着尝试次数增加仍有提升空间,无明显上限。而且结合推理时缩放、RLHF指令微调等技术,Veo 3性能仍有望进一步提升。
此外,尽管目前视频生成的成本高于专用任务模型,但根据Epoch AI的数据——LLM推理成本每年下降9~900倍,且NLP早期通用模型也曾因成本被质疑,但最终因“通用价值+成本下降”替代了专属模型。
因此,大概率机器视觉会走上同样路径,未来视频模型的成本问题将逐步得到解决。
总而言之,DeepMind对通用视频模型可谓信心满满。
而此次提出的新概念CoF,也正如网友所言,有望和当初的CoT一样,为视频模型开辟出新的道路。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
十一黄金周,崇礼邀您共赴一场“汽车+赛事+文旅+
十一黄金周将至,你是否还在为去哪里游玩而纠结?是去人山人海的热门...
第十届中国航空创新创业大赛新材智造+民机民航领域
2025年9月17-18日,第十届中国航空创新创业大赛新材智造+...
湖北荆门联通亮相2025年湖北网络安全宣传周以科
9月15日,由湖北省委网信办主办的2025年国家网络安全宣传周湖...
湖北荆门联通积极助力科普月活动
近日,全国科普月主场活动在荆门市科技馆圆满举行,荆门联通充分发挥...
湖北荆门联通:装机提速“不打烊” 迎新服务“零距
新生入学季,网络保障是关键。2025年秋季校园迎新工作启动以来,...
以维系巧思筑服务口 ——湖北荆门联通“服务之星”
在荆门联通服务之星经验分享会上,“服务之星”阳娟以“不积跬步,无...