sora 是什么?三个重要原因让 Sora 生成视频堪比 CG - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaochu365
V2EX    分享发现

sora 是什么?三个重要原因让 Sora 生成视频堪比 CG

  •  
  •   xiaochu365 2024-02-19 13:45:04 +08:00 1920 次点击
    这是一个创建于 608 天前的主题,其中的信息可能已经有所发展或是发生改变。

    常规的计算机 CG 没有几个月是做不出来的,Pika 、Runway 为什么做不出这样的效果?这两天网上介绍所有的视频已经非常多了,我更喜欢琢磨背后的东西,大家都在说 sora 好,到底为什么好,它是怎么做的呢?

    我特别对三个场景印象深刻:一群金毛小狗在雪地里打滚,其真实感让人惊叹;一个咖啡杯中的海盗船战斗场景,展现了惊人的特效;以及无人机穿越城市古迹的画面,其 3D 效果和一致性维护得非常好。这些效果展现了目前技术的极限,以及为何传统的 CG 方法无法轻易复制这些效果的原因。

    Pika 和 Runway ,那为什么做不出这样的效果? 我理解 Pika 和 Runway 实际上还是基于这种图形图像本身的操作来进行的生成,在一个画面上选定一两个目标,一两个对象。让这一、两个对象要么保持不动,背景在动,要么背景不动,这一两个对象在动,就形成一种比较简单的计算机动画的效果,它是肯定做不到刚才的三个画面的能力。

    ( PS:目前,OpenAI 尚未公开开放 Sora 的灰度测试。然而,借鉴之前 DALLE 图像模型的案例,我们可以预见首先会向 ChatGPT Plus 的付费用户提供这一服务。对于有意体验此服务的用户,如果您尚未注册或希望了解如何升级至 GPT Plus ,可以参考: 快速开通 ChatGPT Plus

    在 CG 领域,创建真实感强的画面,比如毛茸茸的动物或是动态的水面,需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模,还包括每一个水滴的物理建模,以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的,使用常规的电影工业特效手段,可能需要几个月的时间才能完成。

    如果用电影特效来表示咖啡杯里的那个波动,这个就需要给粒子特效来模拟多少个水分子,把每个水分子看成是一个粒子,然后利用水的这种物理方程来模拟流体的特质,一帧帧的把它渲染出来。阿凡达为了做水的特效,据说花了好几年的时间才完成了大量的海浪,水波纹这些特效镜头。

    那么像无人机飞跃一个城市,所有飞跃的地方,都要需要做真实的 3D 建模,3D 的贴图和 3D 的渲染,在镜头飞跃的每一个观察点上,都要对这个 3D 的画面做若干次的渲染。对一个城市的 3D 建模的工作量特别大,所谓叫数字孪生还是非常昂贵的一个技术。

    但是到了 sora 这里,这些东西都变得非常的简单,只要给一堆文字的提示要求,它就能给你非常逼真的描绘出来。

    sora 到底做 3D 建模没有? 我觉得答案应该是没有,因为 sora 如果也只是 3D 建模在进行渲染,和传统的电影工业走一样的路,那就它就不具备颠覆性和革命性了。

    sora 怎么做到的呢? 第一点 sora 应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法,比如说如果要我们人类一个有经验的画师用笔画出来看才 3 个场景,我们人类在大脑里并不需要 3D 建模。

    因为人类已经对世界有了一个基本的认知,我们知道透视的原理,我们知道随着这个镜头的移动,每个物体的视觉画面会发生改变,我们知道如何去画毛茸茸的毛发,如何去画这个雪,当狗转身的时候,我们知道整个画面会有什么样的变化,我们不需要懂粒子特效,不需要 3D 建模,不需要懂物理定律,我们靠着对世界的观察,我们也能画出惊涛骇岸的这种海浪的感觉。

    sora 应该通过大量的训练,掌握了人类这种观察世界、描绘世界、表现世界的这种能力,所以就使得他通过表面看的是 2D 画面的这种生成,完全理解了这个 3D 世界的物理规律。

    第二点 我觉得 sora 在学习的过程中,不光是用了很多视频电影的内容来作为训练的输入,当你输入一些画面给 sora 模型做训练的过程中,你不仅要解读出画面有什么元素,你还要解读出来这里面反映的一些物理定律。

    openai 在对他的论文。你提到一个叫 recaptioning 技术,很多人把它翻译错了,翻译成叫字幕技术,像 recaptioning 的意思是说对每一帧画面能够把它变成用文字来描述,这点也非常符合人人类认知世界的方法。

    比如说一个见过大海的人,向一个没有见过大海的人,用语言来描述这个海浪的效果,让他来进行学习,进行想象。所以这一点说明 openai 的多模态技术已经达到一个新的空间,我估计 Google 的 Gemini 看来短期内是很难赶上了。

    第三点 大胆的猜测一下,openai 应该是自己产生了很多 3D 的内容,也不排除他用现在的游戏引擎做了很多这种实时 3D 模型的渲染,利用这种 3D 模型来把更多的物理知识训练给 sora 。

    为什么人类对 AIGI 的突破可能就剩下最后一步了? sora 表面上看起来是一个刮胡刀,实际上它是一个吹风机,或者它看起来像一个吹风机,它实际上是个刮胡刀,它表面上看来是一个记录文字生成视频 AIGC 的工具。

    它反映了 AI 对我们这个世界的理解,已经从文字进到图像,已经从图像进成视频,对这个世界 3D 模型的理解,对物理定律的理解,还有些人在吹毛求疵,我看到一个 sora 翻车的视频,比如一个杯子没有碎掉,水就流出来了,还比如说从土里挖出一个凳子,那个凳子没有表现出重力的感觉。

    s 我恰恰觉得有这些问题呢,非常正常,就像大模型会产生幻觉一样,在梦中不也是会让很多物理定律失效吗?

    sora 所谓的失效,我觉得有两种可能,一种是这种模型先天具备的,这种也有幻觉的问题,会产生一些魔幻的效果,还有一种,是物理知识训练的不够,所以我们面对一个新的东西,不要老是盯着它的弱点,这些弱点都是可以被改进的。

    原文转载: https://haogonju.com/2049.html

    3 条回复    2024-02-21 11:08:25 +08:00
    neverMore7
        1
    neverMore7  
       2024-02-19 15:42:23 +08:00
    这不周鸿抖音短视频的文案么...
    boris1993Jr
        2
    boris1993Jr  
       2024-02-19 15:59:05 +08:00 via iPhone
    去年 3 月 31 号注册,就这一个帖子,没有任何回复
    我只能说,挺能潜伏的啊
    VIVIANSNOW
        3
    VIVIANSNOW  
       2024-02-21 11:08:25 +08:00
    @boris1993Jr 为了卖号? 原文 哈
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2557 人线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 51ms UTC 07:50 PVG 15:50 LAX 00:50 JFK 03:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86