Sora的真相：進步驚人，但需要大量人工

2月初，OpenAI發布的Sora驚艷了全世界，它在文生視頻上的革命性突破，一度被視為吹向好萊塢的一場大風暴。

Sora是一種擴散模型，與以往的 AI 視頻生成器相比，Sora 能夠依據提示詞生成長達一分鐘的視頻內容，保持視覺質量和一致性，并且實現鏡頭的切換和構圖調整，它還能使視頻與背景相關的主題細節準確符合，生成的視頻更加逼真，仿佛是現實世界的延伸。

當時，OpenAI還發布了技術說明，表明它未來可以將生成的視頻延長或無縫混合兩個視頻。

3月起，Sora對一些藝術家開放了使用權限，月末，OpenAI在官網發布了幾位藝術家使用Sora生成的超現實視頻作品。近日，這些作品之一《氣球人》背后的藝術家團隊 Shy Kids 全揭秘了使用Sora的制作過程。

整體看下來，真正投入到影視制作中的Sora并沒有當初那么驚艷，但它已經足夠令人震撼——能讓一個僅有三人的團隊，在大約1.5至2周的時間內便制作出了一部精彩短片。

在該團隊看來，當前形態的Sora在特定的圖像生成方面取得了令人難以置信的進步；但對于相對復雜的項目，可能還需要一段時間的進化才能滿足導演的具體需求。除了Sora的使用，這部《Air Head》依然使用了大量的編輯和人為指導才制作完成。團隊表示，「將Sora融入創作流程是一種很真實的工作方式，但如果不這么干，好像也沒什么關系?！?/p>

以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進行討論的內容整理：

作為獲得了Sora的有限訪問權限的制作團隊之一，Shy Kids團隊制作了Sora短片《Air Head》。Shy Kids是一家加拿大制作公司，以其多樣化和創新的媒體制作方法而聞名。

Sora目前正在開發中，并通過像Shy Kids這樣的團隊的反饋積極改進。重要的是要認識到：Sora尚處于非常早期的發展時期，幾乎可以稱之為前阿爾法階段。

Shy Kids中負責后期制作的帕特里克評論道，使用Sora是很有趣的過程，Sora是一個非常強大的工具，「我們已經在夢想著它可以如何融入我們現有的流程。但我認為對于任何生成性AI工具來說；控制力仍然是最令人向往的，也是目前最難捉摸的東西?！?/p>

用戶界面和交互：為提升一致性，僅支持文本輸入

Sora的用戶界面設計簡潔，它允許藝術家通過輸入文本提示來啟動視頻片段的生成過程。

藝術家輸入想要的場景描述后，OpenAI的ChatGPT技術會將其轉換成更長的字符串，這一步驟是觸發Sora生成視頻片段的關鍵。

目前，Sora僅支持文本輸入，尚未整合多模態輸入方式，也就是說，除了文本描述外，用戶無法通過其他形式如圖像或聲音來提供輸入。

這種設計的重要性在于，盡管Sora在保持視頻鏡頭內對象的一致性方面做得非常出色，但系統目前還無法確保第一個鏡頭中的內容與隨后的鏡頭完全匹配。

換句話說，即使是使用相同的文本提示，Sora在不同時間生成的視頻片段也可能存在差異。為了盡可能保持一致性，用戶需要在文本提示中盡可能詳細地描述場景，包括角色的服裝和道具的類型等。然而，即便如此，Sora在鏡頭之間的一致性控制方面仍然存在局限，因為它尚未具備完整的功能集來實現完全的控制。

「我們能做的最接近的事情就是在我們的提示中加入更詳細地描述，」帕特里克解釋道?！附忉尳巧姆b，以及氣球的類型，是我們實現一致性的方式，因為因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性?！?/p>

Sora生成的每個獨立片段，就其所代表的技術而言，都是令人驚嘆的。然而，如何有效利用這些片段，取決于用戶對Sora隱式或顯式鏡頭生成方式的理解。

例如，如果你要求Sora生成一個在廚房里長距離跟蹤的鏡頭，并且鏡頭中包含一個放在桌上的香蕉，Sora將依賴于其對「香蕉」這一概念的隱式理解來生成一個顯示香蕉的視頻。

通過訓練數據，Sora已經學習了香蕉性的隱式特性：例如「黃色」、「彎曲」、「末端有深色」等。但它沒有香蕉的實際記錄圖像，也沒有「香蕉庫存庫」數據庫；它有一個更小的壓縮隱藏或「潛在空間」來代表香蕉的概念。因此，每次生成的運行都會展示出這個潛在空間的不同解釋，這意味著用戶輸入的提示必須基于對這些隱式特征的理解。

角色Sonny的一致性：

團隊試圖在不同鏡頭中保持黃色氣球頭Sonny的一致性，但Sora無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符，甚至出現意外的臉部圖案。

Sora輸出的并不需要出現的面部圖案｜圖片來源：fxguide

分辨率和圖像處理：

《Air Head》使用了Sora生成的鏡頭，但其中很多都被分級、處理和穩定化了，所有鏡頭都被放大或提升了分辨率。團隊處理的片段都是以較低分辨率生成的，然后使用Sora或OpenAI之外的AI工具進行了放大?！肝覀兯械摹禔ir Head》都是以480的速度制作的，然后使用Topaz進行校正?！?/p>

時間控制的不精確性：

Shy Kids使用的是最早的原型（Sora仍在不斷改進中），盡管可以在時間線上對關鍵幀進行調整，但對于動作發生的確切時間點控制并不精確，結果具有一定的不確定性。

寬高比的選擇：

Sora允許用戶選擇不同的寬高比，如肖像或風景模式，這一功能對于特定的鏡頭設計至關重要。盡管Sora提供了靈活性，但它在原生渲染某些復雜鏡頭動作方面存在限制。例如，當需要從角色Sonny的牛仔褲向上搖攝到他的氣球頭時，Sora無法直接生成這樣的鏡頭。為了解決這一限制，團隊先以肖像模式渲染了鏡頭，然后通過后期裁剪手動創建了后期的全景。

Sora生成的鏡頭需要后期手動裁剪｜圖片來源：fxguide

相機方向的提示：

Sora在理解和執行相機運動指令方面還不夠成熟。盡管用戶可以輸入如「相機平移」的提示，但Sora并不總是能夠準確執行。

渲染時長：

根據不同的云使用需求和時間，渲染一個片段可能需要10到20分鐘。團隊傾向于渲染更長的片段，以便在后期制作中有更多編輯和調整的空間。

旋轉：

雖然所有的圖像都是在Sora中生成的，但氣球仍然需要大量的后期工作。除了隔離氣球以便重新上色外，還需要移除一些不應該出現的面部圖案或其他痕跡。

Sora的原始輸出｜圖片來源：fxguide

后期成品頁面｜圖片來源：fxguide

素材與成品比例：

帕特里克估計，最終影片中一分半鐘的鏡頭，是基于「數百次生成，每次10到20秒」的素材制作的，大約是300:1的源材料與最終成品比例。

拍攝合成和重新定時：

在《Air Head》中，大多數鏡頭是一次性生成的，沒有將多次拍攝合成在一起。

許多由Sora生成的視頻片段似乎被自動處理成了慢動作，速度只有正常速度的50%到75%。團隊需要重新定時，以讓它們看起來像是實時拍攝的。

版權：

Sora不允許生成會構成侵犯版權或看起來像是模仿特定作品的內容。

例如輸入以下提示詞：「在一艘未來主義的太空船中，使用35mm膠片拍攝，一個男人手持光劍向前走」，Sora將不允許生成片段，因為這樣的內容太接近《星球大戰》。

Shy Kids在早期測試中也遇到了這個問題。帕特里克回憶說，「我輸入了‘阿羅諾夫斯基式的鏡頭’，結果收到了無法執行的反饋?！顾€提到，「希區柯克式變焦」也是一個會被Sora 拒絕的提示。

小結

去年，大模型的快速發展引起了一場好萊塢大編劇罷工，電影行業對于這項技術的擔憂開始增多。今年2月，OpenAI 推出的 Sora 被視為硅谷再次對好萊塢發起沖擊的信號。3月初，更是有計劃了4年，資金規模約8億美元，場地面積高達 330 英畝的 12 個攝影棚的設計和建造等一系列的影視工作室擴建計劃，因為Sora的出現被迅速擱淺。一時間，似乎好萊塢人人自危。

但當使用Sora制作了短片的Shy Kids對這一技術進行了全揭秘，人工后期被大量使用，Sora還不能完成一些高級的復雜需求，這些似乎又都給了好萊塢更多緩沖的時間——畢竟Sora目前尚處于非常早期的階段，還遠遠不能在電影工業的各個環節替代人工。

但值得注意的是：人工智能正在以比過去摩爾定律更快的速度提升智能，這點在以 GPT 為代表的大語言模型已經得到了驗證。今天 Sora 的出現意味著視頻生成模型已經來到了拐點，或許用不了多久我們就能看到可以用于視頻產業甚至電影工業的視頻大模型。

以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進行討論的內容整理：

小結

最新文章