影片生成模型簡介
生成式 AI 憑藉 ChatGPT-4、Stable Diffusion 3、Devin AI 等,以及現在的 SORA,席捲全球。
SORA 是一款由 OpenAI 提供的影像或文字到影片生成工具。生成模型是這些令人驚歎的影片序列和逼真的新穎內容背後的驅動力。這些模型是在影片資料上訓練的,能夠根據從訓練資料集中學習到的內容生成影片。它利用演算法和神經網路來生成獨特、逼真的影片。
讓我們看看一些生成式影片模型的常見應用。
創意講故事:生成式影片模型可以輕鬆建立基於敘事的影片,在遊戲、VR 和 AR 中提供個性化和互動式講故事體驗。
內容創作:創作者現在可以建立視覺上吸引人的角色和故事,這些角色和故事是全新且獨特的。
影片編輯和增強:影片生成模型可以自動執行影片編輯任務,例如生成缺失的幀或增強影片質量,減少後期製作工作。
VR 和 AR:VR 和 AR 已將沉浸式體驗提升到一個全新的水平。生成式影片模型可以建立如此逼真的虛擬環境,就像旅行到另一個維度一樣。
資料增強和模擬:它們可以透過建立合成影片資料來增強模型的訓練資料集,從而顯著提高影片分析系統的穩健性。
生成式影片模型在影片合成、講故事、影片編輯以及更多影片生成任務中具有巨大潛力,證明了它們是 2024 年 Gen AI 的下一個大事件。
什麼是 SORA?
OpenAI(ChatGPT 和 Dall-E 的建立者)於 2 月份推出了 SORA,這是一款文字到影片 AI 模型。SORA 是生成式 AI 在建立逼真影片方面的重大進步。OpenAI 展示了一些示例,但並沒有進行太多宣傳或廣告。您以文字形式輸入文字提示,SORA 將生成最長可達一分鐘的影片。
提示:攝像機跟蹤一輛帶有黑色車頂架的白色的老式 SUV,它在陡峭的山坡上沿著一條陡峭的泥土路加速行駛,松樹環繞著它,輪胎濺起塵土,陽光照射在 SUV 上,它沿著泥土路加速行駛,在場景上投下溫暖的光芒。泥土路輕輕地彎向遠處,沒有其他車輛或車輛。路兩邊的樹木是紅杉,點綴著綠色的斑塊。從後面看,汽車跟隨彎道輕鬆行駛,讓人感覺它像在崎嶇的地形上行駛一樣。泥土路本身被陡峭的山丘和山脈包圍,頭頂是蔚藍的天空,上面飄著縷縷白雲。
SORA 使用 NLP 和深度學習模型來生成高質量的一分鐘影片。雖然 SORA 並不是第一個生成式影片模型,但它是第一個展示高質量、逼真影片的模型。
SORA 的歷史
如前所述,SORA 並不是第一個生成式影片模型。我們還有 Meta 的 Make-a-Video、Google 的 Lumiere、Runway 的 Gen-2 以及 OpenAI 的 Dall-E。
在 SORA 時代之前,我們有 Dall-E(Diverse All-Purpose Lightweight Layout Engine 的縮寫),來自 OpenAI。它於 2021 年 1 月推出,是 OpenAI 的多模態文字到影像生成式 AI 工具。它是 GPT-3 的定製版本,在 120 億個引數上執行。然後,Dall-E 2 於 2022 年問世,它擁有四倍的影像解析度和簡化的 35 億個引數架構,用於影像生成。與它的前身不同,Dall-E 2 是一個引人注目的模型。
SORA 架構以及它的工作原理
SORA 使用基於擴散的 Transformer 架構來生成影片。下一節將詳細介紹。
SORA 使用視覺補丁作為標記。影片資料被分解為幀,其中每一幀都被分解為畫素組。SORA 捕獲畫素的時間資訊。

現在讓我們探索 SORA 架構的組成部分。
影片壓縮
目的是有效地編碼、編碼和解碼影片內容。利用變分自編碼器 (VAE) 等框架可以實現這一點。SORA 將原始影片壓縮成一個潛伏表示,該表示儲存空間和時間資訊。
時空補丁
這是 SORA 的核心。它們基於 ViT。傳統上,ViT 使用一系列影像補丁來訓練 Transformer 模型。SORA 可以使用補丁表示法處理不同解析度、長度甚至縱橫比的影片和影像。
統一表示
SORA 將所有形式的視覺資料轉換為統一表示。這裡,影片被壓縮到低維潛伏空間,並分解為時空補丁。為了簡化、可擴充套件性和穩定性,它使用固定大小的補丁。
可變解析度
OpenAI 尚未提供有關此技術的更多詳細資訊。在這裡,模型可以將影片分割成補丁,從而增強編碼過程。
如何使用 SORA?
SORA 正在開發中,並向各種視覺藝術家、設計師和電影製作人提供訪問許可權,以徵求反饋並改進模型。OpenAI 尚未確定 SORA 公開發布的時間表,但預計將在今年某個時候釋出。目前,您可以從 OpenAI 瞭解更多關於 SORA 的資訊。
結論
與 ChatGPT 和 Dall-E 一樣,SORA 也將在生成式 AI 領域證明其開創性。人們只能預期這個模型的令人印象深刻的功能,並在公開發布期間提供一些見解。
關於 SORA 的簡要介紹就到這裡了。我們下一期再見!






