介紹
2024 年是生成式 AI 的一年,例如文字生成領域的 Claude 3,軟體工程領域的 Devin AI,以及在影像生成領域取得進展的穩定擴散 3。自穩定擴散發布以來已經過去了一個多月,讓我們來探索一下 Stability AI 的這款最新尖端模型的優勢吧!
什麼是穩定擴散?
穩定擴散是 Stability AI 的創意成果,Stability AI 是一家總部位於英國的開放式 AI 品牌。這是一組用於生成影像的開源模型。它最常用於文字到影像的生成,但也用於影像到影像的生成,以及修復和擴充套件影像。穩定擴散在最新的穩定擴散 3 之前已經有很多版本。讓我們簡要地回顧一下它們。
- 穩定擴散 1.5 或 SD1.5 是最古老的版本,於 2022 年 8 月釋出。作為一箇舊模型,它輸出的影像尺寸為 512 x 512。雖然它是一箇舊模型,但它需要的記憶體更少,因此速度更快。
- 然後是 2022 年 10 月釋出的穩定擴散 2.1 或 SD2.1。它在負面提示、文字編碼器(OpenCLIP)和大型影像輸出方面進行了改進。
- 穩定擴散或 SDXL 是另一個模型,於 2023 年 7 月釋出。它非常流行,可以建立任何縱橫比的逼真影像。
- SDXL Turbo 是 SDXL 的超級版本,於 2023 年 11 月釋出。它可以在一個提示中生成很棒的影像,並且是一個非商業模型,這使其成為最先進的開源影像生成器。
- 最後,還有 SD Turbo,它也是在 2023 年 11 月釋出的,也是一個非商業模型。
穩定擴散 3
穩定擴散 3 或 SD 3 是 Stability AI 釋出的最新影像生成模型。他們強調了改進,例如更好的照片級影像生成、對強提示的遵循以及多模態輸入。

SD 3 包含一套小型模型,從 8 億個引數到 80 億個引數不等。這提供了廣泛的可擴充套件性和質量,以滿足使用者的創意需求。從模型開始訓練、測試和評估到最終部署,Stability AI 一直非常重視安全性。
穩定擴散 3 中有哪些新功能?
如前所述,SD 3 擁有許多前身模型。但是,它帶來了哪些新功能?讓我們探索其中一些功能。
效能
穩定擴散 3 可以在配備 24GB vRAM 的 Nvidia RTX 4090 GPU 上以 50 個步驟在不到 35 秒的時間內生成 1024×1024 影像。由於模型很大,它需要更多的 GPU 計算能力才能更快地生成影像。
取樣
Stability AI 非常重視實施有效的取樣,以使其更快、質量更高。他們發現了一種噪聲計劃,它對路徑的中間部分進行取樣並生成更高質量的影像。穩定擴散 3 模型依賴於校正流取樣,這是目前從噪聲影像到清晰影像的最快方法!
更好的文字生成
穩定擴散 3 的一大優勢是它可以生成清晰的、長文字影像,這與它的前身不同,它的前身要麼無法生成清晰的文字,要麼不完美。SD3 模型在文字渲染方面總體上有了很大改進。
文字編碼器
穩定擴散 3 有 3 個編碼器,這與它的前身不同,它的前身只有更少的編碼器。它們分別是:
- CLIP l/14
- OpenCLIP bigG/14 和
- T5-v1.1 XXL
更安全
隨著生成不恰當影像的可能性增加,Stability AI 正在採取更安全的措施,完全禁止在他們的最新模型穩定擴散 3 上生成 NSFW 影像。
噪聲預測器
噪聲預測器估計潛空間中的噪聲量,並將其從影像中減去。此過程重複特定次數,根據使用者指定的步驟減少噪聲。舊的穩定擴散模型,如穩定擴散 1 和 2,使用 U-Net 噪聲預測器架構。另一方面,穩定擴散 3 使用重複的擴散 Transformer 堆疊,這意味著與以前的 SD 模型相比,它在擴散過程中使用多個 Transformer。
穩定擴散 3 與其他模型相比表現如何?
最重要的是,每個人都會問自己這樣一個問題:穩定擴散 3 與其他文字到影像生成模型,如 Midjourney 或 DALL-E 3 相比如何?
好吧,從某種程度上說,穩定擴散 3 的表現優於以上所有模型!

模型比較
如上圖所示,Stability AI 對 SD3 與不同模型進行了效能評估,包括 SDXL、SDXL Turbo 和 Stable Cascade 等前身模型,以及 Midjourney v6 和 DALLE-3 等競爭對手,使用了真實的人類評估者。評估基於模型在給定提示的上下文中輸出結果的程度以及生成影像的美觀程度。穩定擴散 3 在所有上述領域略微優於當前最先進的文字到影像生成系統。Stability AI 還對配備 80 億個引數的 SD3 模型進行了未最佳化的推斷測試,該模型適合 RTX 4090 的 24GB VRAM。使用 50 個取樣步驟,生成 1024×1024 解析度的影像僅需 **34 秒**!這太瘋狂了吧?
穩定擴散 3 的侷限性
儘管穩定擴散 3 是一種令人印象深刻的架構,並且比它的前身表現得更好,但它仍然存在一些缺點。
- 其中一個缺點是,與 Dall-E 等競爭對手不同,SD3 似乎更適合個人創作者而不是企業,Dall-E 可以為公司服務。
- 穩定擴散需要強大的硬體,如 NVIDIA RTX 3060 或 RTX 4020,才能獲得最佳效能和效果。
- 它可能不適合所有型別的影像,例如噪聲影像或對比度差的影像。
- 它可能計算量大,也可能很耗時,尤其是在處理大量視覺資料時。
- 這不能稱為問題,而是所有影像生成模型的共同敵人——濫用。這包括使模型不太容易被濫用,例如錯誤的政治影像或名人虛假影像。雖然穩定擴散 3 可能只會生成 SFW 影像,從而減少模型被濫用的可能性,但它仍然無法完全避免濫用!
如何訪問穩定擴散 3?
Stability AI 正在早期預覽階段提供穩定擴散 3。這種預覽模式提供反饋,用於分析效能、安全性和其他指標。趕快去看看穩定擴散 3 吧 這裡!獲得訪問許可權後,您將收到一封電子郵件邀請您加入 Discord 伺服器。
結論
穩定擴散將影像生成提升了一個檔次,它充滿了新功能,並在不同評估中略微優於 Midjourney 和 DALLE-3 等競爭對手。
穩定擴散 3 只是觸及了影像生成和生成式 AI 軌跡的真正潛力。這篇有趣的文章到此結束。我們下次再見!






