介紹
生成式 AI 繼續取得巨大進展,包括 Stable Diffusion 3、Devin AI,以及現在由 Google AI 推出的 Vlogger。
在這篇文章中,我們將深入瞭解 Vlogger 並探索其工作流程、功能和應用。
所以,讓我們開始吧!
什麼是 Google Vlogger?
Vlogger 是由 Google AI 推出的生成式 AI 工具,可以從影像生成動畫頭像。這些影片以照片般逼真的方式顯示照片中的人物,在生成的影片的每一幀中都是如此。
人們還可以輸入人物的影像,Vlogger 可以建立人物說話或面部表情、手勢或頭部動作的臨時連貫影片,使其看起來自然。Vlogger 還可以從僅音訊輸入的合成影像生成頭部動作、眨眼或嘴唇動作。
該模型可以作為簡報、教育或敘述的獨立解決方案使用,並將極大地有利於對人類合成需求很高的遊戲和娛樂行業。
Google AI 的目標是透過 Vlogger 實現行為真實感。
Google Vlogger:完整工作流程
Vlogger 是一個多模態實現,配備音訊和動畫視覺表示。它具有複雜的面部表情和不斷提高的身體動作水平,旨在支援與人類使用者進行自然對話。
Google AI 打算彌合最近的影片合成突破與可控影像生成方法之間的差距。
該方法從基於生成擴散的網路開始,該網路從音訊輸入預測身體動作和麵部表情。這種方法有助於捕獲語音與身體反應(如姿勢、注視和表情)之間複雜的關係。接下來,他們介紹了一種受影像擴散模型最新進展影響的新架構,從而可以更好地控制生成影像中的時間和空間。透過整合在預訓練期間開發的生成式人類先驗,他們增強了影像擴散模型的效能,尤其是在建立一致的人類特徵(如眼睛)方面。
Vlogger 將基礎模型與超解析度擴散元件相結合,以生成高質量影片。它使用 2D 控制來引導影片生成,涵蓋全身,包括面部表情、身體動作和手勢。為了建立更長的影片,我們使用了一種稱為時間外推的方法,該方法根據之前的影片段生成新的影片段。Vlogger 還提供編輯影片特定部分(如嘴唇或臉部)的功能。
為了確保系統健壯且可推廣,Google AI 收集了一個龐大且多元的資料集,其中包括各種膚色、身體姿勢、視角以及語音和身體可見度水平。該資料集還包含動態手勢,這對理解自然的人類交流至關重要。Vlogger 在多樣性和影像質量方面優於以前的方法,尤其是在已知的 HDTF 和 TalkingHead-1KH 資料集上。它還涵蓋了更廣泛的場景,生成帶有各種面部表情和手勢的頭部和上半身動作的高解析度影片。
與其他相關作品相比,Vlogger 的關鍵屬性
Google Vlogger 的應用
如前所述,Vlogger 在內容創作、遊戲和娛樂領域具有巨大潛力。
影片編輯
Vlogger 將影片編輯提升到了一個全新的水平。假設我們有一個影片,其中主題在看著別處,但我們需要他/她看著鏡頭。Vlogger 利用擴散模型的靈活性透過對應該改變的影像部分進行外推來提高影片編輯的一致性,而不會影響畫素。
影片語音翻譯
Vlogger 的另一個令人印象深刻的功能是它可以獲取現有影片並將其翻譯成任何語言。假設我們要將輸入影片更改為日語。Vlogger 可以獲取輸入影片並編輯主題的嘴唇和麵部表情以匹配新語言。太棒了,對吧?
遊戲
Vlogger 可以簡化遊戲動畫。它可以透過使用配音演員的音訊輸入來為角色建立身臨其境的逼真感受。
內容生成
藉助僅從單個影像生成的照片般逼真的影片,內容創作和生成可以提升到一個全新的水平。
![]() | ![]() |
虛擬助手
Google AI 的 Vlogger 可以對聊天機器人和虛擬助手產生深遠影響的另一個領域。透過提供照片般逼真的視覺表示,企業可以整合 Vlogger 以新增人性化的元素,從而獲得更具互動性的使用者體驗。
教育內容
教育已經開始向智慧課堂和虛擬導師等形式提供教程的方向發展。藉助 Vlogger,教育內容可以擁有各種學科的個性化頭像,甚至可以擁有來自不同國籍的學生的多語言頭像。
社會影響
儘管 Google Vlogger 在人類影片合成方面取得了最先進的成果,但與其他生成式 AI 工具一樣,濫用該技術的可能性也困擾著人們。例如,使用名人頭像建立不當內容或可能引發騷亂的政治人物頭像。隨著深度偽造技術在網際網路上迅速蔓延,人們無法判斷影片中的人是否被替換成了其他人的肖像。這可能會增加錯誤資訊和欺詐行為的可能性。
結論
Google AI 的 Vlogger 可以將內容創作提升到一個全新的水平。它將塑造人類影片合成的未來,並減少對物理內容創作者的需求。與其他生成式 AI 軟體一樣,Vlogger 的目的只是簡化和簡化內容創作者的工作流程,而不是取代他們。
這篇文章就到這裡了。我們下一篇文章再見!








