介紹
什麼是生成式AI?這是一個縈繞在許多人腦海中的問題。生成式AI在過去幾年裡獲得了巨大的關注。隨著ChatGPT在2022年11月爆紅,已經沒有回頭路了!
各個行業都在採用生成式AI來實現有趣的應用,例如內容生成、營銷、工程、研究和一般文件編制。
什麼是生成式AI?
生成式AI是一種人工智慧形式,用於生成文字、影像或音訊形式的內容。深度學習模型在大量資料上進行訓練,以生成此類響應。
生成式AI的歷史
生成式AI最初於20世紀60年代以聊天機器人的形式出現。在本節中,我們將回顧導致我們今天所知的生成式AI繁榮的重要事件的時間線。
1966年:麻省理工學院教授約瑟夫·魏澤鮑姆開發了Eliza,第一個模擬心理治療師對話的聊天機器人。Eliza能夠使用模式匹配和簡單的語言處理技術來回應使用者,這是自然語言理解和人機互動方面的一項重大早期突破。

1968年:麻省理工學院的泰瑞·維諾格拉德開發了SHRDLU程式,這是一個具有開創性的程式,展示了在有限領域內自然語言的理解能力。使用SHRDLU,使用者可以根據用英語發出的命令來操作物件。該專案的成功突出了人工智慧在理解和執行現實生活中複雜指令方面的潛力。
1985年:貝葉斯網路作為人工智慧中用於機率建模和因果分析的強大工具出現。透過使用有向無環圖表示變數之間的機率關係,貝葉斯網路提供不確定性下的推理,可用於診斷、預測和決策制定。
1989年:約書亞·本吉奧、揚·勒丘恩和帕特里克·哈夫納透過卷積神經網路(CNN)徹底改變了影像識別。由於共享權重和卷積,CNN能夠比傳統方法更準確、更有效地處理視覺資料。計算機視覺系統和深度學習應用都基於這一突破。

2000年:約書亞·本吉奧等人於2000年引入了神經機率語言模型,這是一種基於神經網路的語言建模方法。透過捕獲上下文依賴關係和學習單詞的分散式表示,增強了自然語言處理任務,如語音識別、機器翻譯和文字生成。
2011年:蘋果公司的Siri,一款語音啟用的虛擬助手,是消費級AI技術中的一個重要時刻。藉助Siri,使用者可以使用語音命令與裝置進行互動,為個性化和直觀的使用者體驗設定了新的標準。
2013年:托馬斯·米科洛夫引入了word2vec,這是一種在自然語言處理中用於詞嵌入的變革性技術。word2vec使用神經網路來學習單詞的連續向量表示,捕捉語義關係和上下文相似性。這一進步增強了詞表示的質量,並有助於改進各種NLP任務,如情感分析、命名實體識別和文件聚類。
2014年:伊恩·古德費洛及其同事開發了生成對抗網路(GAN),引入了一種新穎的生成建模框架。GAN由兩個神經網路組成,一個生成器和一個鑑別器,它們參與了一個類似遊戲的訓練過程。這種方法能夠生成逼真的合成數據,從而在影像合成、風格遷移和資料增強等領域得到應用。
2017年:“注意力就是你所需要的”,Vaswani等人引入了在自然語言處理中具有里程碑意義的Transformer。透過使用自注意力機制來捕獲序列中的長距離依賴關係,Transformer在機器翻譯、文字摘要和語言理解等任務中超越了以前的架構。包括BERT和GPT在內的多個最先進的NLP模型都基於Transformer模型。

2018年:谷歌AI的研究人員開發了BERT(來自Transformer的雙向編碼器表示),以改進自然語言理解。BERT透過雙向訓練和Transformer架構從左右上下文捕獲上下文,從而在回答問題、分析情感和分類文字等任務中取得了顯著的改進。BERT的預訓練策略和上下文化嵌入為語言表示學習設定了新的標準。
2021年:OpenAI於2021年推出了DALL-E AI模型,該模型根據文字描述生成影像。DALL-E將Transformer架構與大規模影像-文字對相結合,以根據使用者輸入生成多樣化和創意的視覺輸出。
2022年:新的模型GPT-3.5標誌著大型語言模型(LLM)的一個里程碑。它展示了在自然語言理解、生成和對話方面的先進能力,證明了基於深度學習的語言模型的發展及其在聊天機器人、虛擬助手和基於文字的AI系統中的應用。
2023年:GPT-4登場,展示了生成式AI的進一步進步。與以前的模型相比,這個新模型具有更好的語言理解、上下文保留和文字生成能力。
2024年:今年是生成式AI大放異彩的一年,例如Stable Diffusion 3、Vlogger、Claude 3、Devin AI,甚至ChatGPT-5也於年中推出。
生成式AI模型如何工作?
大型語言模型(LLM)擁有數十億個引數,可以生成引人入勝的內容或逼真的影像。它是自然語言處理(NLP)和生成式AI的組成部分,在文字摘要或語言翻譯等任務中表現出色。以最新的GPT模型ChatGPT-4為例,它是一個LLM,包含1.7萬億個引數,這些引數是在文字資料語料庫上訓練出來的。
另一方面,Transformer構成了LLM的構建塊。由於其“注意力”機制,Transformer優於迴圈神經網路(RNN)和長短期記憶網路(LSTM)。模型可以針對每個輸出標記關注輸入序列的不同部分。例如,GPT能夠給出如此快速的響應,是由於對順序資料進行並行處理。
現在我們已經瞭解了生成式AI模型背後的原理,讓我們來看看它們是如何工作的。
收集資料
該過程首先是收集與模型將執行的任務相關的大量且多樣化的資料集。這可能包括文字、影像或兩者的組合,具體取決於模型的目的。
預處理
下一步是預處理,其中收集到的資料將被清理和格式化。例如,文字資料預處理可能是分詞、去除停用詞、處理特殊字元或將文字轉換為數值表示。
定義模型架構
然後,需要選擇正確的模型架構,這一點至關重要。這可能包括選擇合適的Transformer,Transformer是專門為序列任務設計的深度學習模型。這些架構通常包含多層注意力機制,使模型能夠捕獲資料中的長距離依賴關係。
根據以下因素選擇合適的架構:
複雜度:根據我們正在處理的物件,可以選擇簡單或複雜的模型以達到預期結果。
資料需求:我們需要大型資料集,還是有限的資料就足夠了?這取決於我們希望模型訓練的有效性。
訓練時間:一些模型訓練速度快,而另一些模型需要更長時間但會產生更好的結果。這個因素完全取決於給定的時間範圍。
相容性:這涉及到無縫整合,以檢查給定模型是否與現有的硬體或框架相一致。
模型預訓練
在選擇合適的模型架構後,會在海量未標記資料上進行模型預訓練。在這裡,模型會學習通用的語言模式、語義和上下文理解,使其能夠生成連貫且上下文相關的文字。
模型最佳化
此步驟最佳化模型以增強其效能和效率。這可以透過諸如梯度下降最佳化、學習率調整、正則化方法和模型架構調整等技術來實現,以提高整體效能指標。
微調
我們來到了最後一步。微調將預訓練模型的知識適應目標任務的細微差別,例如文字生成、翻譯、摘要或問答。
現在我們已經瞭解了生成式AI模型的工作原理,接下來我們將探討一些最常見的生成式AI型別。
生成式AI的型別
現在我們對生成式AI有了更好的理解,讓我們來看看一些最常見的型別。
文字生成
這是最常見的生成式 AI(Gen AI)形式之一。我們或多或少都使用過它。文字生成涉及 AI 技術生成具有上下文、意義和連貫性的文字,這些文字與人類的響應非常相似。它在內容生成方面獲得了極大普及,例如撰寫電子郵件副本、社交媒體內容甚至部落格文章。一些最常用的文字生成工具包括 OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude。

GPT 實戰
文字到影像/影片生成
隨著文字到影像和文字到影片 AI 生成工具的引入,內容生成達到了一個全新的水平。它們使用自然語言處理 (NLP) 技術和深度學習從文字描述生成影像和影片。用例包括影片製作、資產建立和內容創作。谷歌的 Imagen、Midjourney 和 OpenAI 的 SORA 是一些文字到影像和文字到影片生成 AI 工具。
影像到影片生成
影片是最好的敘事形式之一,但建立它們可能很困難。想象一下,僅僅用一張影像就能做到。這就引出了影像到影片 AI 生成。與之前的 Gen AI 工具以文字作為輸入不同,這裡我們使用影像作為輸入。藉助 StabilityAI 的 Stable Diffusion 3、谷歌的 Vlogger 和 Runway 的 Gen-2 等工具,我們可以將無聊的靜態影像轉換為動態且引人入勝的影片。
文字到語音和語音到文字生成
文字到語音將文字轉換為語音,而語音到文字將音訊轉換為文字。兩者都有各自的目的;例如,文字到語音可以作為語音助手或教程,而語音到文字提供轉錄、聽寫或語音命令。一些最常見的語音到文字工具包括 AssmeblyAI、OpenAI 的 Whisper、AWS Transcribe 和 Deepgram。
程式碼助手
生成式 AI 不僅對內容創作產生了影響,而且對軟體開發也產生了影響。軟體工程師現在可以透過程式碼助手使他們的任務變得不那麼繁瑣。這可能包括生成程式碼片段或自動化編碼任務。Github 的 Copilot、BlackboxAI 和 Hugging Face 的 HuggingChat 是軟體工程師的一些首選程式碼助手。

Gen AI 的用例
內容創作
生成式 AI 最常見的用例之一是內容創作。只需幾行輸入,您就可以生成數百行內容。內容創作者現在可以節省大量時間來集思廣益,為長期的內容策略和營銷制定大綱。
影片編輯和生成
影片編輯和生成是 Gen AI 領域的另一個流行用例。在這裡,人們可以僅從文字輸入甚至影像生成高質量的影片內容,並且所需時間只是人工編輯的一小部分。在這裡,模型分析大量的影像和影片資料,並生成連貫且吸引人的影片內容。

Heygen 實戰
音樂製作
生成式 AI 可以為廣告或品牌推廣活動製作不錯的素材。與其他從現有資料中推斷模式的 Gen AI 模型一樣,它透過音樂資料進行推斷並生成類似的音樂。作曲家和藝術家可以探索創作方面的內容,並涉足新的流派領域。
增強醫療影像
與其他用例一樣,Gen AI 將醫療影像提升到了一個新的水平。醫療影像中的一大挑戰是資料可用性差。透過利用 Gen AI 模型(如 GAN(生成對抗網路)和 VAE(變分自動編碼器))可以解決此問題。它們能夠從現有資料生成多樣化且逼真的影像。
聊天機器人
作為最古老的生成式 AI 形式,聊天機器人已經存在了一段時間,而且看起來它們將繼續存在。隨著時間的推移,聊天機器人能夠更好地理解客戶並提供準確和細緻入微的回覆。與人類客服不同,聊天機器人能夠處理大量查詢並提供個性化回覆。
編碼任務
如前所述,Gen AI 不僅限於內容創作。它將觸角延伸到軟體開發領域。這可能包括程式碼補全、修復錯誤、程式碼審查或程式碼重構。程式碼助手能夠簡化重複性任務,例如生成程式碼或檢測錯誤,從而使開發人員能夠專注於其他緊迫的任務。
沉浸式遊戲
Gen AI 可以引入新的元素,例如角色或關卡。透過從現有的遊戲元素中學習,模型可以生成新的元素,消除遊戲體驗中的單調性。育碧等品牌正在利用 Gen AI 進行遊戲開發和修復錯誤。
Gen AI 挑戰
儘管生成式 AI 帶來了很多優勢,但它也引發了一些擔憂。其中一些包括隱私和侵權問題。對於提供這些工具的品牌而言,透過內容稽核和道德準則來應對這些挑戰至關重要。
- 生成式 AI 模型需要大量資料集進行訓練。這可能導致敏感資訊洩露或被濫用。
- 另一個 Gen AI 問題是版權侵權。由於模型在大量資料上進行訓練,這些資料包含來自網際網路的大量文章,因此始終存在侵權的可能性。
- 始終存在不公平結果的可能性,即演算法在訓練過程中可能無意中存在偏差,甚至放大現有的偏差。由此產生的偏差可能是明確的或暴力的,併產生有害內容。
生成式 AI 的未來
從 60 年代的誕生到 GAN 在 AI 領域超越其他領域,生成式 AI 迅速發展成為人工智慧領域最頂尖的子領域之一。根據德勤的 2023 年 3D 調查,94% 與內容創作者合作的品牌已經或計劃使用生成式 AI。
Gen AI 是首個面向大眾的 AI 技術,任何人都可以使用它來自動化或增強原本需要技能才能完成的任務。
如上一節所述,它也存在自身的一系列問題。讓當前和未來的勞動力成為 Gen AI 的早期採用者,可以使他們在不斷發展的人工智慧領域中輕鬆地進行導航。
生成式 AI 不會取代人類,而是會增強人類的工作。在正確的人手中,這些工具可以產生引人注目且令人印象深刻的結果,無論是內容創作還是修復程式碼中的錯誤。
這篇有趣且全面的閱讀文章到此結束。我們介紹了生成式 AI 及其發展歷程,討論了它的工作原理,並瞭解了一些用例。
我們下次再見!






