介紹
當前的 AI 市場蓬勃發展,尤其是在生成式 AI 宇宙中,OpenAI 在 2023 年推出了 **ChatGPT-4**,Anthropic AI 本月早些時候推出了 Claude 3。這些模型正在簡化內容開發人員的工作,現在又有一位軟體工程師加入了這個行列。
不到 72 小時前,**Cognition** 釋出了 Devin,全球首個完全自主的 AI 軟體工程師,在 SWE-bench 編碼基準測試中樹立了新的最先進水平的標準。只需一個簡單的提示,Devin 就可以編寫程式碼或建立網站,就像人類軟體工程師一樣。
在我們更深入地瞭解 Devin 之前,我們將熟悉一下它的創造者 Cognition。
什麼是 Cognition?
**Cognition** 成立於 2023 年 11 月,是一家總部位於美國的**應用 AI 實驗室**,專注於推理。透過利用推理,他們打算在人工智慧領域解鎖大量學科。Cognition 目前由曾在 Google DeepMind、Cursor、Scale AI 和 Nuro 等科技巨頭工作過的專業人士和領導者組成。他們已經從 Peter Thiel 的 Founders Fund 那裡獲得了**2100 萬美元**的融資。Cognition 背後的支持者包括 DoorDash 執行長 Tony Xu 和加密貨幣平臺 Coinbase 的創始人 Fred Ehrsam。

什麼是 Devin?
Devin 是一款自主模型,可以根據單個提示計劃、分析和執行復雜的程式碼和軟體工程任務。它擁有自己的命令列、程式碼編輯器和獨立的網頁瀏覽器。
該模型的能力透過在幾個不同的 API 提供商上測試 Meta 的 Llama 2 來展示。Devin 首先制定了一個逐步的“計劃”,然後再解決問題。然後,它使用與人類軟體工程師相同的工具構建了整個專案。使用其內建瀏覽器,Devin 能夠調出 API 文件以閱讀並學習如何連線到每個 API。最後,它構建並部署了一個具有完整樣式的網站。
Devin 的與眾不同之處在於它能夠從錯誤中學習。它可以做出數千個決策,並隨著時間的推移變得越來越好。
在幾個標準的軟體工程問題集上進行測試時,它優於其他解決方案。
Devin 還接受了頂級科技品牌關於 AI 任務的面試,並滿足了他們的期望。它還完成了在 Upwork 上釋出的真實工作的任務,例如編碼任務、除錯計算機視覺模型和生成詳細報告。
GitHub Copilot 是一個程式碼補全工具,我們可以從 Devin 中看到它的影子。程式設計師可以將提示轉換成可執行的程式碼。這個 AI 編碼器不僅可以完成程式碼塊,還可以將程式碼翻譯成多種語言。相當令人印象深刻,對吧?但 Devin 更進一步,它能夠從頭到尾完成程式碼,而無需人工干預。

Devin 是如何工作的?
如前所述,Devin 擁有自己的命令列、自己的程式碼提示部分,以及自己的網頁瀏覽器來收集資源。
輸入提示後,Devin 將進入“規劃者”模式,其中逐步指南解釋瞭如何解決問題。

Devin 儀表盤
完成此操作後,儀表盤將移至一個包含四個部分的介面
- 第一部分包含所有輸入提示
- 第二部分是命令列部分
- 第三部分是它自己的程式碼編輯器
- 第四部分是它自己的瀏覽器,它會徹底分析資源以得出推斷。
- 最後,它會提供解決方案的視覺化。
如何獲取 Devin 的訪問許可權?
Devin 可供搶先體驗,您可以透過加入 等待列表 來使用或“僱用”Devin。
Devin 與其他模型相比如何?
Devin 在 SWE-bench 上進行了測試,SWE-bench 是一個基準測試平臺,要求代理解決開源專案中的實際問題,最常用於軟體工程師。根據 Cognition 的說法,Devin 在資料集的隨機 25% 子集上進行了評估。所有模型都獲得了幫助,即模型被告知需要編輯的確切檔案,而 Devin 則沒有獲得幫助。**Devin 正確地端到端解決了 13.86%** 的問題,這比 **Claude 2 的 4.8% 和 ChatGPT-4 的 1.74%** 有了大幅提升。Cognition 表示他們將很快釋出更詳細的技術報告!

Devin SWE 基準測試
Devin 會取代軟體工程師嗎?
如基準測試所示,令人印象深刻的數字在人們心中,尤其是軟體開發人員和工程師心中,引起了關於軟體工作和相關工作的未來的動盪。
Cognition 是一家專注於推理的應用 AI 實驗室,聲稱正在構建具有超越現有 AI 工具功能的 AI 隊友。
Cognition 宣告:“Devin 是一位不知疲倦、技術嫻熟的隊友,隨時準備與您並肩作戰,或獨立完成任務供您審查。有了 Devin,工程師可以專注於更有趣的問題,工程團隊可以努力實現更雄心勃勃的目標”。
有趣的是,儘管大多數人認為 Devin 是許多軟體工程師的終結,但 Devin 的製造商 Cognition 正在積極招聘“人類”軟體工程師!意見不一,在我們對 Devin 進行全面測試之前,我們無法得出任何結論。
正如特斯拉前 AI 主任 Andrej Karpathy 引用的話:“在我看來,軟體工程自動化看起來類似於駕駛自動化。” 他接著說,軟體工程正在發生重大變化。它將涉及更多監督自動化,同時以英文提供高階命令、想法或進展策略。

就像任何其他生成式 AI 工具一樣,Devin 的表現只取決於使用它的人!這些只是高效使用者手中的工具,使他們的任務變得不那麼繁瑣和耗時!

結論
Devin AI 是**生成式 AI** 領域的一大進步,透過自動化編碼任務和複雜問題,徹底改變了軟體開發領域。隨著 GPT-4、Claude 3,以及現在的 Devin 等模型的出現,生成式 AI 的未來似乎充滿了希望;它們不是來取代我們,而是來幫助我們。我們下次再見!






