簡介
為了追求更低的成本、網路頻寬和功耗,以及更高的可靠性和隱私,人工智慧計算正規化正在從“雲”向“邊緣”轉變,涵蓋安全、交通、製造、自動駕駛、智慧家居等各個領域。數以億計的裝置需要變得智慧。
目前,大多數嵌入式裝置使用基於 ARM 架構的 CPU,包括 Cortex-A 和 Cortex-M 系列。深度學習演算法通常在配備強大 Nvidia GPU 的 x86/x64 伺服器上進行訓練。但是,推理需要在低功耗的 ARM 晶片上執行。這裡最優先考慮的目標是推理效率,因此邊緣解決方案的可使用性至關重要。
OpenCV 在 ARM 上的 DNN 加速
OpenCV 深度學習模組 (OpenCV DNN) 包含跨平臺的深度學習推理演算法實現,包括 ARM 支援。但這種實現缺乏深入的效能最佳化。為了增強 ARM 上的 DNN 推理效能,從 OpenCV 4.3.0 和 3.4.10 開始,OpenCV 使用 Tengine 庫作為 ARM 的高效能計算庫。效能改進在下圖中顯示

關於 Tengine
除了作為 ARM 的高效能計算庫之外,Tengine 還是 AIoT 場景的應用程式開發平臺。Tengine 由 OPEN AI LAB 推出,旨在解決 AIoT 產業鏈的碎片化問題,並加速 AI 產業化。
Tengine 專為 AIoT 場景設計,具有該場景所需的幾個重要特性,例如跨不同平臺的可移植性、異構計算、廣泛的底層(直至金屬)最佳化、超輕量級、方便的部署工具鏈。Tengine 支援不同的作業系統,並簡化和加速了各種 AI 演算法向嵌入式邊緣裝置的遷移。
更多資訊可以在 Tengine GitHub 主頁上找到:https://github.com/OAID/Tengine

