物件偵測是電腦視覺技術中一項極為重要且快速發展的領域,而 YOLO (You Only Look Once) 則是物件偵測中最熱門的框架之一。目前最新的版本為 YOLO v5、v7 與 v8,本文將比較這幾個版本在 NVIDIA Jetson AGX Orin 32GB 邊緣運算裝置 (目前市面上最強大的嵌入式 AI 電腦),以及 RTX 4070 Ti 顯示卡上的執行效能。歡迎詳閱本文,找出哪一款 YOLO 最符合您的需求喔!
註:本文經ZED同意之後翻譯(原文連結)
YOLO v5, v7 與 v8 在 Jetson AGX Orin 上的執行效能
每當有新的 YOLO 問世,我們心中的第一個問題總是:
要不要升級到最新的版本?
多數情況下,各類 benchmark 都是在 A100 這類高階 GPU 上來測試,與實際用於生產的嵌入式 GPU 相差甚遠。再者,即便大家都知道 TensoRT 可有效對大多數的神經網路進行最佳化,但實際上很少用到。最後,將 YOLO v7 與 Ultralytics v5 / v8 進行比較的 benchmark 也不太多。
因此,Stereolabs (ZED景深攝影機製造商) 於2023年初,針對 YOLO v5、YOLO v7 與 YOLO v8 在 AGX Orin 推出了完整的 COCO benchmark (與實際延遲時間進行比較),使用 TensorRT 8.4 與 JetPack 5。結果如下:
另一方面,也針對 NVIDIA Jetson AGX Orin (JetPack 5) 與 RTX 4070 Ti (Batch 1, TRT8.4, FP16) 上以 640 解析度來執行所有 YOLOv8、YOLOv5 與 YOLOv7 模型,詳細結果如下:
MODEL | AP | AP0.5 | AGX ORIN (FPS) | RTX 4070 TI (FPS) |
---|---|---|---|---|
v5n | 28 | 45.7 | 370 | 934 |
v8n | 37.3 | 52.5 | 383 | 1163 |
v7-tiny | 37.4 | 55.2 | 290 | 917 |
v5s | 37.4 | 56.8 | 277 | 877 |
v8s | 44.9 | 61.8 | 260 | 925 |
v5m | 45.4 | 64.1 | 160 | 586 |
v8m | 50.2 | 67.2 | 137 | 540 |
v5l | 49 | 67.3 | 116 | 446 |
v7 | 51.2 | 69.7 | 115 | 452 |
v8l | 52.9 | 69.8 | 95 | 391 |
v5x | 50.7 | 68.9 | 67 | 252 |
v7x | 52.9 | 71.1 | 77 | 294 |
v8x | 53.9 | 71.0 | 64 | 236 |
以下是一些有趣的結果:
- 就相同執行階段而言,所有 v8 模型的 mAP 都比 v5 提升了 4 到 9 左右。
- v8m 與 v8l 在 mAP(mean Average Precision) 與推論速度上已優於 v5l 與 v5x。
- 就準確率與推論速度來說,v8n 是最佳的輕量化模型。
- YOLO v8 (目前為止) 尚未提供以 1280 解析度來訓練的模型,因此在可小幅降低推論速度但講求高解析度的情境下,YOLO v7 仍是推論的最佳方案。
將 YOLO 結合數位雙生技術( Digital Twin)
新款的 YOLOv8 相較於傳統的 YOLOv5 物件偵測器有長足的改進。已從諸多產業看到一股明顯的趨勢,就是將景深影像整合 YOLO 技術,例如 ZED 2i 景深攝影機。這款攝影機可讓在空間中定位與追蹤人體/物體的成效更上一層樓。以下影片是將 YOLO 整合 ZED 2i 景深影像 (其中用到了 ZED SDK) 的即時數位雙生影片,也可以看到物體的 3D 邊界框(bounding box):
總結
由上可知,本文所提的三種 YOLO 版本 (v5, v7, v8) 在 Jetson Orin 上都有相當亮眼的表現。但根據本文測試,YOLO v8 看起來是其中成效最好的一款。不論是執行於 Orin 與 RTX 4070 Ti,YOLO v8 的所有變體針對 COCO 資料集的 mAP 都優於 v5。如果您還在尋找某一款又快又可靠的物件偵測框架的話,YOLO v8 應該是您的最佳選擇。
藉由在 ZED SDK 中加入自定義物件,您就能把新款的 YOLO v8 搭配 ZED 景深攝影機來取得物體的 3D 邊界框。
〈YOLO v5, v7 與 v8 物件偵測模型效能比較,執行於 Jetson AGX Orin 與 RTX 4070 Ti〉這篇文章最早發佈於《CAVEDU教育團隊技術部落格》。