這次有幸可以前往在日本橫濱舉辦的IEEE ICRA(International Conference on Robotics and Automation)展覽,有許多的廠商以及學校在現場設攤,展出他們最新的設備產品以及技術研究,還有由學生以海報形式進行的研究發表,讓我們得以見識到在機器人各大領域中的最新知識,有應用在各方面的大語言模型(LLM),還有用在自動駕駛上的新技術等。在會場繁多的資訊當中,我們選出了數個具有特色的內容,在文章中將會做簡單的分享講解。
基於基礎模型打造可以自我恢復的通用服務機器人
相關深入資料連結
研究介紹:https://sites.google.com/view/srgpsr
論文網址:https://arxiv.org/abs/2309.14425
使用運算裝置:NVIDIA Jetson AGX Orin
這份研究是由東京大學的松尾研究室,一個專注在AI深度學習領域的團隊,於去年9月時發表。這次的成果就是將基礎模型(大型深度學習神經網路,具有適應性,例如大語言模型LLM)實際應用在機器人上,他們發表的通用服務機器人(General-Purpose Service Robot, GPSR)是一種可以應對多種不同環境與任務的機器人,使用豐田的照護機器人HSR(Human Support Robot)作為開發平台,並搭載Nvidia Jetson AGX Orin邊緣運算裝置,它可以使用安裝在上方攝影機獲取環境影像,傳入CLIP和Detic模型進行環境的辨識與分類,並透過CLIP-Fields記錄下環境的詳細資訊供後續使用。在接收到使用者的語音指令時,系統會使用Whisper將語音轉錄為文字,再交由GPT-4生成行動規劃。最後結合環境的資訊以及行動規劃給出機器人可以執行的計畫。
儘管通用型服務機器人具有高度通用性與適應性,但它也會在運行時遭遇系統失靈,這是所有機器人都會面臨的難題,研究團隊在他們的機器人上提出三個可能會遇到的情況與解決辦法:
1、獲得的資訊不足
當使用者的指令中缺少了執行任務必須的資訊時,機器人就會沒辦法達成使用者的要求,研究團隊設計了一個流程,讓機器人在資訊不足時,會使用GPT-4獲取常識來推斷缺失的資訊,或是向使用者對話,試著在當中取得相關資訊。
2、生成錯誤的計畫
機器人可能會因為轉錄過程失誤、缺乏常識或推理能力等因素,導致產生了錯誤的計畫,這時就無法繼續進行任務,研究團隊讓機器人在遇到這種情況時,向使用者提出重新敘述問題的請求,直到它可以正確的理解使用者的要求。
3、執行計畫時發生失誤
機器人在執行計畫時有時會因為外在或機械等因素,沒有辦法按照計畫執行,研究團隊會讓機器人利用GPT-4重新生成行動規劃,像是重新執行動作,或是利用環境資訊推斷可能的解決方案,來繼續完成使用者的要求。
基於這三種情況,研究團隊所提出的方法都能夠解決當下的難點,證實了他們的機器人在擁有通用性與適應性的情形下,同時還有能力可以面對任務中出現的各種失誤場景,並且在去年的RoboCup通用服務機器人競賽中獲得第二名的成績,進一步的驗證了這套方案的可行性。
在展覽現場,他們展示的是在場地內拾取地上的物體後,將其放到對應分類的位置上。在這看似簡單的展示中,實際上卻需要整合許多系統,首先要使用攝影機確認物體在地上的位置,讓機器人移動到可以抓取物品的位置,接著針對物體的外形控制機械手臂的抓取方向,再來根據抓起來的物件分類,移動到對應的分類位置並把物體放下。他們使用機器人系統ROS來整合機器人各部分的系統,一旁的筆電用遠端連線的方式連接到機器人上的邊緣裝置,執行範例並用螢幕上Rviz的地圖畫面顯示機器人的執行情況。
以上就是我們在ICRA的見聞,之後還會有數篇文章繼續分享在展覽見到的新知識,敬請期待!
〈東京大學松尾實驗室-使用GPT4等大型語言模型(LLM)打造可自我恢復的通用服務機器人-NVIDIA AGX ORIN〉這篇文章最早發佈於《CAVEDU教育團隊技術部落格》。