對話武漢大學李淼教授：以大模型視角看待一切機器人問題丨GAIR live

雷鋒網 ? 1年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

“人們對機器人的抓取和操作存在很多誤解，很多研究成果很難推進到實際應用環節。”

武漢大學李淼教授介紹，這是他放棄前往麻省理工 MCube Lab（操縱與機制實驗室）Alberto Rodriguez教授團隊做博士后研究，選擇回國創業的重要原因。

李淼教授博士畢業于瑞士洛桑聯邦理工學院，師從學習算法與系統實驗室的創辦者Aude Billard教授，長期致力于機器人學習和控制、物體抓取和操作等領域的研究。

他關于動態抓取算法研究的博士論文，在瑞士洛桑聯邦理工學院獲得了全球每兩年僅一名的瑞士ABB獎（Asea Brown Boveri Ltd. ），也是該獎的唯一華人獲得者。這項研究提出了復雜物體靈巧操作的魯棒性算法以及成功應用于現實世界的機器人操作問題，尤其在機器人抓取、操作方面。

李淼教授回國后依然延續了這項研究，為抓取算法尋找合適的落地場景。

大模型技術出現后，李淼教授的研究內容也隨之變化，一方面與業界合作，將大模型技術應用在家庭服務機器人的產品研發上；

另一方面，在學術研究上，也開始嘗試將擴散模型（Diffusion Policy）和手術機器人動作生產策略相結合、將大模型和醫療影像相結合。

“我在與團隊成員交流時一直強調，我們要以大模型的視角來看待一切機器人的問題，無論是算法研究還是其他各類工作，如果和大模型不相關，也許5年之內就會被淘汰。”

李淼教授指出，大模型將徹底改變機器人領域的發展進程。

4月8日（周一）20:00-22:00，雷峰網 (公眾號：雷峰網) 將舉辦主題為「大模型時代，機器人的技術革新與場景落地」的線上圓桌論壇，屆時李淼教授將分享更多前沿觀察。

以下為對話（經編輯）：

01 從理論研究到機器人研究

雷峰網：碩士畢業后，您為什么選擇了瑞士洛桑聯邦理工學院讀博？該校的機器人研究有何特色？

李淼： 我最開始是在華中科技大學申請的直博，碩士階段結束后，考慮到當時國外的機器人研究比較領先，所以嘗試申請了國際上機器人專業排名最高的幾個學校，也拿到了很多offer，比如美國的約翰·霍普金斯大學、英國的帝國理工大學等等。

我希望選擇一個與AI算法結合更緊密的方向，所以最終去了瑞士洛桑聯邦理工學院Aude Billard教授的學習算法與系統實驗室（Learning algorithms and systems Laboratory）。

由于我本科、碩士階段的機器人研究方向更加偏向理論，和數學、醫學、動力學等學科的相關性很高，而Aude Billard教授團隊的研究則更加注重數據，通過模仿學習等手段收集機器人工作過程中的數據并進行分析，Aude Billard教授是這一領域的開創者，也是瑞士機器人專題網絡負責人。

除Aude Billard教授的實驗室之外，瑞士洛桑聯邦理工學院還有很多技術領先的機器人研究團隊，如研究仿生機器人的生物機器人實驗室（Biorobotics Laboratory）、發明了折紙機器人的可重構機器人實驗室（Reconfigurable Robotics Lab）等等。

瑞士洛桑聯邦理工學院機器人研究的整體風格就是小而精，學校拓展了非常多具體的研究方向和團隊。

雷峰網：工業機器人四大家族之一的ABB也誕生于瑞士，您多次提名和獲得該校的ABB獎，這對您后來的創業方向有什么影響？

李淼： ABB的總部在瑞士，與瑞士洛桑聯邦理工學院有很多合作，ABB在學校里設立了的一個獎項（Asea Brown Boveri Ltd. ），每兩年頒布一次，獎勵獎勵能源、自動化、電信等各個領域的原創科學工作，每次只有一個獲獎名額，競爭非常激烈。

我憑借研發的復雜物體靈巧操作的魯棒性算法以及成功應用于現實世界的機器人操作問題獲得了2018年的獎項（論文：《Dynamic Grasp Adaptation -- From Humans To Robots》），同時我也是唯一的華人獲得者。

以往的機器人研究中開發了大量的算法，但是并不能很好地解決實際問題，而我的這項研究第一次成功地應用于現實世界的機器人操作問題，尤其在機器人抓取、操作方面。

2016年我離開瑞士洛桑聯邦理工學院后之后，發覺在機器人領域的很多研究成果仍舊很難推進到實際應用環節，人們對機器人的抓取和操作存在很多誤解，所以我決定回國創辦一家公司，將機器人技術推廣到實際應用場景之中。

我回國后的創業團隊依舊延續了對這項技術的探索，將其應用在物流、藥房等場景的抓取、操作中，不斷打磨解決方案。

雷峰網：2016年您回國創業，從事機器人抓取與智能控制相關應用的研究。為什么決定回國創業？

李淼： 最開始回來時我還是一個fresh PHD，對行業的認知還有限，嘗試為抓取的算法找到合適的落地場景，從物流、工業到醫療場景都進行了落地嘗試，最后聚焦到醫療場景。

這時候我們發現，一個機器人產品不僅僅需要有抓取技術，還需要有很多輔助的硬件設配相配合，慢慢就形成了綜合的解決方案。

2017年我來到武漢大學工作后，前期的這些工作也間接影響了我在學校里的研究方向，使我更加關注機器人的落地應用。

雷峰網：早在2022年，您與港中文的陳翡教授就合作發表過一篇烹飪機器人的論文《Robot Cooking With Stir-Fry: Bimanual Non-PrehensileManipulation of Semi-Fluid Objects》，這篇論文的關注角度與孫宇教授此前發布在IJAIRR期刊上的《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》一文有哪些不同？您認為在烹飪場景中機器人技術還有哪些值得探索的方向？

李淼： 在廚房這個場景中，對機器人的要求是最綜合的，不論是精細的運動，還是更高維度的規劃，以及對不同模塊的理解，烹飪場景都是最豐富的。

甚至在其他場景中鮮少用到的味覺和嗅覺，烹飪場景中也有涉及。

機器人在烹飪場景的工作可以分為兩個大的邏輯，一是上層的任務規劃，二是底層的動作規劃。我和陳翡教授的合作更多是動作層面的規劃，孫宇教授的研究則是關于任務層面的規劃。

要將上層的任務規劃和底層的動作規劃打通，還需要一個中間層 middle layer，也可以叫做膠水層。

在當前的研究領域，針對中間層架構的深入探究尚未達到預期的成熟度。

無論是采用規劃領域定義語言（Planning Domain Definition Language, PDDL）以形式化地描述和連接自動化規劃任務，還是依賴于基于規則的專家系統進行決策支持，亦或是利用神經網絡構建的專家系統，這些方法在實現高效、可靠的中間層處理能力方面均顯示出了一定的局限性。

這些技術在處理動態變化的環境、提升決策的透明度和解釋性、以及增強系統的泛化能力等方面仍面臨諸多挑戰。

雷峰網：在您對機器人領域的研究中，也融合了機器視覺、深度學習等不同學科知識，如何看待機器人研究中跨學科合作的意義？

李淼： 機器人研究可以大體分為四塊：設計（具身）、感知、規劃、控制。

我們從感知的角度來看，當機器人需要獲取視覺信息時，就需要視覺傳感器的配合；機器人需要獲取觸覺信息時，就需要觸覺傳感器的配合，看起來似乎是多學科交叉融合的研究。

但是我們從當下大模型的視角或數據驅動的視角來看，這些東西本身就是一體的。

不論是具身層面還是感知層面，機器人都是多模態的。機器人的外觀既可以是人形，也可以是狗形；機器人的獲取的信息既可以是視覺信息，也可以是觸覺信息。我們可以將這些內容都看作是機器人研究的一部分。

02 當機器人遇上大模型

雷峰網：大模型技術的出現為機器人研究帶來了巨大的影響。在您的研究中對這項技術進行了哪些應用？

李淼： 在我和業界的合作中，已經開始嘗試將大模型技術應用在家庭服務機器人的研發上。

以掃地機為例，在掃地機的感知中，我們利用大模型進行數據生成，合成仿真數據以提升真實數據的不足；同時又將邏輯推理融入感知中，基于本身的語義地圖,，讓掃地機更智能地進行運動判斷，避免線材、雜物等障礙物的干擾；

在清掃報告部分，我們利用大模型生成清掃報告，同時允許用戶進行報告中內容的自定義選項添加，從而更全面的了解家庭情況。

在學校的研究里我們還沒有用到真實的大模型，但是也已經開始向這方面的研究靠近，比如擴散模型（Diffusion Policy）和手術機器人動作生產策略相結合、大模型和醫療影像的結合等等。

我在與團隊成員交流時，一直強調我們要以大模型的視角來看待一切機器人的問題，無論是算法研究還是其他各類工作，如果和大模型不相關，也許5年之內就會被淘汰。

以前我們做的那些工作，現在從大模型的視角來看，所設計的模塊一定要足夠大，將其建成“data in、 data out” 的形式，只要輸入不同模態的數據，就能得到想要的結果。

舉一個例子，我的博士論文做的是機器人抓取，主要任務是消除抓取過程中的不確定性。我當時的做法是選擇在機器人的規劃層和執行層分別處理不確定性。

簡單來講，在機器人抓取一個杯子的過程中，規劃層可能會出現視覺誤差，無法保證手指準確地抓到杯子上，執行層可能會出現重量誤差，無法保證機器人為杯子施加一個合適的力。

所以我將抓取這個杯子過程中存在的不確定性分配到不同的環節，再分別處理。

和機器人不同的是，人在拿去一個杯子時并不會區分規劃層還是執行層，二者之間是并行的。

我們將這兩個環節合并到一起，就是現在所謂的多模態，數據變得更加充沛，無法對其進行特征的抽取，就只能將其轉變為大模型的思路來解決，即輸入所有的數據，讓大模型自動理解這項任務，將規劃和執行融合到一起，輸出一個我們想要的結論。

雷峰網：機器人智能控制這一領域當前的發展趨勢如何？

李淼： 機器人控制的發展最初是基于傳統的示教器示教；后來發展為模仿學習，從點對點的模仿學習逐漸升級到利用生成模型來做模仿學習；再到后期又發展為強化學習，只要給定一個目標，設置reward function（獎勵函數），機器人即可完成任務。

隨著任務越來越復雜，設置reward function時需要滿足更多的條件，就逐漸變成的大模型。

當機器人對力的訴求、視覺的訴求、觸覺的訴求等不同模態有人融入其中，就演變為多模態、大模型的發展趨勢。

這個發展思路也存在缺點，就是隨著對數據要求的增加，大模型會變得越來越復雜，需要更多的參數。

事實上，我們追求的應該是小參數的計算，也許200個參數就已經是個不小的數目。

但大模型時代往往都是數十億、數百億甚至數千億級別的參數，這對芯片的算力有很大的要求，尤其是需要在毫秒級得到計算結果的情況下。

因此，未來需要“端、邊、云”（端：物聯網中的各種設備、傳感器、智能硬件等；邊：網絡邊緣、移動邊緣、物聯網邊緣等；云：云計算、云存儲、云應用等領域）三者相協同，將大模型部署在云上，在單側部署時只解決單側的局部問題。

例如在人形機器人走路的例子中，大家的目光都聚焦在如何讓機器人走地穩這個問題上，但是人形機器人從A地到B的長周期導航，目前仍無法解決，我們可以將這個概念具體化：

端（設備）：機器人的傳感器和控制系統可以直接在機器人本體上進行一些簡單的處理，比如即時調整步伐以保持平衡。

邊（邊緣計算）：對于更復雜的決策，如避開障礙物或規劃路徑，可以在機器人附近的邊緣計算設備上進行。這些設備可以更快地處理數據，減少延遲，并減輕云端的計算負擔。

云（云計算）：對于需要大量計算資源的任務，如長時間的導航規劃，可以在云端進行。云端的強大計算能力可以用來處理和分析大量的數據，生成詳細的導航計劃，并將其發送回機器人。

在這個例子中，邊緣計算的作用是處理那些需要較快響應但又不需要云端巨大計算資源的任務。通過這種方式，可以確保機器人在執行長周期導航任務時，既能保持較低的延遲，又能利用云端的強大計算能力進行復雜決策的制定。因此人形機器人長周期導航問題，可以通過“端、邊、云”三者協同的方式來解決。

雷峰網：您的研究團隊未來一段時間的研究方向是什么？會側重哪方面的技術探索？

李淼： 主要還是圍繞機器人的抓取和靈巧操作，以及相關的行業應用做研究。

機器人行業的從業者們以往關注的更多是表層的應用，比如看到現實中有人用手去抓東西，于是就讓機器人來做這項工作，取代人進行體力勞動。

然而，從實際情況而言，我們觀察了很多不同行業，例如在介入手術、腦外科手術等應用場景中，需要人手能夠完成更加靈巧的操作。

這些靈巧的操作如何用機器人來實現？其中涉及到哪些具體的技術？都是我們未來關注的重點。

我們會持續挖掘這些以往不易被發現的場景，開發適應場景的相關技術。

但未來這些技術是否能夠在對應的場景中真正實現產業化，還是個未知數。

我曾經評估過腦動脈瘤手術這個場景，這項手術的成功率僅為50%，對醫生的操作經驗要求非常高，也許20年內都無法實現全自動手術機器人的產業化。

但我依然認為這項工作對全人類來說是具有長期價值的。

我的團隊目前已經開始進行相關的研究工作，例如觸覺傳感器的研發。在腦動脈瘤手術中，觸覺傳感器既要檢測法向力和切向力，又要應對極端環境下的操作。

因此，我們要將機器人的設計、感知、規劃、控制等各個環節打通，用大模型的方式將這些場景模擬一遍，才能推動研究。

雷峰網：從您在工業界的經驗來看，機器人從技術研發到場景落地的過程中存在哪些難題？

李淼： 目前最大的難題是大模型的核心規律scaling law（標準律），即很難在機器人方面進行創新，尤其是在工業場景下，很難達到規模化的程度，這也是所有機器人創業公司面臨的共性問題。

也許做核心零部件、電機、減速器的公司活得還不錯，可一旦涉及到做具體的機器人產品，不論是六軸機器人、四軸機器人或是并聯機器人，銷量和銷售額都不會很高。

機器人行業甚至至今都沒有出現一款統一的芯片，又何談規模化。

這意味著，機器人本身或許就不具備一個統一的形態。

我認為機器人雖然叫這個名字，但不能將它完全等效為一個人形機器人，如果站在生物的角度來看，其實有更多不同形態的生物能夠更好地解決問題，比如人的彈跳能力不是最好的，跑動速度不是最快的，甚至還不會飛，所以人形形態并不是機器人最終的選擇。

拋開具身這個層面，我們也要看機器人的智能層面能否得到很大的提升，只有通過智能層面驅動其他不同智能產品的迭代，才能解決機器人行業的共性問題。

例如，智能家居系統可以通過集成更智能的機器人技術來提供更個性化的服務；自動駕駛汽車可以通過機器人的感知和決策技術來提高安全性和效率；無人機可以通過機器人的導航和控制技術來進行更復雜的任務等等。（歡迎添加微信icedaguniang，交流認知，互通有無。）

GAIR live 圓桌預告

4月8日，北京時間20:00-22:00，雷峰網將舉辦主題為「大模型時代，機器人的技術革新與場景落地」的線上圓桌論壇。

本次論壇嘉賓有，南佛羅里達大學孫宇教授、武漢大學李淼教授、南方科技大學張巍教授、優必選科技龐建新博士。

“全球人工智能與機器人大會”（GAIR）始于2016年雷峰網與中國計算機學會（CCF）合作創立的 CCF-GAIR 大會，旨在打造人工智能浪潮下，連接學術界、產業界、投資界的新平臺，而雷峰網“連接三界”的全新定位也在此大會上得以確立。

經過幾年發展，GAIR大會已成為行業標桿，是目前為止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。

GAIR Live 作為雷峰網旗下視頻直播品牌，旨在輸出新鮮、深度、原創的大咖訪談與對話內容，打造輻射產、學、研、投的特色線上平臺。

大模型與機器人相關資料

1.《對話南佛羅里達大學孫宇教授：當大語言模型用于機器人任務規劃丨IJAIRR》

2.論文：Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability

IJAIRR正在邀約論文和專題

《國際人工智能與機器人研究期刊》（International Journal of Artificial Intelligence and Robotics Research，簡稱IJAIRR），是由新加坡GAIR研究院與世界科技出版社聯合出版的國際學術期刊。

作為全球首本專注于人工智能（AI）、機器人技術（Robotics）以及基礎科學交叉研究（Research）的期刊，IJAIRR致力于成為AI與機器人領域研究的權威發布平臺。

IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題（Special Issue）形式的投稿。

我們特別關注那些在頂級AI會議上發表并現場展示，但缺乏長期沉淀平臺的優秀論文。為了給這些論文及其作者提供一個更廣泛的發表和推廣渠道，IJAIRR現正積極邀約相關論文投稿。

如果您在本領域頂級會議上發表的文章（或即將發表）不超過一年，我們將協助您稍作修改后在IJAIRR期刊上發表。

如果您領導的團隊在頂級會議上有多篇論文發表，并希望在IJAIRR上圍繞特定主題策劃一個專題（Special Issue），我們誠摯邀請您深入討論合作事宜。

如果您是頂級會議的組織者，并有意與IJAIRR合作，針對特定會議策劃一個專題（Special Issue），我們也期待與您具體商討合作細節。

IJAIRR期待與您攜手，共同推動人工智能與機器人研究的發展。圖片

聯系人：IJAIRR創刊主編朱曉蕊博士，[email protected]

關于期刊創刊主編等更多信息，可點擊https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

關于雷峰網、GAIR大會、GAIR研究院（期刊和在線社區）的詳細介紹，請閱讀朱曉蕊教授的專訪：https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主頁鏈接為：https://gairdao.com/journals/ijairr

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

本文被轉載1次

首發媒體

| 轉發媒體

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

對話武漢大學李淼教授：以大模型視角看待一切機器人問題丨GAIR live

本文被轉載1次

隨意打賞