貝索斯領(lǐng)投、OpenAI連續(xù)跟投,這家機(jī)器人公司再融4億美金
貝索斯又給一家AI創(chuàng)企 Physical Intelligence 投資了,一頓操作下來(lái),使其估值狂飆至 24 億美元 。
值得一提的是,這波融資除了貝索斯外,還有風(fēng)險(xiǎn)投資公司 Thrive Capital 和 Lux Capital 同時(shí)牽頭,OpenAI、Redpoint Ventures、Bond 紛紛跟投。
讓 Robot 疊衣服,一句話的事兒
這個(gè)讓一眾大佬紛紛看好的 Physical Intelligence,它的核心產(chǎn)品是一款名為 π0 (pi-zero) 的軟件,這是一個(gè)通用的機(jī)器人基礎(chǔ)模型,旨在使用戶(hù)通過(guò)簡(jiǎn)單的語(yǔ)言指令控制機(jī)器人,類(lèi)似于與聊天助手互動(dòng)的方式。
在上周發(fā)布的論文中,Physical Intelligence 還展示了 π0 如何使機(jī)器人能夠折疊衣物、清理桌子、壓平盒子的技術(shù)分析等等。
其中,π0機(jī)器人控制模型集成了一系列高科技手段,使其能夠靈巧地完成復(fù)雜的任務(wù)。
這個(gè)模型首先利用視覺(jué)-語(yǔ)言模型來(lái)理解圖片和文字中的信息,然后通過(guò)一個(gè)特殊的動(dòng)作輸出系統(tǒng),以很快的速度告訴機(jī)器人該如何動(dòng)作。這種快速、連續(xù)的動(dòng)作指令對(duì)于需要精細(xì)操作的任務(wù)非常關(guān)鍵,比如疊衣服或者裝箱子。
π0模型的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練。
預(yù)訓(xùn)練階段,模型會(huì)學(xué)習(xí)大量的數(shù)據(jù),這樣它就能夠掌握廣泛的技能和適應(yīng)不同的場(chǎng)景。后訓(xùn)練階段,模型會(huì)針對(duì)特定的任務(wù)進(jìn)行調(diào)整,以提高其在這些任務(wù)上的表現(xiàn)。
此外,π0還采用了一種叫做流匹配的技術(shù),這讓它能夠處理連續(xù)的動(dòng)作,而不是單一的、離散的步驟。這種技術(shù)的應(yīng)用,加上模型的混合專(zhuān)家架構(gòu),使得π0在預(yù)測(cè)動(dòng)作時(shí)更加準(zhǔn)確。
總的來(lái)說(shuō),這些技術(shù)的綜合應(yīng)用讓?duì)?在多種機(jī)器人平臺(tái)上都能夠展現(xiàn)出色的表現(xiàn),無(wú)論是在預(yù)訓(xùn)練后立即執(zhí)行任務(wù),還是經(jīng)過(guò)特定任務(wù)的微調(diào)后。
網(wǎng)友直呼:我一直相信AI機(jī)器人的能力,現(xiàn)在它能幫我洗衣服,我就更喜歡它了!
還有網(wǎng)友化身“賽博乞丐”:給我來(lái)一個(gè)!
不過(guò)也有網(wǎng)友覺(jué)得演示中的內(nèi)容在特斯拉的機(jī)器人面前有點(diǎn)太小兒科了,不過(guò)馬上遭到反駁: 人家只是初創(chuàng)公司!
而這也和 Physical Intelligence 的想法一致,聯(lián)合創(chuàng)始人 Sergey Levine 就曾經(jīng)表示:“據(jù)我們所知,我們正在訓(xùn)練的數(shù)據(jù)量比有史以來(lái)制作的任何機(jī)器人模型都要大。”
但他還補(bǔ)充道:“它無(wú)論如何都不是 ChatGPT,但也許它接近 GPT-1”,表達(dá)他們的軟件更接近于 OpenAI 為聊天機(jī)器人發(fā)布的首個(gè)模型GPT-1,而不是那些更先進(jìn)的、為 ChatGPT 提供動(dòng)力的大腦, 暗示他們?nèi)蕴幱谠缙陂_(kāi)發(fā)階段。
野心勃勃,要做機(jī)器人行業(yè)中的「OpenAI」
之所以Physical Intelligence能夠拿到這么大的融資,可能是因?yàn)樗蚈penAI一樣, 都是企圖從模型與數(shù)據(jù)層面顛覆此前的技術(shù)慣性,或許將Physical Intelligence的π0與OpenAI的ChatGPT進(jìn)行比較,可以更直觀地理解其創(chuàng)新和潛力。
首先,ChatGPT的精準(zhǔn)語(yǔ)義理解能力是其核心優(yōu)勢(shì)之一,對(duì)于π0而言,這種能力同樣至關(guān)重要。
π0必須具備理解物理世界中的交互指令和上下文的能力,這包括但不限于視覺(jué)、語(yǔ)言和觸覺(jué)等多種感官輸入。
通過(guò)接受大規(guī)模互聯(lián)網(wǎng)視覺(jué)-語(yǔ)言預(yù)訓(xùn)練,并結(jié)合豐富的機(jī)器人操作數(shù)據(jù)集,π0能夠熟練地執(zhí)行一系列多樣化的任務(wù)。這不僅彰顯了π0在解讀物理世界指令方面的卓越能力,也體現(xiàn)了其在多模態(tài)感知和任務(wù)執(zhí)行上的先進(jìn)性。
其次,ChatGPT的卓越之處在于其能夠?qū)⒑暧^問(wèn)題細(xì)化為微觀問(wèn)題,并巧妙地整合答案。
對(duì)于π0而言,這表示它必須將復(fù)雜的物理任務(wù)分解成一系列可操作的步驟,并根據(jù)環(huán)境的實(shí)時(shí)反饋靈活調(diào)整其行動(dòng),以確保達(dá)成預(yù)定目標(biāo)。
π0通過(guò)在廣泛的機(jī)器人操作數(shù)據(jù)集上進(jìn)行訓(xùn)練,已經(jīng)能夠熟練執(zhí)行從簡(jiǎn)單的物體搬運(yùn)到復(fù)雜的衣物整理等多樣化任務(wù),這充分展現(xiàn)了其在任務(wù)分解和解決方案構(gòu)建方面的強(qiáng)大能力。
關(guān)于這點(diǎn),Physical Intelligence 的創(chuàng)始人 Karol 也曾說(shuō)過(guò):“我們有一個(gè)非常通用的方法,它可以利用來(lái)自許多不同實(shí)施例、許多不同機(jī)器人類(lèi)型的數(shù)據(jù),并且類(lèi)似于人們訓(xùn)練語(yǔ)言模型的方式。”
最后,ChatGPT的通用性體現(xiàn)在其能夠?qū)⑷祟?lèi)知識(shí)遷移至語(yǔ)言交流中。相較之下,Physical Intelligence的通用性則表現(xiàn)在將互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中學(xué)習(xí)到的深層語(yǔ)義知識(shí),成功應(yīng)用到物理世界的實(shí)際操作中。π0繼承了這種從大規(guī)模互聯(lián)網(wǎng)預(yù)訓(xùn)練中獲得的豐富語(yǔ)義知識(shí),并將其有效運(yùn)用于實(shí)時(shí)的靈巧機(jī)器人控制,從而在知識(shí)遷移和通用性方面展現(xiàn)了其非凡的能力。
值得一提的是,Physical Intelligence的一個(gè)關(guān)鍵特點(diǎn)是與物理世界的直接交互。與ChatGPT主要處理語(yǔ)言和信息不同,Physical Intelligence需要處理的是物理信號(hào)和實(shí)際操作,正是這一點(diǎn)可以看出,它的野心是成為機(jī)器人行業(yè)中的「OpenAI」。
總的來(lái)說(shuō),ChatGPT的里程碑在于其對(duì)自然語(yǔ)言的理解和生成能力,而Physical Intelligence之所以受到投資人重視,則在于其對(duì)物理世界的理解和操作能力。
π0所做的,就是將構(gòu)建語(yǔ)言模型的技術(shù)與控制和指導(dǎo)機(jī)器的自有方法相結(jié)合,并通過(guò)大量的機(jī)器人數(shù)據(jù)訓(xùn)練來(lái)實(shí)現(xiàn)。為了獲得更多數(shù)據(jù),該公司使用了在圖像和文本上訓(xùn)練大腦視覺(jué)語(yǔ)言模型和從 AI 圖像生成中借鑒的擴(kuò)散建模技術(shù)。
人均“大咖”的初創(chuàng)公司
Physical Intelligence 成立于 2024 年,至今不到一年時(shí)間。它是一家專(zhuān)注于將通用人工智能與物理系統(tǒng)相結(jié)合的機(jī)器人初創(chuàng)公司,總部位于加利福尼亞州舊金山。公司的目標(biāo)是開(kāi)發(fā)一種能夠應(yīng)用于各種機(jī)器人的基礎(chǔ)軟件,使其能夠執(zhí)行復(fù)雜的多步驟任務(wù),而不再局限于特定的功能。
公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 卡羅爾·豪斯曼(Karol Hausman) 曾在谷歌DeepMind擔(dān)任機(jī)器人科學(xué)家,一直專(zhuān)注于深度學(xué)習(xí)和機(jī)器人技術(shù)的應(yīng)用,目前在斯坦福大學(xué)當(dāng)客座教授。
Karol 在慕尼黑工業(yè)大學(xué)獲得機(jī)器人碩士學(xué)位,在南加州大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,研究方向?yàn)楦兄?行動(dòng)循環(huán)的重新思考,通過(guò)交互感知和學(xué)習(xí)表征來(lái)提升機(jī)器人的智能。自2018年起,擔(dān)任谷歌大腦的員工研究科學(xué)家,領(lǐng)導(dǎo)機(jī)器人操作團(tuán)隊(duì),并負(fù)責(zé)多個(gè)重要項(xiàng)目。2021年至今,擔(dān)任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的兼職教授,教授深度強(qiáng)化學(xué)習(xí)等課程。同時(shí)也在NASA噴氣推進(jìn)實(shí)驗(yàn)室等多個(gè)頂尖研究機(jī)構(gòu)擔(dān)任過(guò)短期訪問(wèn)研究員。
同時(shí)他也在多個(gè)國(guó)際會(huì)議和期刊上發(fā)表了大量論文,涵蓋深度學(xué)習(xí)、機(jī)器人操作、交互感知等主題。其論文《Rt-1: Robotics transformer for real-world control at scale》在2022年引起廣泛關(guān)注。
值得一提的是,在談及自家機(jī)器人在疊衣服方面的表現(xiàn)時(shí),Karol 還強(qiáng)調(diào):對(duì)于機(jī)器人而言,折疊衣物是一項(xiàng)特別困難的任務(wù),因?yàn)樗枰獙?duì)物理世界有更深入的一般性智能,尤其是在處理那些會(huì)不斷變化形態(tài)和產(chǎn)生褶皺的柔軟物品時(shí)。
他還提到,現(xiàn)有的算法還不夠穩(wěn)定。就像人工智能聊天機(jī)器人有時(shí)會(huì)出現(xiàn)一些“人類(lèi)怪癖”,例如搖晃 T 恤和短褲,讓它們平整地鋪開(kāi)。并且這些家庭服務(wù)機(jī)器人有時(shí)也會(huì)突然“崩潰”,然后做出一些令人難以置信的行為:例如它們可能會(huì)把雞蛋塞進(jìn)已經(jīng)裝滿的紙箱,然后強(qiáng)行關(guān)閉紙箱,甚至還有一次,在整理物品時(shí),機(jī)器人突然將盒子從桌子上扔了下去...
其他聯(lián)合創(chuàng)始人包括加州大學(xué)伯克利分校的教授謝爾蓋·萊維寧(Sergey Levine),Sergey發(fā)表了多篇具有影響力的論文,其中《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》和《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》是其代表作,分別被引用超過(guò)13738次和9441次。
聯(lián)合創(chuàng)始人 切爾西·芬(Chelsea Finn) ,2019年至今,Chelsea 擔(dān)任斯坦福大學(xué)的助理教授,并且享有“William George and Ida Mary Hoover Faculty Fellow”的稱(chēng)號(hào),她在機(jī)器人學(xué)和人工智能領(lǐng)域的研究工作得到了認(rèn)可和尊重。值得一提的是,在加入斯坦福之前,她曾在 Google Brain 擔(dān)任研究科學(xué)家,專(zhuān)注于深度學(xué)習(xí)和機(jī)器人學(xué)習(xí)算法的開(kāi)發(fā)。
聯(lián)合創(chuàng)始人 布萊恩·伊赫特(Brian Ichter) 在斯坦福大學(xué)期間獲得了航空航天與航天工程的碩士以及博士學(xué)位,在攻讀博士學(xué)位期間,他作為研究助理參與了多個(gè)項(xiàng)目,開(kāi)發(fā)了基于GPU的算法,用于運(yùn)動(dòng)規(guī)劃和不確定性感知。自2018年11月到2024年3月,Brian 擔(dān)任谷歌大腦的研究科學(xué)家,專(zhuān)注于開(kāi)發(fā)高效的算法和機(jī)器學(xué)習(xí)方法,使機(jī)器人能夠在復(fù)雜的現(xiàn)實(shí)環(huán)境中進(jìn)行規(guī)劃和操作。
聯(lián)合創(chuàng)始人 拉基·格魯姆(Lachy Groom) ,Lachy于2012年加入 Stripe,成為該公司的第30名員工。在 Stripe 工作期間,他參與了多個(gè)關(guān)鍵項(xiàng)目,包括支付產(chǎn)品的開(kāi)發(fā)和全球擴(kuò)展。最終擔(dān)任了 Stripe Issuing 的負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)發(fā)用于創(chuàng)建、分發(fā)和管理實(shí)體及虛擬卡片的平臺(tái)。在離開(kāi) Stripe 后,Lachy 積極參與天使投資,專(zhuān)注于早期階段的創(chuàng)業(yè)公司。他通過(guò)自己的投資基金(LGF)支持多個(gè)行業(yè),包括金融科技、氣候科技和消費(fèi)者互聯(lián)網(wǎng)等。
“彌補(bǔ)遺憾” ?OpenAI跟投兩輪
2024年3月,剛剛成立的 Physical Intelligence 籌集到了 7000 萬(wàn)美元的種子輪融資 ,這一輪由 Thrive Capital 領(lǐng)投,參與者還包括 Khosla Ventures、Lux Capital、OpenAI 和 Sequoia Capital。其中領(lǐng)投 Thrive Capital 是一家具有強(qiáng)大影響力的風(fēng)險(xiǎn)投資公司,通過(guò)其專(zhuān)注于互聯(lián)網(wǎng)和軟件領(lǐng)域的投資策略,為許多初創(chuàng)企業(yè)提供了資金支持與戰(zhàn)略指導(dǎo)。
2024年11月,亞馬遜創(chuàng)始人貝索斯又領(lǐng)投了4億美元,至此,短短 8個(gè)月 的時(shí)間,這家AI創(chuàng)企的估值已經(jīng)飆升至 24億美元 。
值得一提的是,Physical Intelligence 的這兩輪融資中 OpenAI 都有跟投,可見(jiàn)其對(duì)這家初創(chuàng)公司寄予厚望,但作為行業(yè)領(lǐng)頭的 OpenAI 為什么不去去自己做機(jī)器人,而是轉(zhuǎn)為投資其他公司呢?
這也許是 OpenAI 的一些“遺憾”。
2018年OpenAI推出了Dactyl,一個(gè)類(lèi)人機(jī)械手,通過(guò)強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了對(duì)物理物體的靈巧操控。Dactyl能夠在沒(méi)有特定編程的情況下,自主學(xué)習(xí)完成各種任務(wù)。
2019年,OpenAI展示了一款單手解魔方的機(jī)器人。這款機(jī)器人經(jīng)過(guò)13000小時(shí)的訓(xùn)練,能夠在一定干擾下高效地還原魔方。同年,OpenAI發(fā)布了Roboschool,這是一個(gè)用于模擬環(huán)境中控制機(jī)器人的開(kāi)源軟件,旨在為研究者提供一個(gè)平臺(tái)來(lái)測(cè)試和開(kāi)發(fā)強(qiáng)化學(xué)習(xí)算法。
但在兩年后,OpenAI于2021年夏天宣布解散其機(jī)器人團(tuán)隊(duì)。
對(duì)于解散的原因,OpenAI 聯(lián)合創(chuàng)始人 Wojciech Zaremba 解釋說(shuō):機(jī)器人研究面臨的數(shù)據(jù)稀缺問(wèn)題使得研發(fā)受阻。相比之下,其他領(lǐng)域(如自然語(yǔ)言處理)能夠獲得更豐富的數(shù)據(jù),從而促進(jìn)更快的進(jìn)展。并且隨著OpenAI逐漸轉(zhuǎn)向商業(yè)化,其資源和精力更多地集中于大語(yǔ)言模型的開(kāi)發(fā),而不是高成本的機(jī)器人研發(fā)。因此團(tuán)隊(duì)內(nèi)部出現(xiàn)了對(duì)公司方向的不滿和分歧,最終團(tuán)隊(duì)解散。
除此之外,一些分析人士指出,相比于機(jī)器人技術(shù),研究語(yǔ)言模型被認(rèn)為具有更高的投資回報(bào)率和更低的風(fēng)險(xiǎn),這使得OpenAI更傾向于將資源投入到語(yǔ)言模型上。
盡管解散了機(jī)器人團(tuán)隊(duì),OpenAI并未完全放棄其在機(jī)器人領(lǐng)域的夢(mèng)想,近年來(lái),OpenAI 開(kāi)始投資與其技術(shù)路線相符的初創(chuàng)公司,如人形機(jī)器人公司Figure和1X Technologies,以及剛剛跟投的 Physical Intelligence。
具身智能大模型,還有更多
除了 Physical Intelligence,雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) 總結(jié)國(guó)內(nèi)外還有很多專(zhuān)注于具身智能大模型領(lǐng)域的初創(chuàng)公司。
例如由卡內(nèi)基梅隆大學(xué)的兩位教授 Deepak Pathak 和 Abhinav Gupta 在 2023 年聯(lián)合創(chuàng)立的 Skild AI ,其核心競(jìng)爭(zhēng)力在于其構(gòu)建的“可擴(kuò)展的機(jī)器人基礎(chǔ)模型”。
這一模型采用了基于Transformer的自適應(yīng)架構(gòu),通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,使其能夠適應(yīng)多種機(jī)器人形式和任務(wù)。與傳統(tǒng)機(jī)器人技術(shù)不同,Skild AI不再局限于特定任務(wù)的數(shù)據(jù)收集,而是追求一種能夠泛化應(yīng)用于多種場(chǎng)景與任務(wù)的通用智能。
而它也在成立不到一年的時(shí)間內(nèi)便獲得了3億美元的A輪融資,估值迅速攀升至15億美元,吸引了包括杰夫·貝佐斯、軟銀集團(tuán)和紅杉資本等知名投資者的關(guān)注。
再例如由 Ivan Poupyrev 在在2023年創(chuàng)建的 Archetype AI ,在種子輪融資中就籌集了1300萬(wàn)美元,主要投資者包括Venrock、亞馬遜工業(yè)創(chuàng)新基金和日立風(fēng)險(xiǎn)投資等。
Archetype AI 的核心技術(shù)是其創(chuàng)新的物理AI模型Newton,這是一個(gè)大行為模型(LBM),能夠捕捉人類(lèi)難以察覺(jué)的復(fù)雜和快速變化的隱藏行為模式。Newton模型融合了多模態(tài)傳感器數(shù)據(jù)和自然語(yǔ)言,實(shí)現(xiàn)了對(duì)物理世界的實(shí)時(shí)感知與推理。其核心技術(shù)能力包括時(shí)間序列理解、多模態(tài)輸出、實(shí)時(shí)描述和多模態(tài)摘要等,這些能力使得Newton可以廣泛應(yīng)用于安全、城市管理、工程和零售等領(lǐng)域
除此之外還有由Brett Adcock在2022年創(chuàng)辦的 Figure AI ,這家在2024年完成了一輪6750萬(wàn)美元的融資,公司的估值達(dá)到了26億美元。主要投資者包括NVIDIA、微軟、亞馬遜創(chuàng)始人杰夫·貝索斯的Explore Investments基金等。
其核心技術(shù)在于它端到端的神經(jīng)網(wǎng)絡(luò)框架,該框架能夠處理多模態(tài)數(shù)據(jù)并生成語(yǔ)言響應(yīng)和執(zhí)行策略,以及視覺(jué)到行動(dòng)的Transformer網(wǎng)絡(luò),它直接將視覺(jué)信息轉(zhuǎn)換為動(dòng)作指令。此外,F(xiàn)igure AI還專(zhuān)注于解決雙足機(jī)器人的平衡與接觸問(wèn)題,這些技術(shù)的綜合應(yīng)用推動(dòng)了人形機(jī)器人技術(shù)的發(fā)展,使其能夠執(zhí)行復(fù)雜動(dòng)作,并在商業(yè)領(lǐng)域得到應(yīng)用。
不光是國(guó)外,而國(guó)內(nèi)也有不少涉足機(jī)器人行業(yè)的初創(chuàng)公司。
例如由前Robotics Learning研究員王潛與北大計(jì)算物理博士王昊于2023年12月聯(lián)合創(chuàng)建的 自變量機(jī)器人 ,已經(jīng)完成Pre-A與Pre-A+輪融資,總金額達(dá)到億元級(jí)。投資方包括德聯(lián)資本、基石資本、啟賦資本、南山戰(zhàn)新投,老股東九合創(chuàng)投持續(xù)加注。
其核心技術(shù)是“統(tǒng)一具身智能大模型”,它通過(guò)端到端的完全縱向統(tǒng)一和任務(wù)泛化性,使得機(jī)器人能夠直接從原始輸入處理到最終動(dòng)作輸出,無(wú)需中間步驟,并能夠跨任務(wù)學(xué)習(xí)通用架構(gòu),從而實(shí)現(xiàn)更廣泛的應(yīng)用和更高的適應(yīng)性。
還有由前珞石機(jī)器人聯(lián)合創(chuàng)始人兼CTO韓峰濤與清華大學(xué)交叉信息學(xué)院助理教授高陽(yáng)于2024年2月聯(lián)合創(chuàng)建的 千尋智能(Spirit AI) ,在成立后的短短幾個(gè)月內(nèi)完成了近2億元人民幣的種子輪和天使輪融資,主要由弘暉基金領(lǐng)投,其他投資者包括達(dá)晨創(chuàng)投、千乘資本、順為資本和綠洲資本等。
千尋智能的技術(shù)核心在于其全棧的具身智能數(shù)據(jù)利用能力,使其能夠高效地從多種數(shù)據(jù)源中學(xué)習(xí)并應(yīng)用到機(jī)器人技術(shù)中。團(tuán)隊(duì)還開(kāi)發(fā)了EfficientImitate高性能模仿學(xué)習(xí)算法,大幅提升了模仿學(xué)習(xí)的效率和泛化能力。
此外,千尋智能的EfficientZero算法在強(qiáng)化學(xué)習(xí)領(lǐng)域也展現(xiàn)出高樣本效率。在硬件方面,千尋智能擁有強(qiáng)大的機(jī)器人運(yùn)動(dòng)控制系統(tǒng)和硬件開(kāi)發(fā)能力,特別是在模型預(yù)測(cè)控制、仿生柔順控制、動(dòng)態(tài)環(huán)境操作等方面積累了深厚的經(jīng)驗(yàn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn) 轉(zhuǎn)載須知 。