AI大模型催快的自動駕駛與攪局的馬斯克

虎嗅網(wǎng) ? 11月前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點(diǎn)擊進(jìn)來看看。

自動駕駛行業(yè)備受關(guān)注的前圖森聯(lián)合創(chuàng)始人侯曉迪，在《硅谷101》的訪談中，透露了他的最新動向，他已經(jīng)開始了新一次的創(chuàng)業(yè)，依舊是自動駕駛卡車，新公司的名字叫做Bot.Auto。

在《硅谷101》的訪談中，侯曉迪承認(rèn)自動駕駛行業(yè)進(jìn)入了低潮期，但這種低潮是由加息帶來的純資本問題，并預(yù)估在2026-2027年他的公司可以在特定場景下賺錢。

在大國科技交鋒的?口浪尖上，圖森未來的故事比Tiktok更加跌宕起伏，也更加艱難。無論是自動駕駛還是大模型的更新熱點(diǎn)不斷。侯曉迪在訪談中也詳細(xì)解釋了為什么他實(shí)名反對馬斯克，以及他對大模型、世界模型、具身智能等諸多熱點(diǎn)話題的看法。

以下是《硅谷101》與侯曉迪的對話（略有刪編）：

一、我為什么實(shí)名反對馬斯克

《硅谷101》： 為什么再次創(chuàng)業(yè)還是選了自動駕駛這個方向？

侯曉迪： 因為看見所以相信。我在過去的七年中也看到了一些不變性，這是我最寶貴的財富，也是支持我做下一次事業(yè)的出發(fā)點(diǎn)。首先是技術(shù)管理的能力，更多的是行業(yè)里面的一些必然趨勢，這些必然趨勢讓我覺得自動駕駛一定可以做出來。

自動駕駛這件事，之前的問題就在于大家都在做一個騙錢的生意，但是我們現(xiàn)在要做一個賺錢的生意。大 概在未來的三四年，也就是2026年或者2027年，我覺得自動駕駛就可以實(shí)現(xiàn)商業(yè)化或者說就能開始在一些特定場景下賺錢了，真正的規(guī)模化我覺得應(yīng)該在2030年前后可以實(shí)現(xiàn)。

當(dāng)然了，這個時間節(jié)點(diǎn)是我和我們公司在一個理性樂觀的情況下給出的預(yù)估，但是對于整個行業(yè)而言，我沒有這么樂觀地估計，因為這還是取決于具體的人和團(tuán)隊，而人和人的差距比人和狗的差距還大。

《硅谷101》： 相比于自動駕駛剛剛成立的時候，這幾年其實(shí)已經(jīng)非常少看到這個行業(yè)拿到融資的情況了。你會覺得行業(yè)在一個寒冬期嗎？

侯曉迪： 我覺得是這樣，窮有窮的活法，富有富的活法。大家可能都認(rèn)為自動駕駛是一個高資金門檻的行業(yè)，燒錢燒得太貴了，但是在我看來不是這樣。花了那么多錢，但是實(shí)際上這些錢有多少是用在探索上的？有多少錢是用在盲目擴(kuò)張和其他并不有助于實(shí)際開發(fā)的事情的？ 我覺得行業(yè)內(nèi)耗實(shí)際上是非常大的。 那現(xiàn)在可能說得極端一點(diǎn)，就是在一個寸草不生的環(huán)境下，我們只需要做自己就可以了。

自動駕駛這個行業(yè)，過去七年不變的東西就是它的商業(yè)邏輯。這個商業(yè)邏輯讓我非常堅信這件事一定能做出來，而且它做出來一定能讓我們站著把錢掙了。

《硅谷101》： 馬斯克說他在今年8月份要去推Robotaxi，你怎么看？

侯曉迪： 我覺得首先是這樣，我是實(shí)名反對馬斯克， 我認(rèn)為他做的事情不是一個利他主義的事情，他自己是做輔助駕駛的，但是總喜歡把自己打扮成自動駕駛 。我們今天談的是L4自動駕駛，去掉人并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案才叫自動駕駛，而FSD叫輔助駕駛，它不是自動駕駛。所以我們做的其實(shí)根本不是一個東西。

如果特斯拉撞死人了怎么辦？對于馬斯克來講，這不是他的責(zé)任。因為特斯拉寫得很清楚，誰駕駛誰負(fù)責(zé)，所以撞死人了，是司機(jī)的責(zé)任。第二點(diǎn)，繞一大圈回來，他的商業(yè)邏輯還是賣車，怎么把車賣得更好是這個公司的核心戰(zhàn)略，所以 自動駕駛是為了輔助他賣車的，并不是這個公司的底色。 它讓你覺得它是自動駕駛，但它實(shí)際上是輔助駕駛。

再回到馬斯克發(fā)表8月8日要做Robotaxi的陳述。如果他8月8日沒做出來，投資人們一定會來問我，是不是這事做不出來啦？那第二種可能是8月8日真的運(yùn)營了，然后第二天撞車了。投資人肯定也會擔(dān)心：馬斯克都撞車了，你們行不行啊？這事果然不安全啊。好，第三種情況是開始運(yùn)營了，沒撞車。那投資人們會說，你看馬斯克都做出來了，人家降維打擊你們，你們怎么辦呀？

所以馬斯克發(fā)出這個陳述的時候他就已經(jīng)贏了，我們已經(jīng)輸了，或者說他沒有贏，但我們已經(jīng)輸了。我覺得一個問題就在于，大家真的過多地去相信馬斯克說的每句話，但是如果我們?nèi)タ纯瘩R斯克之前說的事情，他有做成的地方，但是他做不成的東西更多。這個人做的很多事情還是以表演為主。 他的很多言論肥了自己，但是實(shí)際上傷害到了自動駕駛整個行業(yè)。

比如說自動駕駛要不要上激光雷達(dá)這個問題，他說你有激光雷達(dá)你就弱，但是我認(rèn)為黑貓白貓抓著耗子就是好貓，激光雷達(dá)弱不弱最后我們需要核算的是成本，如果加了激光雷達(dá)我們能賺錢，我們就加。我想告訴大家這件事的本源是怎樣的，這有可能并不是一個最有效率的、最有利于對自己發(fā)展方向的手段，但是我們至少不應(yīng)該去做一些有損整個行業(yè)前景的事情。

《硅谷101》： 如果他們做成了，這個行業(yè)會不會就重新回暖了？

侯曉迪： 首先我覺得做不成，因為之前那個車的租期到了，最近我太太特意換了輛特斯拉，我自己去開特斯拉，10分鐘一次接管，以我做自動駕駛這么多年的標(biāo)準(zhǔn)，它目前根本不可能做成Robotaxi的運(yùn)營，至少不可能在8月8日做成Waymo那種程度的運(yùn)營。當(dāng)然了，它可以在里面偷換很多概念。到時候開一個有輔助駕駛功能的出租車公司，這是有可能做到的，但是一定不是Waymo這種程度的。

《硅谷101》： 不過特斯拉其實(shí)有在輔助駕駛上積累很多的數(shù)據(jù)，這些數(shù)據(jù)能不能幫它更快地解決一些在自動駕駛上的corner case （極端情況）？

侯曉迪： 我們認(rèn)為自動駕駛是一個世界級的、競賽水平很高的行業(yè)。在非常低的水平，當(dāng)你做任務(wù)a的時候，它也許能夠幫助任務(wù)b，但當(dāng)你的水平越來越高的時候，你是做不到的。

在非常低水平，你確實(shí)可以說L2是有幫助的，誰也不能否認(rèn)它是有幫助的。但是L4自動駕駛要解決的核心問題是什么呢？是安全性，是冗余，是當(dāng)一個系統(tǒng)的每一個模塊都有可能會失效的時候，這個系統(tǒng)還仍然能夠保障最底線的安全，這才是L4最難和最關(guān)鍵的部分。所以 在掙錢之前它要先解決安全性的問題，但是這件事情根本不是特斯拉的設(shè)計宗旨。

二、自動駕駛的核心難題：不是少數(shù)的大問題，而是大量的小問題

《硅谷101》： 你覺得自動駕駛的錯誤觀念跟正確觀念是什么？

侯曉迪： 我覺得首先自動駕駛現(xiàn)在需要解決的不是一個少數(shù)的大問題，而是大量的小問題。自動駕駛最大的問題之一是運(yùn)營不穩(wěn)定，而這個運(yùn)營不穩(wěn)定有可能是因為網(wǎng)線質(zhì)量不行導(dǎo)致的，比如每天上傳下載數(shù)據(jù)效率很低之類的，這個事情就太復(fù)雜了，但是它絕對不是一個一句話能講清楚的大問題，而是由大量的小問題組成。我們在做的其實(shí)就是一個組織結(jié)構(gòu)，這考驗的就是你的組織是否進(jìn)化到具備以變態(tài)高的效率去解決大量小問題的能力。

我們不斷地去改變組織結(jié)構(gòu)，去適應(yīng)新的時代，最終的目的就是讓組織用最少的人，能干最多的活，并且可以最快地去解決這個事。它必然是跟一些大公司的文化是對立的，什么時候如果一個公司認(rèn)為你做不出來一個奇跡是不應(yīng)該被批評的，因為我們要包容，我們要保證團(tuán)隊的氣氛比較好，這個時候這個公司就已經(jīng)死了，他就已經(jīng)不是一個創(chuàng)業(yè)公司了。

《硅谷101》： 我之前跟Cruise的人聊，他說其實(shí)Cruise內(nèi)部在面臨非常大的一個問題，也是運(yùn)營問題。舊金山的自動駕駛事故讓Cruise元?dú)獯髠@件事有一點(diǎn)點(diǎn)巧合的因素在里面，我們就不展開說了。但是其實(shí)這個是大家能看到的，大家不能看到的就是不管是你剮蹭，或者是別人故意蹭你，他們都會有一個非常大的團(tuán)隊每天專門去處理這些個案性的自動駕駛汽車帶來的問題。

侯曉迪： 對，你看這不就是運(yùn)營嘛？這就是自動駕駛的運(yùn)營問題。如果你落地的時候有問題，你要么是自己去扛這個運(yùn)營的問題，要么就是找一冤大頭讓他來扛這個問題。首先冤大頭的數(shù)量是有限的，哪天冤大頭自己發(fā)現(xiàn)虧錢了，他也不會繼續(xù)冤下去了，所以我們不能坑我們的客戶，我認(rèn)為運(yùn)營一定是要自動駕駛公司自己來擔(dān)的，這是第一。

第二就是你說這種小的剮蹭問題，其實(shí)它根本反映的是什么呢？在城市交通里面，我們的交通規(guī)則是不完善的，再具體說就是交通規(guī)則的權(quán)責(zé)劃分是不完善的。如果你在開車，右邊有一個自行車道，然后你想右拐，是不是就應(yīng)該往自行車道走？這時候誰有責(zé)，誰有路權(quán)，撞了以后是誰的責(zé)任？這件事是不清晰的，而且也不會清晰。因為 你面對的是一個人，人們在做審判的時候總是傾向于認(rèn)為機(jī)器應(yīng)該是完美服從于人的。 人可以犯各種錯，人可以跟人共情，但人不會跟電腦共情。所以在這個問題上，自動駕駛在一個權(quán)責(zé)不清的交通環(huán)境下，它一定是非常難做的。

那么城區(qū)是權(quán)責(zé)不清最嚴(yán)重的地方，這就是為什么一開始我就做卡車，做了7年，我現(xiàn)在還做卡車。卡車其實(shí)就不會像在城市交通，尤其是擁堵的城市交通里面會遇到這么多權(quán)責(zé)不清的情況。我們的經(jīng)驗認(rèn)為，即使是在最后一公里的狀況下，卡車所面臨的權(quán)責(zé)不清的交通場景也是非常非常少的。

《硅谷101》： 所以你覺得高速是一個比城市更容易實(shí)現(xiàn)自動駕駛的地方？

侯曉迪： 對，而且卡車的自動駕駛，我不用去解決這些不可解的問題——既要守交通規(guī)則，又要確保乘客的安全和乘客乘坐體驗的舒適，同時我還要需要確保周邊其他道路交通的參與者的安全，這三個東西放在一起就是不可解問題。

比如機(jī)器能否壓雙黃線這個問題。很多時候如果壓雙黃線，我就能夠比較快速繞過去解決一個問題，但是壓雙黃線就是違反交通規(guī)則了。那如果我遵守交通規(guī)則慢慢等著，乘客可能會覺得我太慢了，然后給差評。此外，我還要跟其他不守交通規(guī)則的人去競爭，并且出事故以后，我會被放到一個非常不利的被審判的位置上，因為我是電腦，我就應(yīng)該把事情做完美。這三個東西加起來，自動駕駛就很難了。

但是如果第一我沒有乘客，第二我可以犧牲運(yùn)營的時間和效率去確保我的安全和合規(guī)，只要這個矛盾發(fā)生的概率足夠小，它就能是一個合理的商業(yè)模式。

三、大模型里有成千上百的小創(chuàng)新，自動駕駛都能用上

《硅谷101》： 因為大模型特別火，你覺得大模型對自動駕駛的技術(shù)會有什么幫助嗎？

侯曉迪： 大模型非常火，但是我覺得絕大部分談大模型的人根本不懂什么是大模型。 我認(rèn)為大模型不是一種參數(shù)越多就越厲害的東西，它是一種具備了遷移能力的模型。在計算機(jī)視覺領(lǐng)域，其實(shí)很久以前人們就已經(jīng)發(fā)現(xiàn)，當(dāng)一個模型訓(xùn)練到一定程度以后，它的內(nèi)蘊(yùn)表達(dá)是具有很高價值的，這個內(nèi)蘊(yùn)表達(dá)能夠以比較低甚至是零成本遷移到另外一個任務(wù)上，這就是模型的遷移能力，是它推動了這一波大模型。

在以前沒有遷移能力的時候，適應(yīng)成本是非常高的。當(dāng)你的系統(tǒng)學(xué)會了做一件事兒，想用它做第二件事時，需要把原來做好的系統(tǒng)再放到一個看起來相似但不完全相同的場景下，成本非常高。那么現(xiàn)在這種遷移成本變得越來越低。

遷移成本，也就是落地成本的降低，使得很多事情變得可做了，我覺得這就是人工智能這一次給大家?guī)淼谋容^大的啟示。 但是我想說這不是一朝一夕的事情，其實(shí)在深度學(xué)習(xí)2012年被提出以后，我們每幾年就能發(fā)現(xiàn)遷移能力、泛化能力在不斷提升。我作為一個從業(yè)者，看到的是一個漸變的過程，它不是一個突變的過程。

如果咱們做個科技考古，真正出圈的事情是ChatGPT，但是GPT-1、GPT-2從根本上跟GPT-3或者 ChatGPT背后的GPT-3.5，能力差距到底有那么大嗎？我覺得其實(shí)沒有。從學(xué)術(shù)角度來看，它是一個很連續(xù)的過程，但是ChatGPT出圈恰恰是因為它把問答這件事做好了，能讓一個普通老百姓感受到語言模型的威力。

而諷刺的是問答這件事做好，背后的技術(shù)能力中我覺得最重要的是RLHF （Reinforcement Learning with Human Feedback）這個技術(shù)，這個技術(shù)的賣點(diǎn)恰恰是說我可以用1%的參數(shù)量就能達(dá)到一個跟之前更大的模型一樣的效果。所以這件事兒其實(shí)反倒不是大模型給你帶來的優(yōu)勢，而是說我可以提升學(xué)習(xí)的效率，使得我的模型能達(dá)到更好的效果。

所以在我看來的話，首先模型學(xué)習(xí)效率的提升是一個主旋律，在這個主旋律下，當(dāng)?shù)竭_(dá)了一個閾值以后，它進(jìn)入到公眾視野，大家就開始說這個事情變得很厲害，它可能突然能改變世界。但是從學(xué)術(shù)角度看的話，它是一系列的小創(chuàng)新疊加起來產(chǎn)生今天這樣一個效果。

當(dāng)然，我相信很多人會談Scaling Law，但是這不是今天才發(fā)現(xiàn)的，任何非參數(shù)模型都有Scaling Law。10 年前我們談Kernel Method，談非參數(shù)學(xué)習(xí)，任何非參數(shù)學(xué)習(xí)里面你都可以說我們的參數(shù)量更大，我的學(xué)習(xí)效果就是更好，這是一個公認(rèn)的事情，所以我覺得它只是陳述了一個必然現(xiàn)象，但是這個必然現(xiàn)象不應(yīng)該是我們認(rèn)為的唯一標(biāo)準(zhǔn)。

《硅谷101》： 那么現(xiàn)在更大的模型出來了，它有在一些方向上表現(xiàn)出更好的效果，在這個過程中，你覺得已經(jīng)訓(xùn)練出來的這些技術(shù)有沒有可以用到自動駕駛的？因為你的研發(fā)分很多個環(huán)節(jié)，有沒有哪個環(huán)節(jié)能夠用到大模型，讓它變得更好的？

侯曉迪： 全部環(huán)節(jié)都能用上。首先我們把大模型打散，不要把大模型當(dāng)成是一塊大石頭，大模型可能是一把沙子，它里邊有成千上萬的小創(chuàng)新。這里邊幾乎所有的小創(chuàng)新如果能夠擇其善者，它一定能全方位地提升一個公司的科技競爭力。

舉一個具體一點(diǎn)的例子，比如預(yù)訓(xùn)練這件事，對于大模型來講，可能有100篇paper在講它在預(yù)訓(xùn)練過程中的各種奇技淫巧。那傳統(tǒng)的范式是，我先招一個標(biāo)定團(tuán)隊，標(biāo)定1000萬張照片，再把這1000萬張照片放到深度學(xué)習(xí)里邊，訓(xùn)練出一個結(jié)果來，然后完成一個神經(jīng)網(wǎng)絡(luò)的冷啟動過程。而當(dāng)這些paper中的各種奇技淫巧都疊加起來以后你會發(fā)現(xiàn)，好像我并不需要用傳統(tǒng)的范式了，現(xiàn)在我可以有各種花式的方法降低我的標(biāo)定成本，提升我對于未標(biāo)定數(shù)據(jù)的消化能力。最終使得整體的開發(fā)成本降低。

我們并不是應(yīng)用了大模型，而是應(yīng)用了比如100個奇技淫巧中的36個，用上了這些小竅門，我們的冷啟動問題就非常低成本高效率地解決了。

《硅谷101》： 所以我理解其實(shí)在整個過程里面，你們不僅僅是用模型的結(jié)果或者接口，而是你們會去學(xué)研究方法，然后看研究方法能夠從根本上去改變哪些問題。

侯曉迪： 誰也不會直接用別人的模型，就你一定得自己搞自己的模型。2012年以后大家都在用神經(jīng)網(wǎng)絡(luò)，那我們也在用神經(jīng)網(wǎng)絡(luò)，但肯定用的是自家的神經(jīng)網(wǎng)絡(luò)，你怎么去訓(xùn)練呢？訓(xùn)練的過程里邊有特別多的門道，你怎么把預(yù)訓(xùn)練的數(shù)據(jù)準(zhǔn)備好、你怎么訓(xùn)練、要買多少張GPU、怎么做能夠讓訓(xùn)練變得更有效率……這些所有的東西都是創(chuàng)新的一部分。在我看來， 新的時代就是在整個行業(yè)生命周期的各個部分，都賦予了我們新的提升效率的手段和新的思路。

四、別用具身智能畫一個很大的餅

《硅谷101》： 當(dāng)你更著眼于長期的時候，其實(shí)短期跟長期之間是有一個平衡的。比如說你要去融資的時候，你有時候階段性的需要沖到一些里程碑，你會覺得有在這兩者之間發(fā)生沖突的時候嗎？

侯曉迪： 我覺得戰(zhàn)略就是為了讓這兩者不發(fā)生沖突。如果從比較短期來看，那我現(xiàn)在最不該做的就是自動駕駛了。去做機(jī)器人，尤其是做兩條腿的機(jī)器人現(xiàn)在是很容易融資的。人家一看兩條腿的，具身智能。對，記住我這句話，凡是拿兩條腿兒出來賣的都是騙子，我至今沒有看到兩條腿兒可以產(chǎn)生具體的商業(yè)價值。

人形機(jī)器人滿足的是一種大家對科幻的幻想，我覺得這就跟會飛的汽車一樣，是由幾十年以來的科幻帶給人類社會的價值，但是科幻從來不是從商業(yè)邏輯出發(fā)的，科幻是因為酷，所以才被提出來的，這件事情引起你的情感共鳴，但是它從來不是引起你的商業(yè)邏輯共鳴。

這個世界的悲慘之處就在于有很多投資人是投情感共鳴的，但是如果你真的作為創(chuàng)業(yè)者想把事情做出來，你要做的是商業(yè)邏輯上的正確性，這兩者很多時候是矛盾的，我認(rèn)為最典型的兩個：一個是兩條腿的機(jī)器人，一個是會飛的汽車。在科幻里，汽車能夠飛來飛去，但是我們從物理上看，我們的能量儲存、能量使用效率并沒有達(dá)到能讓車飛起來的一個狀態(tài)。

《硅谷101》： 所以你覺得馬斯克的人形機(jī)器人Optimus還有波士頓動力都是騙子？

侯曉迪： 波士頓動力是一個我非常敬佩的長期主義的公司，除了兩條腿，它也有四條腿的機(jī)器人。它想先回答的問題是四條腿甚至兩條腿的東西有沒有可能做出來，它是在探索控制論的邊界。所以這么多年它在做的事情是堅持不斷地給自己加難度，去做一個科學(xué)探索。

但是我覺得不應(yīng)該用具身智能突然畫一個很大的餅，我認(rèn)為我不喜歡的地方就是現(xiàn)在畫的這個餅過大，而這個餅里邊缺失的環(huán)節(jié)過多，但是大家在評估這個產(chǎn)業(yè)時，又會集體性選擇忽視其中缺失的環(huán)節(jié)，它成為了一個暫時無法證偽的愿景。

如果你看到一個趨勢就不加節(jié)制地外推是很愚蠢的，但凡你了解事情更根本的運(yùn)行規(guī)律，并且能從第一性原則出發(fā)，實(shí)際上就能夠推演出來很多決定性的限制因素。而這些限制因素會幫你更準(zhǔn)確地預(yù)測未來，于是很多時候你就會看到你預(yù)測的未來比別人預(yù)測的未來結(jié)果要悲觀很多。

但是我的本意并不想過度批判機(jī)器人，我覺得現(xiàn)在有很多的任務(wù)，我們確實(shí)發(fā)現(xiàn)了曙光，比如它的泛化能力變得比以前更強(qiáng)了，它能解決更多具體的問題了。但是我想說的是，如果今天就要做兩條腿、并且拿兩條腿作為賣點(diǎn)的機(jī)器人，這件事情我是堅決反對的。但是你說這個機(jī)器人可以在更大的規(guī)模上去替換掉在工廠里擰螺絲的人，這件事我是認(rèn)同的，而且我覺得這件事在比較近的未來就會發(fā)生。

五、世界模型：新瓶裝舊酒

《硅谷101》： 現(xiàn)在全球的自動駕駛到了什么樣的一個水平呢？它面臨的主要問題跟瓶頸是什么？

侯曉迪： 革命進(jìn)入低潮期，面臨著由加息帶來的純資本問題，但是資本又是很重要的一個問題。資本能澆灌一個行業(yè)，行業(yè)里邊有了閑錢，人們的創(chuàng)造力就會得到解放，去發(fā)現(xiàn)一些可有可無的東西。早期技術(shù)的發(fā)展和產(chǎn)品的發(fā)展可能沒有那么直接相關(guān)，很多時候你為了做一個技術(shù)，會發(fā)現(xiàn)產(chǎn)品最后一團(tuán)糟，有的時候你為了做一個產(chǎn)品，你發(fā)現(xiàn)技術(shù)用在了你想象不到的地方。但是在這之后，技術(shù)就有可能就會被用在更正確的產(chǎn)品上。

不過這個低潮期跟技術(shù)沒什么關(guān)系，技術(shù)還是穩(wěn)步甚至加速發(fā)展。和大模型領(lǐng)域不同，自動駕駛行業(yè)的產(chǎn)品形態(tài)已經(jīng)越來越清晰，這是我認(rèn)為我過去幾年最大的價值。

《硅谷101》： Sora 出來之后，這種世界模擬器的概念是不是能夠賦能自動駕駛，可以發(fā)展得更快？

侯曉迪： 咱們來個長議題，咱們談?wù)勈澜缒Ｐ汀Ｊ裁词鞘澜缒Ｐ湍兀渴澜缒Ｐ途褪切缕垦b舊酒，一九八幾年的時候，機(jī)器視覺這個行業(yè)誕生的那個時刻， David Marr老師就提出來了一個叫做mid-level representation，他的這個概念也引導(dǎo)我入行，引導(dǎo)我讀完整個本科初步的探索以及博士深入的探索。

在計算機(jī)視覺領(lǐng)域，我覺得mid-level representation是我最喜歡的一個議題。mid-level representation 后來也叫internal representation （內(nèi)蘊(yùn)表達(dá)）。過了幾年深度學(xué)習(xí)出來了，大家認(rèn)為深度學(xué)習(xí)解決的核心問題是什么呢？其實(shí)是表達(dá)的問題。于是有一個特別著名的會議在深度學(xué)習(xí)誕生以后提出來，叫做ICLRA，這個會本身講的就是the learning of the representation，就是說這個內(nèi)蘊(yùn)表達(dá)或者內(nèi)蘊(yùn)表征是可以被學(xué)到的，而且應(yīng)該被學(xué)到，而怎么學(xué)就是我們探索的事情。

這件事情不斷地被人包裝，2024年的版本叫做世界模型，但是這個世界模型首先可大可小，它的精度也是可糙可細(xì)。所以我覺得世界模型這件事它確實(shí)是一個本質(zhì)問題，但是這個本質(zhì)問題不新，其實(shí)40年前就已經(jīng)有了，而且確實(shí)是40年以來貫穿整個計算機(jī)視覺和模式識別發(fā)展的核心問題。

但是愚者的原罪在于外推，外推的地方就是說大家談到世界模型就會把它認(rèn)為是一個可以無限高精度的、無限遠(yuǎn)未來的外推模型，這是不對的，這就是我說的錯誤的外推世界模型。對外在世界的內(nèi)蘊(yùn)表達(dá)，這件事情是我們一直以來的追求，是我們整個行業(yè)幾輩幾代人一直以來的追求。但是不要把它的最終形態(tài)當(dāng)成現(xiàn)在已經(jīng)有的東西。

那我來再說說Sora是什么？Sora是一個學(xué)了一套東西，使得它讓你看起來這個東西像那么回事。迪士尼有一部動畫電影叫做《冰雪奇緣》。

這個電影它干的事是什么呢？是當(dāng)時電影工業(yè)CG電腦特效，人們突然提出了一個新的算法，能夠模擬雪這種非牛頓流體的流體力學(xué)，雪不是液體，也不是固體，它是一種有一定粘連性，但是又能散開的東西。如果你想用每一個粒子去模擬雪的動態(tài)過程的話，那累死了，機(jī)器做不了。

但是如果我們找到了一種簡化的近似算法，讓這坨雪看起來像是雪，那我們就覺得這件事情就是計算上足夠便宜，可以用渲染集群渲染出一個動畫片。所以是基于一個算法的創(chuàng)新，做了這個動畫片，就為了這盤醋包了一鍋餃子。可能我說得有點(diǎn)夸張，但是確實(shí)《冰雪奇緣》之所以能做出來，背后最大的創(chuàng)新是CG電腦特效的創(chuàng)新，但是這種創(chuàng)新并不能夠讓你用到比如說飛機(jī)的流體力學(xué)上，它跟真正的物理真實(shí)是兩碼事。它所做的只是看起來像是真的。那么，針對Sora，也就是說OpenAI做了一個模擬器，看起來像是真的，但是這件事情不是物理真實(shí)。

《硅谷101》： 業(yè)界對于自動駕駛的長尾問題，現(xiàn)在還有什么好的方法去解決嗎？

侯曉迪： 我覺得長尾問題其實(shí)也是一個偽命題，很高興你們提出來這個問題。在我看來長尾問題，比如說我見到鱷魚怎么處理？我見到大象怎么處理？我見著一個固定翼飛機(jī)停在高速公路上，我怎么處理這件事情？大家都覺得它是長尾問題。比如在我的前進(jìn)路徑上，見到了一個沒見過的物體，我怎么處理？但是如果你把它包裹成了一個更通用的一類問題，它是很好處理的。

比如說我們曾經(jīng)就見到有固定翼飛機(jī)停在高速公路上，那我們的處理方法很簡單，停車對吧？這是好處理的情況，但是其實(shí)人們感覺長尾問題很難處理，是很難當(dāng)場讓這個車做出一個人類經(jīng)過深思熟慮以后認(rèn)為最優(yōu)的操作，再去跟這個場景進(jìn)行交互，這件事情是難的。

首先機(jī)器的感知沒那么難，尤其再加上激光雷達(dá)或者雙目視覺以后，各種各樣的問題你都能識別，但是你如何跟他進(jìn)行交互？如果一個鱷魚來了，一個駱駝來了，一個兔子來了你都要怎么操作？對于這種問題確實(shí)是你需要回答的長尾問題，但是我覺得我們的自動駕駛卡車是不需要做這樣的回答的。

如果當(dāng)你有乘客在自動駕駛轎車?yán)锩娴臅r候，你要顧及一個不可能三角，就是交規(guī)要滿足乘客的體驗、要滿足路上其他的道路參與者的安全和他們的感受，在這個不可能三角的情況下，確實(shí)存在有很多你需要特事特辦的討論。但是我覺得自動駕駛卡車如果在全局平均意義下來講，我們的運(yùn)營成本是可接受的。運(yùn)營產(chǎn)生的額外成本，比如我見到飛機(jī)停在路邊兒這件事情產(chǎn)生的成本，是能夠被我的每英里成本所消化的，那我覺得這事兒就可以做。

本文來自微信公眾號：硅谷101（ID：TheValley101），作者：泓君、陳茜、侯曉迪