清華校友回國(guó)創(chuàng)業(yè),獲李開(kāi)復(fù)、徐小平超千萬(wàn)元種子輪投資
作者 | 琰 琰
編輯 | 陳大鑫
實(shí)習(xí)論文刷新Image世界記錄;
博士畢業(yè)收割常春藤大學(xué)教職offer;
入職幾個(gè)月晉升為“校長(zhǎng)青年教授”,成為首位獲此殊榮的華人學(xué)者。
這位出道即巔峰的華人學(xué)者,便是現(xiàn)新加坡國(guó)立大學(xué)青年教授尤洋。
近日,尤洋在北京中關(guān)村創(chuàng)辦了一家高性能計(jì)算公司 “潞晨科技” ,作為高性能計(jì)算和人工智能領(lǐng)域的知名青年學(xué)者,尤洋回國(guó)創(chuàng)業(yè)的消息在業(yè)內(nèi)引起極大關(guān)注。
8月4日,潞晨科技完成種子輪融資,獲得創(chuàng)新工場(chǎng)、真格基金兩家頂級(jí)VC機(jī)構(gòu)的超千萬(wàn)元投資。當(dāng)時(shí)創(chuàng)始人尤洋表示, 其創(chuàng)業(yè)目標(biāo)是期望最大化人工智能開(kāi)發(fā)速度的同時(shí)最小化人工智能模型部署成本。
從左到右:創(chuàng)新工場(chǎng)執(zhí)行董事任博冰、潞晨科技創(chuàng)始人尤洋、真格基金董事總經(jīng)理尹樂(lè)
近幾年人工智能產(chǎn)業(yè)發(fā)展并不算太好,泡沫、虧損、裁員、流血上市......這些負(fù)面評(píng)價(jià)籠罩著整個(gè)行業(yè)。而人工智能投融資與創(chuàng)業(yè)熱潮也確實(shí)從2018年開(kāi)始逐漸趨緩、甚至遇冷。據(jù)億歐統(tǒng)計(jì)顯示,中國(guó)人工智能初創(chuàng)企業(yè)數(shù)量連續(xù)四年下降,AI領(lǐng)域投融資頻次也連續(xù)三年下滑,且沒(méi)有觸底反彈的跡象。
在這樣的大環(huán)境下,尤洋為何選擇回國(guó)創(chuàng)業(yè)?高性能計(jì)算在國(guó)內(nèi)市場(chǎng)到底有多大潛力?李開(kāi)復(fù)、徐小平,以及更多頂級(jí)VC為什么看好潞晨科技?未來(lái)這家公司有何戰(zhàn)略規(guī)劃?AI科技評(píng)論有幸采訪了創(chuàng)始人尤洋,與他聊了聊創(chuàng)業(yè)的初衷和戰(zhàn)略規(guī)劃。
AI產(chǎn)業(yè)的“阿喀琉斯之踵”
“我目前仍在新加坡國(guó)立大學(xué)(NUS)任職,但已辭去了其它兼職顧問(wèn)",尤洋告訴AI科技評(píng)論,他之后會(huì)把任教之外的所有時(shí)間用于創(chuàng)業(yè),以希望能做到產(chǎn)學(xué)結(jié)合,對(duì)社會(huì)產(chǎn)生價(jià)值。
尤洋創(chuàng)辦的潞晨科技是一家高性能計(jì)算公司,主要面向B端企業(yè)提供分布式軟件系統(tǒng),大規(guī)模人工智能平臺(tái),以及企業(yè)級(jí)云計(jì)算解決方案等服務(wù)。
有統(tǒng)計(jì)數(shù)據(jù)顯示,截止2021年,企業(yè)級(jí)人工智能的市場(chǎng)規(guī)模已經(jīng)超過(guò)萬(wàn)億美元,AI云解決方案相比去年也增長(zhǎng)39%,達(dá)到了50億。
龐大的市場(chǎng)規(guī)模為創(chuàng)業(yè)者們提供了更大的潛在機(jī)遇,但從技術(shù)角度來(lái)看,這也導(dǎo)致AI模型開(kāi)始出現(xiàn)越練越大的現(xiàn)象。
自2020年GPT-3首次突破千億級(jí)規(guī)模后,AI模型的參數(shù)量和計(jì)算量都開(kāi)始呈現(xiàn)爆發(fā)式的增?,目前最大模型智源悟道2.0參數(shù)量已達(dá)到1.75萬(wàn)億。
雖然大模型創(chuàng)造了超乎想象的性能神話,但它也讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間變得非常漫長(zhǎng)。
例如,用1個(gè)英偉達(dá) V100 GPU訓(xùn)練 ResNet-50 (2500萬(wàn)參數(shù))網(wǎng)絡(luò)需要1周,而訓(xùn)練 GPT-3 (1750億參數(shù))可能需要355年。
因此,近幾年有越來(lái)越多的企業(yè)開(kāi)始創(chuàng)建大規(guī)模集群或自研超級(jí)計(jì)算機(jī),希望通過(guò)分布式計(jì)算的方式提高模型的訓(xùn)練和部署效率。
例如,Google的TPU Pod,微軟為OpenAI 打造的1萬(wàn)GPU集群,英偉達(dá)的SuperPOD,包括連自動(dòng)駕駛領(lǐng)域的特斯拉也加入了這場(chǎng)軍備賽,它在今年6月推出的超算 Dojo,已經(jīng)在世界超算排行榜中位列第五。
超級(jí)計(jì)算機(jī)具有很強(qiáng)的計(jì)算和處理數(shù)據(jù)的能力,其運(yùn)算速度基本上可以達(dá)到每秒一萬(wàn)億次以上。對(duì)于任何AI而言,這種高性能計(jì)算有助于大幅提升模型性能。
尤洋認(rèn)為,當(dāng)機(jī)器到達(dá)一定數(shù)量后,再多堆砌也無(wú)法帶來(lái)效率上的明顯提升,即便是技術(shù)實(shí)力雄厚的巨頭,也難免在大規(guī)模人工智能上陷入瓶頸。
高性能計(jì)算其實(shí)就是使用集群進(jìn)行計(jì)算的方式,實(shí)現(xiàn)計(jì)算資源的最大化——下到提升一個(gè)GPU的吞吐率,上到提升上千臺(tái)機(jī)器的可擴(kuò)展性。在他看來(lái),未來(lái)沒(méi)有高性能計(jì)算,前沿AI是無(wú)法發(fā)展進(jìn)步的。現(xiàn)階段的主流模型AlphaGO,BERT,GPT-3,Switch Transformer,以及智源悟道模型都在一定程度上用到了高性能計(jì)算。
除了訓(xùn)練和部署效率低之外,超大模型所帶來(lái)的并發(fā)癥也是顯而易見(jiàn)的。深度學(xué)習(xí)模型越大,意味著能耗越高。一般訓(xùn)練一個(gè)小型AI模型基本可以達(dá)到一個(gè)人一年能耗的60倍,而現(xiàn)有的模型參數(shù)量已經(jīng)突破萬(wàn)億級(jí)規(guī)模。
根據(jù)Emma Strubell等人的研究,從紐約到舊金山每位旅客乘坐飛機(jī)產(chǎn)生二氧化碳排放量是1,984 lbs。然而,訓(xùn)練一個(gè)2億參數(shù)的模型可以達(dá)到626,155 lbs,幾乎是前者的300多倍。所以,要想實(shí)現(xiàn)人工智能在未來(lái)的廣泛應(yīng)用,低能耗計(jì)算是非常必要的。
多維度是近年來(lái)AI模型發(fā)展的另一顯著特征。例如,BERT是基于Transformer Encoder,GPT-3是基于Transformer Decoder,Switch Transformer和清華智源是基于混合專(zhuān)家系統(tǒng),MLP-Mixer是基于全連接網(wǎng)絡(luò)的變種等等。
與之對(duì)應(yīng)的是,超算系統(tǒng),聯(lián)邦學(xué)習(xí),跨云計(jì)算等硬件配置也越來(lái)越復(fù)雜化。這兩者之間的自適應(yīng)配置對(duì)整個(gè)訓(xùn)練系統(tǒng)的性能起著決定性影響。
在尤洋看來(lái),分布式人工智能是未來(lái)的大趨勢(shì)。而分布式計(jì)算效率、?高能耗、多維度自適應(yīng)切分已經(jīng)成為阻礙當(dāng)前AI學(xué)術(shù)與產(chǎn)業(yè)發(fā)展的“阿喀琉斯之踵”,因此高性能計(jì)算當(dāng)前人工智能市場(chǎng)中極具發(fā)展前景。
高性能計(jì)算領(lǐng)域的佼佼者
創(chuàng)業(yè)項(xiàng)目越是早期,風(fēng)險(xiǎn)越大。由于沒(méi)有穩(wěn)定的商業(yè)模式、發(fā)展戰(zhàn)略也可能隨時(shí)調(diào)整,因此VC投資在很大程度上取決于投資人對(duì)創(chuàng)始人的判斷。
種子輪的投資金額一般比較小,大多在500萬(wàn)(人民幣)以下。潞晨科技獲得創(chuàng)新工場(chǎng)、真格基金兩家頂級(jí)VC機(jī)構(gòu)的超千萬(wàn)元種子輪投資,可見(jiàn)李開(kāi)復(fù)、徐小平對(duì)創(chuàng)始人尤洋的信任。
翻開(kāi)尤洋的履歷,其在高性能計(jì)算領(lǐng)域的學(xué)術(shù)成就可見(jiàn)一斑。
尤洋在求學(xué)階段,獲得過(guò)清華大學(xué)計(jì)算機(jī)系最高獎(jiǎng)學(xué)金西貝爾獎(jiǎng)、優(yōu)秀畢業(yè)生等榮譽(yù),并以第一名的成績(jī)保送清華計(jì)算機(jī)系碩士。在申請(qǐng)博士時(shí),獲得了UC Berkeley、CMU、芝加哥大學(xué)、UIUC、佐治亞理工、西北大學(xué)等六所名校全獎(jiǎng)offer。
2018年,尤洋選擇在Berkeley計(jì)算機(jī)系讀博,師從美國(guó)科學(xué)院學(xué)院與工程院院士、ACM/IEEE Fellow James Demmel,由此開(kāi)啟了他開(kāi)掛式的學(xué)術(shù)生涯。
2019年,尤洋以一作作者的身份發(fā)表一篇題目為 《Large Batch Optimization for Deep Learning :Training BERT in 76 Minutes》 的研究論文,在國(guó)內(nèi)外學(xué)術(shù)界引起了不小的震動(dòng),被ScienceDaily,The Next Web,i-programmer等幾十家媒體廣泛報(bào)道。
論文地址:https://arxiv.org/abs/1904.00962
他在這篇論文中 提出了一種新型優(yōu)化器 LAMB,將超大模型BERT的預(yù)訓(xùn)練時(shí)間壓縮到了 76分鐘。
要知道BERT-Large預(yù)訓(xùn)練的計(jì)算量非常大。例如,Transformer 使用 8 塊 P100 在 8 億詞量的數(shù)據(jù)集上訓(xùn)練 40 個(gè) Epoch 需要一個(gè)月,而B(niǎo)ERT-Large 模型在有 33 億詞量的數(shù)據(jù)集上訓(xùn)練 40 個(gè) Epoch,使用 8 塊 P100 上可能需要 1 年。
論文中表明,相比基準(zhǔn) BERT-Large 用 16 塊 TPU 芯片,LAMB 訓(xùn)練 BERT-Large 采用一個(gè) TPU v3 Pod(1024 塊 TPU 芯片)。在批量訓(xùn)練大小接近 TPUv3 pod 內(nèi)存極限的情況下,將預(yù)訓(xùn)練的迭代次數(shù)由 100 萬(wàn)次減少到了 8599 次,從而使訓(xùn)練時(shí)間由3天縮短到了 76 分鐘,刷新世界記錄。
到目前為止,LAMB仍為機(jī)器學(xué)習(xí)領(lǐng)域的主流優(yōu)化器,并被廣泛應(yīng)用于谷歌,微軟,英特爾,英偉達(dá)等科技巨頭。
而在更早之前,尤洋還刷新了ImageNet訓(xùn)練速度的世界記錄,他發(fā)表的這篇 《ImageNet Training in minutes》 提出的算法 將 AlexNet模型訓(xùn)練壓縮到了24分鐘 。此前,在英偉達(dá)的 M40 GPU 上利用 ImageNet訓(xùn)練ResNet50 需要 14 天。
根據(jù)Google Scholar顯示,尤洋在并行計(jì)算、機(jī)器學(xué)習(xí)以及高性能計(jì)算研究領(lǐng)域已經(jīng)累計(jì)發(fā)表論文40多篇,其中兩篇論文被國(guó)際并行與分布式處理大會(huì)(IPDPS 2015)和國(guó)際并行處理大會(huì)(ICPP 2018)評(píng)選為最佳論文。
AI技術(shù)和人才是任何一家人工智能創(chuàng)業(yè)公司最核心的資本。尤洋告訴AI科技評(píng)論,潞晨公司招募的十名核心成員均來(lái)自美國(guó)加州大學(xué)伯克利分校,斯坦福大學(xué),清華大學(xué),北京大學(xué),新加坡國(guó)立大學(xué),新加坡南洋理工大學(xué)等國(guó)內(nèi)外知名高校。
他們?cè)诟咝阅苡?jì)算,人工智能,分布式系統(tǒng)方面已有十余年的技術(shù)積累,并在國(guó)際頂級(jí)學(xué)術(shù)刊物或會(huì)議發(fā)表論文30余篇。
如潞晨科技的CTO卞正達(dá)碩士畢業(yè)于新加坡國(guó)立大學(xué),曾以第一作者的身份在國(guó)際超級(jí)計(jì)算大會(huì)SC上發(fā)表論文 。國(guó)際超級(jí)計(jì)算大會(huì)每年有上萬(wàn)人參會(huì),但只收錄100篇左右論文,是超級(jí)計(jì)算機(jī)領(lǐng)域最有影響力的會(huì)議。
同時(shí)他們還邀請(qǐng)到了美國(guó)科學(xué)院院士,工程院院士James Demmel教授還擔(dān)任該團(tuán)隊(duì)的顧問(wèn)。Demmel教授是加州大學(xué)伯克利分校前EECS院長(zhǎng)兼計(jì)算機(jī)系主任,中關(guān)村戰(zhàn)略科學(xué)家 (陳吉寧市長(zhǎng)親自頒發(fā)),ACM/IEEE Fellow,也是尤洋讀博期間的導(dǎo)師。
先造錘子,再找釘子
人工智能產(chǎn)業(yè)的發(fā)展趨勢(shì),讓尤洋看到了其中的創(chuàng)業(yè)機(jī)遇,而真正推動(dòng)他回國(guó)創(chuàng)業(yè)還是在UC Berkeley讀博期間的思想熏陶。“Berkeley計(jì)算機(jī)系的教授追求產(chǎn)研結(jié)合,希望真正做出一個(gè)有影響力的實(shí)用系統(tǒng),而不僅僅是發(fā)論文”。
創(chuàng)業(yè)是產(chǎn)學(xué)結(jié)合的一種常見(jiàn)方式,近幾年越來(lái)越多的學(xué)術(shù)專(zhuān)家開(kāi)始涉足產(chǎn)業(yè)界,尤其是在高性能計(jì)算領(lǐng)域。例如去年3月,知名機(jī)器學(xué)習(xí)華人學(xué)者、CMU助理教授陳天奇回國(guó)創(chuàng)業(yè),試圖解決優(yōu)化深度學(xué)習(xí)模型的高效訓(xùn)練和部署問(wèn)題。
尤洋表示,Berkeley計(jì)算機(jī)系的產(chǎn)業(yè)化精神對(duì)青年學(xué)者產(chǎn)生了深遠(yuǎn)影響,Ion Stoica,Matei Zaharia等從Berkeley走出來(lái)的教授都在兼顧學(xué)術(shù)與產(chǎn)業(yè),而他的學(xué)長(zhǎng)Prateek Saxena也總強(qiáng)調(diào),‘my startup is my research’,這些思想讓他深受啟發(fā)和鼓舞。
雖然處于創(chuàng)業(yè)早期,但潞晨科技發(fā)展戰(zhàn)略似乎已經(jīng)非常明晰。“我們希望‘先造錘子,再找釘子’,在創(chuàng)業(yè)初期先努力打造一個(gè)通用系統(tǒng),并在1年完成系統(tǒng)優(yōu)化,應(yīng)用于中小型企業(yè)”。
在尤洋看來(lái),企業(yè)完成分布式訓(xùn)練需要投入昂貴的專(zhuān)業(yè)人員,這無(wú)形中大大降低了模型的部署效率,而且機(jī)器資源的價(jià)格往往是動(dòng)態(tài)變化的,動(dòng)態(tài)改變負(fù)載很容易造成人工智能系統(tǒng)學(xué)習(xí)效率低或崩潰,這對(duì)于中小企業(yè)而言更是致命一擊。
針對(duì)當(dāng)前的行業(yè)痛點(diǎn)出發(fā),他們希望以?xún)?yōu)化技術(shù)為基礎(chǔ),大幅度提升系統(tǒng)在超大規(guī)模計(jì)算的擴(kuò)展性效率。在動(dòng)態(tài)改變負(fù)載的同時(shí),能夠穩(wěn)定人工智能系統(tǒng),讓系統(tǒng)效率能隨著機(jī)器規(guī)模自動(dòng)擴(kuò)展,并在應(yīng)用場(chǎng)景提供一些跨云服務(wù)。
此外,針對(duì)模型的多維度自適應(yīng)切分,他們已經(jīng)實(shí)現(xiàn)了2維網(wǎng)格參數(shù)劃分,3維立體參數(shù)劃分,以及2.5維通信最小化參數(shù)劃分,這樣的動(dòng)態(tài)模型并行技術(shù)也有助于大幅提升計(jì)算效率。
作為一家面向B端的AI企業(yè),尤洋表示當(dāng)前公司發(fā)展最重要的是積累技術(shù)實(shí)力,所獲超千萬(wàn)元投資將主要用于技術(shù)研發(fā)。有了成熟穩(wěn)定的技術(shù)解決方案之后,再需要根據(jù)市場(chǎng)的需求調(diào)整戰(zhàn)略,制定更為詳細(xì)的商業(yè)化路徑。
現(xiàn)階段,他們希望潞晨科技在中期發(fā)展階段能夠設(shè)計(jì)出自適應(yīng)新興智能硬件芯片的系統(tǒng)和自動(dòng)擴(kuò)展智能編程系統(tǒng),以滿足中等互聯(lián)網(wǎng)公司或傳統(tǒng)行業(yè)公司的需求,進(jìn)而再推出企業(yè)級(jí)的SaaS服務(wù)以及AI云服務(wù)(AIaaS),與大型云服務(wù)商合作共同構(gòu)建商業(yè)化智能計(jì)算中心。
廣納英才,可自薦CEO
目前潞晨科技正在招聘全職/實(shí)習(xí)軟件工程師,全職/實(shí)習(xí)人工智能工程師 等技術(shù)人才。可協(xié)助申請(qǐng)北京戶(hù)口,特別優(yōu)秀的人,還可以申請(qǐng)擔(dān)任公司的CEO。
崗位職責(zé):
-
開(kāi)發(fā)分布式人工智能系統(tǒng)并部署到大規(guī)模集群或云端。
-
從具體的場(chǎng)景和問(wèn)題出發(fā),研發(fā)和優(yōu)化算法系統(tǒng),產(chǎn)出解決方案應(yīng)用到場(chǎng)景中。
-
參與人工智能技術(shù)與現(xiàn)有工具的融合設(shè)計(jì)和優(yōu)化,提高產(chǎn)品性能。
-
撰寫(xiě)高質(zhì)量的科技論文,有機(jī)會(huì)擔(dān)任重要論文的第一作者 (未來(lái)?yè)Q工作或升學(xué)的重要加分項(xiàng))。
任職要求
-
精通TensorFlow, PyTorch, Ray, DeepSpeed, NVIDIA Megatron,熟悉上述系統(tǒng)的內(nèi)部運(yùn)行機(jī)制。
-
熟悉各類(lèi)優(yōu)化算法與模型架構(gòu),熟悉python或C++的優(yōu)化算法庫(kù),包括各類(lèi)基于梯度的經(jīng)典算法與經(jīng)典模型 (BERT, GPT-3, Switch Transformer, ViT, MLP-Mixer)。
-
有較強(qiáng)的編程能力和工程實(shí)現(xiàn)能力。獲得過(guò)編程競(jìng)賽獎(jiǎng)或發(fā)表過(guò)高質(zhì)量論文的優(yōu)先錄用。
-
211、985、海外知名高校本科以上學(xué)位(或在讀),計(jì)算機(jī)科學(xué)、軟件工程,電子信息,自動(dòng)化,數(shù)學(xué),物理或其它人工智能相關(guān)專(zhuān)業(yè)。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
(公眾號(hào):雷鋒網(wǎng))
雷鋒網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)。