Claude 3 暴打 GPT4 時,亞馬遜云科技露出了「神秘微笑」
在 OpenAI 正在熱火朝天地跟 Musk「扯皮」,Gemini 因?yàn)樵趫D像中加入過量「多元化」導(dǎo)致政治過于正確而深陷泥潭之時,Anthropic 帶著 Claude 3 模型家族仿佛橫空出世般,殺了個措手不及。
這次「新王登基」究竟籌劃了多久?Anthropic 是 Amodei 兄妹在 2021 年創(chuàng)建的獨(dú)角獸公司——一家崇尚安全和以人類為中心價值觀的 AI 公司(這在價值觀方面與 OpenAI 有著不一樣的愿景),核心創(chuàng)始團(tuán)隊均來自 OpenAI 并參與了 GPT-3 產(chǎn)品的早期開發(fā)。
?
Anthropic 創(chuàng)立之初就在亞馬遜云科技上訓(xùn)練了他們的第一個基礎(chǔ)模型,然后 Claude 2.1 迭代到 Claude 3, 就只用了短短 4 個月,Claude 3 發(fā)布后第一時間,Sonnet 模型就在 Amazon Bedrock 上支持使用,僅僅 9 天后的今天 Haiku 也在 Bedrock 上線。而時至發(fā)稿谷歌云上 Claude 3 仍然是 preview 和 coming soon 狀態(tài),而谷歌云的Vertex AI的產(chǎn)品欄仍然把前排位置都給了Gemini。
去年亞馬遜云科技的 re:Invent 上,當(dāng)時大家就很莫名其妙的發(fā)現(xiàn),亞馬遜云科技 CEO Adam Selipsky 采訪了一位名不見經(jīng)傳的創(chuàng)業(yè)者 Anthropic 聯(lián)合創(chuàng)始人 Dario Amodei,而以往這個位置是要留給可口可樂、納斯達(dá)克、高盛這種大客戶的。也沒有太多媒體關(guān)注到當(dāng)時戰(zhàn)略合作的具體內(nèi)容:Anthropic 把大部分軟件遷移到亞馬遜云科技的數(shù)據(jù)中心,亞馬遜云科技為 Anthropic 提供從定制化的 GPU 算力到存儲、數(shù)據(jù)分析等多方位支持,而且亞馬遜云科技的客戶將獲得 Anthropic 模型的優(yōu)先使用權(quán)。而且這個戰(zhàn)略合作的「定制化程度」莫名其妙的高:1、大模型全托管服務(wù) Amazon Bedrock 為 Claude 提供定制化服務(wù);2、為 Claude 優(yōu)化亞馬遜云科技自研芯片——不斷優(yōu)化訓(xùn)練芯片 Trainium 和推理芯片 Inferentia。顯然,當(dāng)時我們都沒注意到,Dario 的措辭異常的霸道:「這是一場『力爭上游』的競賽(a race to the top)。」

01 是一盤投資大棋?
其實(shí),在 re: Invent 之前 2 個月,也就是去年 9 月,亞馬遜才宣布對 Anthropic 投資 40 億美金,是 Google 對 Anthropic 投資的 2 倍。業(yè)內(nèi)對這次投資的評價是:顯示了「金主爸爸」對 Anthropic 的強(qiáng)大信心,也說明了亞馬遜在「生成式 AI」領(lǐng)域的破釜沉舟和孤注一擲。真的是這樣嗎?雖然 Anthropic 這 40 億美金的投資非常炸裂,但你打開亞馬遜云科技的網(wǎng)頁一看 Amazon Bedrock 上還有另外 17 個高性能基礎(chǔ)模型!這 17 個模型來自于 6 家公司:AI21 Labs、Cohere、Meta、Mistral AI、Stability AI,而第六家雖然是亞馬遜自己,但 Titan 似乎反而在刻意讓位。
?
-
AI21Labs – 2 個模型,Jurassic-2 Ultra、Mid,這是個針對多語種的大語言模型,包括葡萄牙語、意大利語和荷蘭語。
-
Cohere – 4 個模型,是針對檢索和匯總信息的大語言模型,主要是用于提取摘要、文案聚類或分類任務(wù)。
-
Meta – 2 個開源模型,亞馬遜云科技是首個集成 Facebook 的 Llama 2 的云廠商, 這是個開源模型,目前中國區(qū)可用,好處就是客戶可通過 Amazon SageMaker 對 Llama 2 進(jìn)行微調(diào)。
-
Stability AI – 2 個模型,主要是針對圖像生成功能。
-
Mistral AI – 2 個高性能模型,這是一家法國的 AI 公司,大模型的基本場景均可覆蓋。
-
另外,還有 Amazon 自研的 5 個模型。
?
Amazon Bedrock 的吸引力,除了大模型多,還在于,它能評估和比較具體應(yīng)用場景的最佳模型;用專屬數(shù)據(jù)庫來訓(xùn)練最適合自己的大模型,比如組織內(nèi)各種縮寫、各種名詞、各種流程,訓(xùn)練之后讓它具有專屬于自己的「默契」;開源的大模型,都還可以自己再次調(diào)優(yōu);Agents for Amazon Bedrock,還能在確保數(shù)據(jù)安全和隱私保護(hù)的情況下執(zhí)行業(yè)務(wù)指令,Guardrail 能對最終的生成式 AI 應(yīng)用提供專屬的保護(hù)措施。
于是 Amazon Bedrock 的「工程化的能力」,讓它在圈內(nèi)被打上了「好用」的標(biāo)簽。
但是,問題來了:
1、亞馬遜云科技為什么要上這么多種模型?根據(jù)亞馬遜云科技自己的官方說法,已經(jīng)從全球 100 多個客戶使用生成式 AI 的真實(shí)場景中發(fā)現(xiàn):沒有某個基礎(chǔ)模型可以統(tǒng)治一切,甚至一個使用場景需要調(diào)用多個模型,而且要綜合考慮價格。在亞馬遜云科技看來,問題就從「選哪個模型更好」已經(jīng)變成了「如何輕松訪問」,所謂「輕松訪問」,是指低多次嘗試和切換模型的成本。有企業(yè)開發(fā)者說:「現(xiàn)在大模型的數(shù)量太多,來回切換和嘗試不同的大模型一點(diǎn)也不智能,Amazon Bedrock 就一個「call」,想調(diào)那個調(diào)那個。而且什么任務(wù)都調(diào)用龐大的大模型,成本高,也承受不起。」
2、模型多,可以。但亞馬遜云科技為什么不主推自己的模型?
有一條時間線很能說明問題,Bedrock 發(fā)布的時間是 2023 年 4 月,像 Meta(23 年 7 月上線)、Cohere(23 年 7 月上線)、Mistral AI(24 年 2 月底上線)這些「明星」AI 公司的大模型都是在 Bedrock 發(fā)布之后才陸續(xù)登陸這個平臺。也就是說,亞馬遜云科技從一開始就賭定了「淘金熱里賣鏟子」這一賽道。
或許,除了永遠(yuǎn)沉迷于客戶需求(亞馬遜稱之為「Customer Obsession」),更重要的原因就是:云計算平臺,原本就應(yīng)該是個「集市」,Market Place,而一個公共的基礎(chǔ)設(shè)施重要的是能夠?yàn)閮?yōu)質(zhì)的入住玩家提供更好的服務(wù)——云計算是工程化的「商場」服務(wù)——這才是本質(zhì)。
?
02 投資生成式 AI 只是買買買嗎?
看到擁有強(qiáng)大功能的 Amazon Bedrock 和 17 個領(lǐng)先的基礎(chǔ)模型,你以為布局生成式 AI 只是在市場上買買買嗎?不!你想買空市場所有存貨,人家還不見得想讓你投呢,為什么?因?yàn)槟愕幕颈P「技術(shù)底座」不行。生成式 AI 是非常燒錢的行業(yè),成本主要包括算力、算法和數(shù)據(jù)三個方面。當(dāng)我們把更多的目光投向算法的時候,總是容易偏頗的忽略算力。這是亞馬遜云科技 最具有競爭力的部分。
引用 VentureBeat 的報道:「亞馬遜云科技正在生成式 AI 領(lǐng)域進(jìn)行全棧式布局,包括云基礎(chǔ)設(shè)施、基礎(chǔ)模型和面向用戶的應(yīng)用。」
亞馬遜云科技在生成式 AI 的「全棧式」布局:最底層是訓(xùn)練和推理的基礎(chǔ)設(shè)施層,各類超級芯片(自研+NVIDIA) 為基礎(chǔ)模型訓(xùn)練和推理提供超級算力;中間層是以 Amazon Bedrock 為主的模型全托管服務(wù);上層是生成式 AI 應(yīng)用層,包括生成式 AI 助手-Amazon Q 和 AI 編程助手 Amazon CodeWhisperer。
?
這樣看來,亞馬遜云科技正在憑借著極其穩(wěn)固的基本盤,與像 Anthropic 一樣的大模型「先鋒」,在玩一場雞生蛋、蛋生雞的游戲——或許這就是貝索斯的飛輪效應(yīng):貨多了-場活了-人多了-場大了-貨便宜了-人更多了-場更大了……
看懂了亞馬遜云科技在生成式 AI 這場浪潮里的獨(dú)特占位,我就一直試圖找到亞馬遜云科技挑選大模型的標(biāo)準(zhǔn):既然選了很多,又沒有都選,那標(biāo)準(zhǔn)是什么?有一個詞反復(fù)的跳出來,吸引了我的注意力「Constitutional AI」,它的直譯是「憲法 AI」。官方給出的解讀是:亞馬遜云科技強(qiáng)調(diào)幫助企業(yè)建立公正、可解釋、穩(wěn)健、透明、可治理、確保隱私與安全的「負(fù)責(zé)任的 AI」。在字里行間的反復(fù)暗示中,我發(fā)現(xiàn)這個詞的正確解讀,不應(yīng)該是它是什么?而是它不是什么——它不是 General AI。或者說,它不是一個比照人、超越人、無所不能的人造上帝。具體來說,確保用戶用自定義模型將數(shù)據(jù)保留在客戶自己的企業(yè)內(nèi)網(wǎng),任何數(shù)據(jù)都不會用于訓(xùn)練底層模型。這會不會是亞馬遜云科技挑選大模型的標(biāo)準(zhǔn)?我并沒有得到亞馬遜云科技的官方回應(yīng)。
03 結(jié)尾
在大家都在卷自建大模型的時候,亞馬遜云科技更傾向于為大模型提供「淘金的鏟子」——作為云計算的開創(chuàng)者、迄今為止云計算領(lǐng)域的老大,亞馬遜云科技在生成式 AI 時代的戰(zhàn)略占位、對「云是公共服務(wù)」這一本質(zhì)的認(rèn)知邏輯,值得我們今天中國云計算廠商思考。沒錯,公共服務(wù)是規(guī)模效益,公共服務(wù)是穩(wěn)定第一,公共服務(wù)是成本降低、價格下降,但這只是結(jié)果,前提是絕對優(yōu)秀、值得信賴的工程化能力。
其實(shí),本質(zhì)上,亞馬遜云科技是在憑借平臺優(yōu)勢的一己之力,卷更多的大模型。它不是不卷而是卷更多
那么就還有最后一個「看似顯而易見,但深究卻不得其所」的問題:為什么云廠商都在卷大模型?是怕生成式 AI 另辟賽道搶了云計算的風(fēng)頭嗎?顯而易見,是因?yàn)闃I(yè)內(nèi)人士會認(rèn)為這是個偽命題,大模型根本無法離開算力。
那云計算廠商,究竟在卷什么?
2022 年,亞馬遜云科技的 re: Invent 上的一個概念或許給出了回答「Data Gravity」,它的基本理念是指:數(shù)據(jù)在哪里,資源就在哪里,趨勢就在哪里。數(shù)據(jù)就像具有引力一樣,吸引著一個又一個的技術(shù)潮流奔向它,比如 2021 年的 Data Lake。這句話放在今天的生成式 AI 同樣成立。
過去經(jīng)常提到「數(shù)據(jù)驅(qū)動型」(Data-driven),數(shù)據(jù)驅(qū)動型企業(yè)、數(shù)據(jù)驅(qū)動型決策、數(shù)據(jù)驅(qū)動型應(yīng)用、數(shù)據(jù)驅(qū)動型硬件設(shè)計……我們過去更多的關(guān)注到了「數(shù)據(jù)」倆字,或許更重要的是「驅(qū)動」,數(shù)據(jù)如何「驅(qū)動」?就是今天強(qiáng)大的 AI。說到底,云廠商從誕生的那一天起,就已經(jīng)清楚的知道數(shù)據(jù)、AI、云缺一不可。草蛇灰線伏延千里,今天的生成式 AI 其實(shí)一直在那里,這盤大棋一直在下。我們看的是熱點(diǎn),他們早就看到了自己宿命的未來。
參考資料:
https://www.amazonaws.cn/en/newsroom/2023/global-1130-bedrock/?searchQuery=bedrock&tag=search&targetPage=MARKETING_OTHERhttps://mp.weixin.qq.com/s/C7EEI73oK24rnt2-lk0eKAhttps://mp.weixin.qq.com/s/To9muQObT_LF7vTjq2rACw
https://venturebeat.com/ai/amazon-adds-gpt-4-beating-claude-3-to-bedrock/
*頭圖來源:亞馬遜云科技