欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點(diǎn)擊進(jìn)來看看。  

在超大規(guī)模和云計算廠商規(guī)模較小、Arm未能搶占數(shù)據(jù)中心市場以及AMD尚未走上復(fù)興之路的時候,英特爾掌控著新計算引擎進(jìn)入數(shù)據(jù)中心的節(jié)奏。

局勢總是在變化。本周,英特爾的CEO帕特.基辛格(Pat Gelsinger)宣布離職,相比之下,亞馬遜云科技(AWS)在拉斯維加斯舉辦年度re:Invent大會,線下參會人數(shù)達(dá)到6萬,而線上人數(shù)高度40萬人。誰在控制超大規(guī)模企業(yè)和云計算制造商的技術(shù)推出步伐,似乎有了新的答案。

對于AWS而言,他們也可以控制新技術(shù)的發(fā)布節(jié)奏,因?yàn)樗麄儾恍枰裥酒瑥S商一樣,進(jìn)行定期的產(chǎn)品迭代。他們不需要像英特爾、AMD和英偉達(dá)那樣,把計算引擎賣給ODM和OEM,而是直接向客戶出售云上產(chǎn)品。顯而易見的是,這是一項(xiàng)更容易的業(yè)務(wù)。

在re:Invent大會上,AWS以及其母公司亞馬遜高管所帶來的演講,讓外界對于他們的計算引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

Trainium3使用3nm工藝蝕刻,相較于Trainium2能效提高40%、性能翻倍。AWS的新聞稿中表示,Trainium3 UltraServers的性能將是Trainium2 UltraServers的4倍,這意味著它們將從使用Trainium2的16臺設(shè)備擴(kuò)展到使用Trainium3的32臺設(shè)備。

AWS CEO馬特.加曼(Matt Garman)稱,Trainium3將于2025年晚些時候推出,這意味著大概會在re:Invent 2025年會議發(fā)布這款產(chǎn)品。早在6月份,就有一些關(guān)于AWS高管確認(rèn)Trainium3將突破1000瓦的傳言,但這點(diǎn)并不出乎外界的意料,英偉達(dá)的Blackwell B200 GPU的峰值功率是1200瓦。

真正出乎外界意料的是,在上個月的SC24超級計算會議上,針對HPC應(yīng)用的Graviton4E仍未推出,這與AWS在2021年11月推出的普通Graviton3和2022年11月推出的增強(qiáng)版Graviton3E的過往速度相比有所差異。2023年11月發(fā)布的Graviton4可以說是市場上基于Arm架構(gòu)最好的服務(wù)器CPU之一,當(dāng)然也是適用面最廣的CPU。

AWS的CPU、人工智能加速器和DPU沒有任何年度更新的壓力,如果仔細(xì)觀察英偉達(dá)和AMD的GPU路線圖,就會發(fā)現(xiàn)他們的核心產(chǎn)品仍然是每兩年發(fā)布一次,第二年會在第一年發(fā)布的GPU上進(jìn)行內(nèi)存升級或性能調(diào)整。

AWS在芯片領(lǐng)域的迭代周期大概是兩年,其間會有一些波動。Graviton1實(shí)際上是一個基于Nitro架構(gòu)的DPU卡,可以忽略不計。正如AWS公用事業(yè)計算高級副總裁彼得.德桑蒂斯(Peter DeSantis)在2018年發(fā)布的主題演講中所說的,Graviton1只是“進(jìn)入市場的一個信號”,主要用于驗(yàn)證客戶需求。2019年推出的Graviton2, AWS采用了臺積電的現(xiàn)代7納米工藝,并使用了Arm的Ares N1內(nèi)核,設(shè)計了一款64核CPU,與運(yùn)行在AWS云上的英特爾和AMD的X86 CPU相比,性價比高出40%。

2021年,采用Arm Zeus V1內(nèi)核的Graviton3問世,同樣是64個內(nèi)核卻可以承擔(dān)更多的任務(wù)。2023年,Graviton4問世了,這款芯片采用了臺積電4納米工藝,在插槽上塞入96個Demeter V2內(nèi)核,與12個內(nèi)存帶寬為537.6 GB/秒的DDR5內(nèi)存控制器搭配使用。與Graviton3相比,Graviton4的單核性能提高了30%,內(nèi)核數(shù)量增加了50%,性能提高了2倍。根據(jù)我們的定價分析,產(chǎn)品的性價比提高了13%到15%。在實(shí)際的基準(zhǔn)測試中,Graviton4帶來的性能優(yōu)化有時能達(dá)到40%。

AWS處理器投入的資金至少需要兩年才可以收回。因此,在re:Invent大會上期待任何關(guān)于Graviton5的新消息都是不現(xiàn)實(shí)的。盡管如此,AWS的高管們還是會吊一下市場的胃口。

AWS的高管在主題演講中提供了一些關(guān)于Graviton的數(shù)據(jù)。AWS計算和網(wǎng)絡(luò)服務(wù)副總裁戴夫.布朗(Dave Brown)展示了這張圖表,它在一定程度上解釋了為什么英特爾最近幾個季度的財務(wù)狀況如此糟糕。粗略地說,AWS的四項(xiàng)核心服務(wù)(Redshift Serverless和Aurora數(shù)據(jù)庫、Kafka的Managed Streaming和ElastiCache搜索)大約有一半的處理是在Graviton上運(yùn)行的。

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

布朗稱:“最近,我們達(dá)到了一個重要的里程碑,在過去的兩年里,我們數(shù)據(jù)中心超過50%的CPU算力都來自Graviton,這比其他所有類型的處理器加起來還要多?!?/p>

這正是微軟多年前所聲稱想做成的事情,而這也是AWS所期待達(dá)成的目標(biāo)。從長遠(yuǎn)來看,X86是一種傳統(tǒng)的平臺,其價格也是傳統(tǒng)的,就像之前的大型計算機(jī)和RISC/Unix。RISC-V也許最終也會這樣顛覆Arm架構(gòu)(開源的ISA與可組合的模塊似乎是必由之路,就像Linux開源系統(tǒng)讓W(xué)indows Server變成傳統(tǒng)平臺的)。

加曼讓我們對AWS內(nèi)部的Graviton服務(wù)器群規(guī)模有了一個大致的了解:“Graviton正在瘋狂地增長,2019年,整個AWS的業(yè)務(wù)規(guī)模為350億美元,而現(xiàn)在,單單Graviton運(yùn)行的業(yè)務(wù)規(guī)模就與2019年整個AWS業(yè)務(wù)規(guī)模一樣,這是非??斓脑鲩L?!笨梢怨烙嫷氖?,Graviton服務(wù)器集群的增長速度比AWS整體業(yè)務(wù)的增長速度還要快,而且幅度可能非常大。這對英特爾的傷害遠(yuǎn)大于對AMD的傷害,因?yàn)锳MD多年來一直擁有比英特爾更好的X86服務(wù)器CPU。

Trainium系列,是否會成為英偉達(dá)和AMD之外的選擇?

加曼談?wù)揟rainium3的唯一原因是,人工智能訓(xùn)練對高性能計算的需求增長得比任何其他計算引擎快得多。面對英偉達(dá)在2025年加大其Blackwell B100和B200 GPU的產(chǎn)能,以及AMD擴(kuò)大其Antares MI300系列,AWS如果想讓客戶將他們的人工智能工作負(fù)載移植到Trainium上,就必須在市場上展現(xiàn)出大力推行Trainium系列的決心。

在明年的re:Invent大會之前,希望能夠看到AWS發(fā)布關(guān)于Trainium3的一些新優(yōu)化,因?yàn)槭袌錾系母偁帉κ痔?,以谷歌和微軟為首的一些公司將?025年推出他們旗下的人工智能加速器。

就像Graviton系列一樣,從現(xiàn)在開始,Trainium系列的更新周期或許將變?yōu)閮赡暌桓?。這些產(chǎn)品的研發(fā)投入都非常高昂,因此AWS要實(shí)現(xiàn)財務(wù)效益必須將Trainium的開發(fā)成本攤銷到盡可能多的設(shè)備上。與Graviton一樣,我們認(rèn)為AWS的Trainium達(dá)成這一目標(biāo)的日子不會太遙遠(yuǎn)。從長遠(yuǎn)來看,這對英偉達(dá)和AMD來說不是好事,特別是如果谷歌、微軟、騰訊、百度和阿里巴巴都采取同樣的行動。

AWS還沒有愚蠢到試圖在GPU加速器市場上與英偉達(dá)直面抗衡,但與谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一樣,這家云計算商同樣認(rèn)為自己可以構(gòu)建一個系統(tǒng)陣列來進(jìn)行人工智能訓(xùn)練和推理,并為云計算客戶帶來差異化體驗(yàn)和附加值產(chǎn)品,與購買英偉達(dá)相比,客戶購買AWS的產(chǎn)品可以節(jié)省成本并且掌握更多的主動權(quán)。

正如我們上面所指出的,AWS高管對Trainium3并沒有透露太多的信息,但他們對Trainium2在UltraServer中的使用到非常興奮。

今年的re:Invent大會上,AWS更多地介紹了使用Trainium2加速器的系統(tǒng)架構(gòu),并展示了基于這些加速器構(gòu)建的網(wǎng)絡(luò)硬件,以擴(kuò)展和擴(kuò)展其人工智能集群。下面是德桑蒂斯展示的Trainium2:

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

正如我們?nèi)ツ陥蟮赖哪菢樱琓rainium2似乎在單個封裝上放置兩個芯片互連,可能使用NeuronLink die-to-die內(nèi)部互連技術(shù),以在其共享的HBM存儲器上一致地工作。Trainium2服務(wù)器有一個節(jié)點(diǎn),該節(jié)點(diǎn)帶有一對主機(jī)處理器并與三個Nitro DPU相連,如下所示:

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

這是計算節(jié)點(diǎn)的俯視圖,前端有四個Nitros,后端有兩個Trainium2s,采用無線設(shè)計以加快部署速度。

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

兩個交換機(jī)托架,一個主機(jī)托架和八個計算托架組成了一臺Trainium2服務(wù)器,該服務(wù)器使用2TB/秒的NeuronLink電纜將16個Tranium2芯片互連成2D環(huán)面配置,每個設(shè)備上96GB的HBM3主內(nèi)存都會與其他設(shè)備共享。每臺Trainium2服務(wù)器具有1.5TB的HBM3內(nèi)存,總內(nèi)存帶寬為46TB/秒(即每個Trainium2卡略低于3TB/秒)。此節(jié)點(diǎn)在密集FP8(一種浮點(diǎn)數(shù)表示格式)數(shù)據(jù)上的性能為20.8千萬億次浮點(diǎn)運(yùn)算,在稀疏FP8數(shù)據(jù)上的性能為83.3千萬億次浮點(diǎn)運(yùn)算。

AWS將四臺服務(wù)器相互連接以搭建Trainium2 UltraServer,該服務(wù)器在64個AI加速器中擁有6TB的HBM3內(nèi)存容量,內(nèi)存帶寬總計為184TB/秒。該服務(wù)器具有12.8Tb/秒的以太網(wǎng)帶寬,可使用EFAv3適配器進(jìn)行互連。UltraServer服務(wù)器在密集FP8數(shù)據(jù)上的運(yùn)算速度為83.2千萬億次浮點(diǎn)運(yùn)算,在稀疏FP8數(shù)據(jù)上的運(yùn)算速度為332.8千萬億次浮點(diǎn)運(yùn)算。下面是德桑蒂斯對Trn2 UltraServer實(shí)例硬件的展示:

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

在布滿電線的機(jī)架頂部,隱藏著一對交換機(jī),它們組成了3.2TB/秒的EFAv3以太網(wǎng)網(wǎng)絡(luò)的端點(diǎn),該網(wǎng)絡(luò)將多個Tranium2服務(wù)器相互連接,以創(chuàng)建UltraServer服務(wù)器,并將服務(wù)器與外部世界連接。

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

這還不是整個網(wǎng)絡(luò)架構(gòu)。如果你想運(yùn)行大規(guī)模的基礎(chǔ)模型,需要的加速器將遠(yuǎn)遠(yuǎn)不止64個。為了將成千上萬的加速器連接在一起,可以進(jìn)行大規(guī)模訓(xùn)練,AWS設(shè)計了一種基于以太網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu),名為10p10u,其目標(biāo)是在延遲不到10微秒的情況下,為整個網(wǎng)絡(luò)提供每秒數(shù)十PB的帶寬。下面是10p10u網(wǎng)絡(luò)結(jié)構(gòu)機(jī)架的樣子:

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

由于原先服務(wù)器內(nèi)部的電線非常復(fù)雜,AWS研發(fā)了一款光纖主干電纜,將需要使用的電線數(shù)量壓縮為原先的十六分之一。其原理是將數(shù)百個光纖連接放在一條較粗的管線中,這樣做的好處是讓服務(wù)器內(nèi)部的架構(gòu)更為簡潔。如下圖所示,右邊的機(jī)架使用的是光纖主干電纜,它更簡潔小巧。更少的連接和線路管理意味著更少的錯誤,當(dāng)你試圖快速構(gòu)建人工智能基礎(chǔ)設(shè)施時,這一點(diǎn)很重要。

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

據(jù)悉,這種專門用于人工智能工作負(fù)載的10u10p網(wǎng)絡(luò)由于其優(yōu)異的表現(xiàn)正在被大規(guī)模采用。德桑蒂斯展示了它與AWS創(chuàng)建的老式以太網(wǎng)網(wǎng)絡(luò)相比的增長速度有多快:

Graviton兩年內(nèi)為AWS提供超過50%的CPU算力,打破英特爾對市場節(jié)奏的掌控

假設(shè)這是累積鏈接數(shù)(有效的計算),舊的Euclid網(wǎng)絡(luò)結(jié)構(gòu)(大概是100Gb/秒)在四年內(nèi)逐漸增加到近 150 萬個端口。名為One Fabric的網(wǎng)絡(luò)與10u10p網(wǎng)絡(luò)在2022年年中大致同時推出,我們猜測其中One Fabric使用400Gb/秒以太網(wǎng),而10u10p基于800Gb/秒以太網(wǎng)。One Fabric有大約100萬個鏈接,而10u10p有大約330萬個鏈接。

加曼表示,與基于AWS云上的GPU實(shí)例相比,Trn2實(shí)例的性價比將提高30%到40%。當(dāng)然,AWS應(yīng)該加大拉開外部計算引擎與自家計算引擎之間的差距,保持這樣的差距是Trainium搶占人工智能計算器市場的正確舉措。

作為主題演講的一部分,德桑蒂斯和加曼都談到了一個代號為“Project Ranier”的超級集群,這是AWS正在為其人工智能大模型合作伙伴Anthropic建造的一個超級集群。截至目前,亞馬遜已向Anthropic投資80億美元,該集群主要用于訓(xùn)練下一代Claude 4基礎(chǔ)模型。加曼說,“Project Ranier”將擁有數(shù)十萬個Trainium2芯片,其性能將是訓(xùn)練Claude 3模型時所用機(jī)器的5倍。

本文由雷峰網(wǎng) (公眾號:雷峰網(wǎng)) 編譯自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 97免费观看视频 | 中文字幕一区二区三区在线播放 | 好男人午夜影院 | 久草国产精品 | 四虎在线精品观看免费 | 激情91| 深夜久久| 成人欧美在线观看免费视频 | 2021国产精品自产拍在线 | 羞羞色院91蜜桃在线观看 | 九九99九九精彩 | 97影院理论片手机在线观看 | 国产亚洲在线 | 精品久久久久久久久久久久久久久 | 欧美中文字幕一区 | 91青草视频 | 超清乱人伦中文视频在线 | 日一区二区三区 | 日本aaaa毛片在线看 | 国产亚洲一区二区在线观看 | 狠狠狠操| 色偷偷女人的天堂a在线 | 在线免费一级片 | 在线成人天天鲁夜啪视频 | 亚洲黄色网址大全 | 7777成年大片免费播放器 | 国产精品亚洲欧美大片在线看 | 在线观看免费黄色小视频 | 韩日性视频| 色综合久久88一加勒比 | 一本清高清dvd日本播放器 | 久草视屏 | 97在线视频免费公开观看 | 男女羞羞网站 | 四虎一区 | 亚洲综合无码一区二区 | 亚洲国产成人在线视频 | 91亚洲国产成人久久精品网站 | 国产成人亚洲精品老王 | 欧美精欧美乱码一二三四区 | 青青青青青国产费线在线观看 |