Graviton兩年內為AWS提供超過50%的CPU算力,打破英特爾對市場節奏的掌控
在超大規模和云計算廠商規模較小、Arm未能搶占數據中心市場以及AMD尚未走上復興之路的時候,英特爾掌控著新計算引擎進入數據中心的節奏。
局勢總是在變化。本周,英特爾的CEO帕特.基辛格(Pat Gelsinger)宣布離職,相比之下,亞馬遜云科技(AWS)在拉斯維加斯舉辦年度re:Invent大會,線下參會人數達到6萬,而線上人數高度40萬人。誰在控制超大規模企業和云計算制造商的技術推出步伐,似乎有了新的答案。
對于AWS而言,他們也可以控制新技術的發布節奏,因為他們不需要像芯片廠商一樣,進行定期的產品迭代。他們不需要像英特爾、AMD和英偉達那樣,把計算引擎賣給ODM和OEM,而是直接向客戶出售云上產品。顯而易見的是,這是一項更容易的業務。
在re:Invent大會上,AWS以及其母公司亞馬遜高管所帶來的演講,讓外界對于他們的計算引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。
Trainium3使用3nm工藝蝕刻,相較于Trainium2能效提高40%、性能翻倍。AWS的新聞稿中表示,Trainium3 UltraServers的性能將是Trainium2 UltraServers的4倍,這意味著它們將從使用Trainium2的16臺設備擴展到使用Trainium3的32臺設備。
AWS CEO馬特.加曼(Matt Garman)稱,Trainium3將于2025年晚些時候推出,這意味著大概會在re:Invent 2025年會議發布這款產品。早在6月份,就有一些關于AWS高管確認Trainium3將突破1000瓦的傳言,但這點并不出乎外界的意料,英偉達的Blackwell B200 GPU的峰值功率是1200瓦。
真正出乎外界意料的是,在上個月的SC24超級計算會議上,針對HPC應用的Graviton4E仍未推出,這與AWS在2021年11月推出的普通Graviton3和2022年11月推出的增強版Graviton3E的過往速度相比有所差異。2023年11月發布的Graviton4可以說是市場上基于Arm架構最好的服務器CPU之一,當然也是適用面最廣的CPU。
AWS的CPU、人工智能加速器和DPU沒有任何年度更新的壓力,如果仔細觀察英偉達和AMD的GPU路線圖,就會發現他們的核心產品仍然是每兩年發布一次,第二年會在第一年發布的GPU上進行內存升級或性能調整。
AWS在芯片領域的迭代周期大概是兩年,其間會有一些波動。Graviton1實際上是一個基于Nitro架構的DPU卡,可以忽略不計。正如AWS公用事業計算高級副總裁彼得.德桑蒂斯(Peter DeSantis)在2018年發布的主題演講中所說的,Graviton1只是“進入市場的一個信號”,主要用于驗證客戶需求。2019年推出的Graviton2, AWS采用了臺積電的現代7納米工藝,并使用了Arm的Ares N1內核,設計了一款64核CPU,與運行在AWS云上的英特爾和AMD的X86 CPU相比,性價比高出40%。
2021年,采用Arm Zeus V1內核的Graviton3問世,同樣是64個內核卻可以承擔更多的任務。2023年,Graviton4問世了,這款芯片采用了臺積電4納米工藝,在插槽上塞入96個Demeter V2內核,與12個內存帶寬為537.6 GB/秒的DDR5內存控制器搭配使用。與Graviton3相比,Graviton4的單核性能提高了30%,內核數量增加了50%,性能提高了2倍。根據我們的定價分析,產品的性價比提高了13%到15%。在實際的基準測試中,Graviton4帶來的性能優化有時能達到40%。
AWS處理器投入的資金至少需要兩年才可以收回。因此,在re:Invent大會上期待任何關于Graviton5的新消息都是不現實的。盡管如此,AWS的高管們還是會吊一下市場的胃口。
AWS的高管在主題演講中提供了一些關于Graviton的數據。AWS計算和網絡服務副總裁戴夫.布朗(Dave Brown)展示了這張圖表,它在一定程度上解釋了為什么英特爾最近幾個季度的財務狀況如此糟糕。粗略地說,AWS的四項核心服務(Redshift Serverless和Aurora數據庫、Kafka的Managed Streaming和ElastiCache搜索)大約有一半的處理是在Graviton上運行的。
布朗稱:“最近,我們達到了一個重要的里程碑,在過去的兩年里,我們數據中心超過50%的CPU算力都來自Graviton,這比其他所有類型的處理器加起來還要多。”
這正是微軟多年前所聲稱想做成的事情,而這也是AWS所期待達成的目標。從長遠來看,X86是一種傳統的平臺,其價格也是傳統的,就像之前的大型計算機和RISC/Unix。RISC-V也許最終也會這樣顛覆Arm架構(開源的ISA與可組合的模塊似乎是必由之路,就像Linux開源系統讓Windows Server變成傳統平臺的)。
加曼讓我們對AWS內部的Graviton服務器群規模有了一個大致的了解:“Graviton正在瘋狂地增長,2019年,整個AWS的業務規模為350億美元,而現在,單單Graviton運行的業務規模就與2019年整個AWS業務規模一樣,這是非常快的增長。”可以估計的是,Graviton服務器集群的增長速度比AWS整體業務的增長速度還要快,而且幅度可能非常大。這對英特爾的傷害遠大于對AMD的傷害,因為AMD多年來一直擁有比英特爾更好的X86服務器CPU。
Trainium系列,是否會成為英偉達和AMD之外的選擇?
加曼談論Trainium3的唯一原因是,人工智能訓練對高性能計算的需求增長得比任何其他計算引擎快得多。面對英偉達在2025年加大其Blackwell B100和B200 GPU的產能,以及AMD擴大其Antares MI300系列,AWS如果想讓客戶將他們的人工智能工作負載移植到Trainium上,就必須在市場上展現出大力推行Trainium系列的決心。
在明年的re:Invent大會之前,希望能夠看到AWS發布關于Trainium3的一些新優化,因為市場上的競爭對手太多,以谷歌和微軟為首的一些公司將在2025年推出他們旗下的人工智能加速器。
就像Graviton系列一樣,從現在開始,Trainium系列的更新周期或許將變為兩年一更新。這些產品的研發投入都非常高昂,因此AWS要實現財務效益必須將Trainium的開發成本攤銷到盡可能多的設備上。與Graviton一樣,我們認為AWS的Trainium達成這一目標的日子不會太遙遠。從長遠來看,這對英偉達和AMD來說不是好事,特別是如果谷歌、微軟、騰訊、百度和阿里巴巴都采取同樣的行動。
AWS還沒有愚蠢到試圖在GPU加速器市場上與英偉達直面抗衡,但與谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一樣,這家云計算商同樣認為自己可以構建一個系統陣列來進行人工智能訓練和推理,并為云計算客戶帶來差異化體驗和附加值產品,與購買英偉達相比,客戶購買AWS的產品可以節省成本并且掌握更多的主動權。
正如我們上面所指出的,AWS高管對Trainium3并沒有透露太多的信息,但他們對Trainium2在UltraServer中的使用到非常興奮。
今年的re:Invent大會上,AWS更多地介紹了使用Trainium2加速器的系統架構,并展示了基于這些加速器構建的網絡硬件,以擴展和擴展其人工智能集群。下面是德桑蒂斯展示的Trainium2:
正如我們去年報道的那樣,Trainium2似乎在單個封裝上放置兩個芯片互連,可能使用NeuronLink die-to-die內部互連技術,以在其共享的HBM存儲器上一致地工作。Trainium2服務器有一個節點,該節點帶有一對主機處理器并與三個Nitro DPU相連,如下所示:
這是計算節點的俯視圖,前端有四個Nitros,后端有兩個Trainium2s,采用無線設計以加快部署速度。
兩個交換機托架,一個主機托架和八個計算托架組成了一臺Trainium2服務器,該服務器使用2TB/秒的NeuronLink電纜將16個Tranium2芯片互連成2D環面配置,每個設備上96GB的HBM3主內存都會與其他設備共享。每臺Trainium2服務器具有1.5TB的HBM3內存,總內存帶寬為46TB/秒(即每個Trainium2卡略低于3TB/秒)。此節點在密集FP8(一種浮點數表示格式)數據上的性能為20.8千萬億次浮點運算,在稀疏FP8數據上的性能為83.3千萬億次浮點運算。
AWS將四臺服務器相互連接以搭建Trainium2 UltraServer,該服務器在64個AI加速器中擁有6TB的HBM3內存容量,內存帶寬總計為184TB/秒。該服務器具有12.8Tb/秒的以太網帶寬,可使用EFAv3適配器進行互連。UltraServer服務器在密集FP8數據上的運算速度為83.2千萬億次浮點運算,在稀疏FP8數據上的運算速度為332.8千萬億次浮點運算。下面是德桑蒂斯對Trn2 UltraServer實例硬件的展示:
在布滿電線的機架頂部,隱藏著一對交換機,它們組成了3.2TB/秒的EFAv3以太網網絡的端點,該網絡將多個Tranium2服務器相互連接,以創建UltraServer服務器,并將服務器與外部世界連接。
這還不是整個網絡架構。如果你想運行大規模的基礎模型,需要的加速器將遠遠不止64個。為了將成千上萬的加速器連接在一起,可以進行大規模訓練,AWS設計了一種基于以太網的網絡結構,名為10p10u,其目標是在延遲不到10微秒的情況下,為整個網絡提供每秒數十PB的帶寬。下面是10p10u網絡結構機架的樣子:
由于原先服務器內部的電線非常復雜,AWS研發了一款光纖主干電纜,將需要使用的電線數量壓縮為原先的十六分之一。其原理是將數百個光纖連接放在一條較粗的管線中,這樣做的好處是讓服務器內部的架構更為簡潔。如下圖所示,右邊的機架使用的是光纖主干電纜,它更簡潔小巧。更少的連接和線路管理意味著更少的錯誤,當你試圖快速構建人工智能基礎設施時,這一點很重要。
據悉,這種專門用于人工智能工作負載的10u10p網絡由于其優異的表現正在被大規模采用。德桑蒂斯展示了它與AWS創建的老式以太網網絡相比的增長速度有多快:
假設這是累積鏈接數(有效的計算),舊的Euclid網絡結構(大概是100Gb/秒)在四年內逐漸增加到近 150 萬個端口。名為One Fabric的網絡與10u10p網絡在2022年年中大致同時推出,我們猜測其中One Fabric使用400Gb/秒以太網,而10u10p基于800Gb/秒以太網。One Fabric有大約100萬個鏈接,而10u10p有大約330萬個鏈接。
加曼表示,與基于AWS云上的GPU實例相比,Trn2實例的性價比將提高30%到40%。當然,AWS應該加大拉開外部計算引擎與自家計算引擎之間的差距,保持這樣的差距是Trainium搶占人工智能計算器市場的正確舉措。
作為主題演講的一部分,德桑蒂斯和加曼都談到了一個代號為“Project Ranier”的超級集群,這是AWS正在為其人工智能大模型合作伙伴Anthropic建造的一個超級集群。截至目前,亞馬遜已向Anthropic投資80億美元,該集群主要用于訓練下一代Claude 4基礎模型。加曼說,“Project Ranier”將擁有數十萬個Trainium2芯片,其性能將是訓練Claude 3模型時所用機器的5倍。
本文由雷峰網 (公眾號:雷峰網) 編譯自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。