高性能計算群星閃耀時
“沒有高性能計算,就沒有大模型。”
7 月,在北京新中關購物中心的俄式廚房,清華韓旭這樣對雷峰網形容道。
自 2023 年以來,伴隨大模型崛起的除了芯片,還有芯片與模型之間的中間層——系統軟件優化,其中高性能計算(HPC)背景出身的研究員參與占比大幅攀升。但對大眾來說,HPC 之于 LLM 的戰略意義仍是晦澀艱深的,直到 DeepSeek 殺出重圍,軟硬協同的力量被具象化,他們才被更多關注。
事實上,早在中國大模型的研究歷史初期,HPC 科學家的身影就占了一席之地。2020 年 10 月國慶前后,智源為研究大模型購入十臺英偉達 v100,就是清華高性能計算研究所的團隊前去幫忙搭建。悟道算法團隊用這個小集群訓練了中國最早的大規模預訓練語言模型 CPM,韓旭也參與其中,切身體會了 HPC 的分量。
芯片廠商賣卡通常只提供一整套機房設計方案的說明書,具體搭建還需要專門的系統人才。而將機器搭起來、到通過上層軟件編寫讓機器更快跑起來、再到大模型訓練時將大規模參數的存儲與計算分攤到各個機器上、并解決機器與機器之間的通信問題,使模型訓練地又好又快,每一步都屬于高性能計算的知識范疇。
以計算為例。大模型的計算是算矩陣乘法(即“算子”),矩陣乘法的計算是一個矩陣一個矩陣地算,大模型的參數規模大,計算矩陣時也要切成不同大小,以 100x100 的矩陣為例,在計算時是將其切成十橫十豎、還是斜對角切,算出來的結果也會不一樣——雖然切法可以窮盡,但每改一次就會牽一發動全身,大模型訓練即使單次試錯也成本不低。
因此,盡管不是一門新學科,但在中間層降本增效的 HPC 技術在大模型時代天然就扮演了核心角色。
中國的 HPC 發展經歷了三個主要階段:從上世紀七八十年代自研或仿制計算機(如 DJS 系列計算機、 銀河、神州超級計算機等),到九十年代拋棄大規模復雜硬件工程,轉向直接從外部采購工作站、研究硬件上的可擴展軟件系統,再到 21 世紀后超算三大家(曙光公司、國防科大與江南計算所)開始用自研處理器、芯片構建超級計算機。
這當中,第二個階段是中國 HPC 發展的一個關鍵轉折點,而清華高性能計算研究所(以下簡稱“高性能所”)扮演了先驅角色之一。
上世紀九十年代,他們率先放棄從零開始、每塊 CPU 每臺機器都要自研的路線,從外部采購了多臺工作站,通過高速網絡將其連接在一起、再將工作站上的并行計算軟件搭好,組成了高性能計算機(又稱“集群系統”),效果很好。之后中國的 HPC 研究開始騰飛,打破了美國與日本的壟斷局面。
相比其他院校,如中科院計算所、國防科大等單位能投入千人規模研究,清華的性質決定了其在 HPC 上無法投入大量人力,于是 1999 年高性能所成立后,研究重點也轉向了面向大規模集群系統的軟件優化與應用,在面向大規模集群的計算、存儲與通信問題中積累了豐富的經驗。
這也使得,過去的 25 年間,清華高性能所在 HPC、大數據、云計算、人工智能浪潮中均能屹立不倒。例如,大模型有 5 個關鍵環節:數據獲取、數據預處理、訓練、微調與推理,計算、存儲與通信幾乎貫穿了每個環節。
而高性能所在歷經多個浪潮后仍能歷久彌新,還要從一個人的故事說起,他就是中國 HPC 與存儲領域的著名科學家:鄭緯民。
一、繼往開來
鄭緯民的研究起點,是 24 歲在清華西主樓一區四層的并行/分布實驗室,見過 PDP-1/23、03 等當時最好的計算機,以及其他小型計算機、S-1280 等計算機。
那是上世紀七十年代,動蕩的歲月還未結束,但在這個小小的實驗室里,一個青年技術員卻看到了技術變革的光輝。從此,他的一生都與研究計算機綁在了一起。
或許是時代命運與個人視野的反差,鄭緯民在后來并沒有成為一個大眾刻板印象中的科學家。在他的身上,兩種沖突的特征得到天然的融合:在科學研究中,他有著技術人員對技術創新的普遍嚴謹與敬畏;但生活里,鄭緯民卻并不沉默寡言,而是常常開懷大笑、高談闊論,聲音洪亮不輸年輕學生。
談及大學時代的波折,也只有簡單的一句“專業稍有荒廢”。
1965 年,鄭緯民從浙江寧波考到北京,成為了清華大學自動控制系(今清華計算機系的前身)的一名本科生。沒多久文化大革命爆發,鄭緯民的學業也受到影響,計算機相關理論與專業知識基本靠自學。好在運氣不錯,1970 年鄭緯民順利畢業,并留校任教加入了清華計算機大教研組,從助教做起。
1978 年,計算機大教研組被拆分成計算機系統結構、計算機系統及應用、微型計算機三個教研組,鄭緯民被分到了計算機系統及應用組中。那時鄭緯民 30 出頭,好學心還是很大,想解決更難的問題,但深感專業基礎不扎實的掣肘,于是 1979 年又去讀了清華計算機系的碩士。
1982 年碩士畢業后,鄭緯民又分別到美國、英國訪問了一段時間,先后在美國紐約州立大學石溪分校與英國南安普頓大學當研究員。這兩段海外經歷大大拓寬了他的研究視野,提升了他對計算機體系結構的專業理解,同時也將他的研究品味從“跟上國際頂尖”轉向了“超越國際頂尖”。
鄭緯民
回國沒多久,鄭緯民就接任了計算機系統及應用教研組的主任一職,開始參與清華的大規模計算集群系統(cluster)研究,即高性能計算機。
原先國內研究 HPC 是從零開始,耗時長、成本高。鄭緯民等人嘗試一段時間后,果斷放棄,從外部直接采購了多臺計算力強的工作站、將其連接起來,1996 年做出了國內最早的微機集群系統——清華同方探索 108,并將其推向市場,在 1999 年國慶 50 周年慶祝活動中用于北京市氣象局的天氣保障。
由于貢獻突出,鄭緯民等人獲得國家科技進步二等獎。
也是在 1999 年,清華進行組織架構改革,將計算機系統及應用、微型計算機兩個教研組合并成了高性能計算技術研究所,首任所長由時任清華計算機系主任的周立柱教授兼任,2000 年鄭緯民接任。
鄭緯民當所長后,繼續主導并成功研制了一系列集群計算機。但隨著集群計算機的研發越來越復雜,要求投入的人力規模也越來越大,HPC 的研究主力就從高校轉向了國家專門成立的超算中心與大型研究所。清華高性能所在鄭緯民的帶領下,逐漸轉向 HPC 應用與系統結構優化,以軟件開發為主。
楊廣文與薛巍分別是 1996 年、2003 年到鄭緯民組當博士后,也歷經了這一轉折期。他們后來將 HPC 應用于解決大規模的科學計算問題,一共獲得過兩次全球高性能計算領域最高獎——戈登貝爾獎,一次是天氣預報,另一次是地震模擬,分別在 2016、2017 年,其中 2016 年是中國首次獲獎。
楊廣文 2004 年接任高性能所所長,此后又擔任無錫超算中心主任,其主導運維的“神威·太湖之光”超級計算機是中國超算的驕傲。楊廣文團隊為其研發了應用支撐系統,取得多項領先成果。Top500 榜單是評選全球“最快”超級計算機的 500 強,中國曾有三臺超級計算機是世界“第一”,神威·太湖之光就是其中之一、2016 年登上 Top500 榜首。
楊廣文(左)與薛巍(右)
HPC 從一開始就是為了解決大規模的計算需求而生,而許多關乎國計民生的問題求解都依賴大規模的計算。
以天氣預報為例,天氣預報具有強時效性,同時一個地區(如北京)的天氣預測往往要劃分為多個不同的區域(如海淀、朝陽、豐臺等)進行計算,因此計算量極大。計算規模大,同時要求計算速度快、計算精度高——這只有超級計算機能解決。
一開始,計算機系統結構的優化以計算為主,但隨著計算機的普及與互聯網的發展,數據變得愈發重要。鄭緯民敏銳地察覺到了這一變化,預感未來系統結構的研究會從“以計算為中心”轉向“以存儲為中心”,因為數據處理的前提是數據的存儲。
于是,鄭緯民開始將團隊的研究重心從傳統 HPC 轉向了存儲。
在鄭緯民之前,國內沒有大型存儲,技術被海外壟斷、價格也居高不下。鄭緯民帶領團隊里的舒繼武、薛巍等人攻克了這個難題:他們從 0 到 1 突破,在國內首次研究出可擴展的大規模存儲區域網絡(Storage Area Network,SAN),將大規模 SAN 存儲的產品價格打了下來。
除了大規模 SAN 存儲外,鄭緯民還曾創新性地提出社區共享的云存儲思路(如今云盤技術的基本原理),并主持開發了國內首個云計算平臺“清華云”。
2006 年,鄭緯民團隊余宏亮的研究論文被計算機系統頂會 Eurosys 接收,是中國大陸學者首次在 Eurosys 上發表的論文。2011 年,鄭緯民團隊的工作 FastScale 又被全球計算機存儲頂會 FAST 接收,是國內高校在 FAST 上獨立發表的首篇文章。
在鄭緯民之后,十數年間,高性能所的團隊在系統方向又獲得多個“大陸第一”,包括:國內大學首篇 OSDI 頂會論文、國內首次躋身 IO500(全球存儲 500 強排名)榜首等;甚至“國際首次”,如全球第一個提出 Open_Channel 閃存存儲。
分別在 1999、2002 年到鄭緯民組當博士后的舒繼武與武永衛,是最早跟著鄭緯民研究存儲的青年學生,后來也成為了存儲方向的接班人。如今清華高性能所是中國計算機存儲的佼佼者,在閃存、分布式內存、分離式內存與分布式文件系統等領域均有突出成果,其余星星點點的技術突破更是不計其數。
舒繼武(左)與武永衛(右)
雖然高性能所的研究內容從集群轉向了軟件,但與硬件的關系一直十分緊密。這是因為,面向系統結構優化的軟件編寫天然就要求研究者熟悉底層的硬件環境,包括計算機與芯片本身。同樣是以天氣預報為例:
二十年前,鄭緯民團隊用 HPC 研究天氣預報,跑在計算機上的程序實際是天氣預報專業的人寫的——當時計算機結構還比較簡單,他們只需要懂 C 語言和 MPI(一個跨語言的通信協議)就能寫出優秀的天氣預報軟件。但近幾年這個模式走不通了,因為現在的計算機結構變得更復雜,如果只懂這兩樣、不懂機器,寫出來的軟件性能會大打折扣。
可以說,“軟硬協同”是寫在清華高性能所基因里的一個研究思想。
原先鄭緯民在清華上兩門課,一門是面向本科生的《計算機系統結構》、還有一門是面向研究生的《高級計算機系統結構》,許多系統研究方向的學生都是通過這兩門課的教材與 PPT 入門。但選擇系統方向的學生既要懂硬件,又要懂軟件,還要有超強的寫代碼能力,即使是清華學生也常考低分。
這也注定了系統研究是一個獨孤求敗的賽道。系統結構領域的頂會一年所接收論文最多不超過 300 篇,據鄭緯民的說法,“高性能所的老師平均每人每年只能招 0.7 個博士生、有時候一年也招不到”。但同時,這又是一個極具決定意義的技術方向,所以高性能所每培養一個碩博生,基本都被國內大廠哄搶。
鄭緯民所培養的學生,除了留在清華任教的學者,進入工業界的還有華為海思首席科學家廖恒、網易有道 CEO 周楓、美團首席科學家夏華夏等等,國內系統架構方向的頂尖人才很多都與鄭緯民或多或少有關。此外,鄭緯民的學生還有對標 lululemon 瑜伽服品牌 Halara 的創始人張小沛等等,每個人的發展并不局限。
少為人知的是,DeepSeek 主導軟硬協同設計的核心成員中,就有 4 位從清華高性能所走出的青年學生。
此前,HPC 科學家并不活躍在聚光燈下。超級計算機雖是國家重器,卻距離大眾太遠。近兩年,大模型家喻戶曉,在大模型硝煙中扮演“特種兵”的 Infra 人才也被推到了臺前。尤其是 DeepSeek 出圈后,更多人看到了系統優化的價值——大模型突破的關鍵,不只在算法層,還有系統層。
二、一個新的計算 workload
2015 年,翟季冬去斯坦福大學訪問了一年,那是他第一次直觀感受到人工智能的浪潮。
當時,位于灣區的兩大計算機頂尖高校斯坦福和伯克利都在如火如荼地開展 AI 研究,從算法到 Infra。于是 2016 年回國后,他也將研究方向從傳統的科學計算轉向了 AI 系統軟件。
那是卷積為王的時代。當時商湯剛起步,在清華附近也有辦公室,翟季冬團隊與商湯建立了合作關系,研究如何將卷積模型訓練地更好、推理跑得更快。但卷積類模型對計算的需求遠沒有大模型那么高,大模型訓練需要成百上千張加速卡,而卷積模型一般只要 8 張、16 張,所以他們當時開展的是小規模的訓推優化。
在翟季冬看來,HPC 的研究本質一直沒有變,都是關注如何把跑在計算機上的程序優化地更快、更好,“只是上面的應用負載(workload)變了”,從天氣預報程序變成了人工智能程序。
翟季冬的本科畢業于電子科技大學,2003 年以年級第一的成績保送到清華。那時他有兩個讀博方向可選,一個是人工智能所,另一個是高性能所。相比算法,翟季冬更喜歡需要編程、偏系統的高性能計算,幾乎剎那之間就選擇了HPC——“在給定硬件上探索怎么把一個程序的性能發揮到極致”,這個話題特別吸引翟季冬。
翟季冬
入學后,翟季冬跟著鄭緯民和陳文光讀博。陳文光也是鄭緯民的博士生,那一年剛從外面結束創業、回清華當老師,由于還沒有博士招生資格,就幫著鄭緯民帶學生,在具體研究上給了翟季冬許多指導,所以翟季冬也一直將陳文光視為博士期間的導師。
與翟季冬不同,陳文光選擇 HPC 是偶然:
陳文光的中學就讀于清華附中,那時班上有位同學的父親是清華的王克宏老師,王克宏當時正在研究 AI,陳文光很感興趣,于是 1990 年入讀清華后就開始跟著王克宏、石純一研究 AI。但大四推研時,這兩位老師都沒有招生名額了,王鼎興和鄭緯民組還有,于是陳文光就去了鄭緯民組讀博,由此進入了高性能計算領域。
讀博期間,陳文光研究的是面向大規模集群系統的自動并行編譯器。不過,當時陳文光的志向并不在科研,而是一心想創業,所以博士畢業后就沒有選擇留校,而是投入了互聯網的創業大軍中,面向 C 端用戶開發用于不同平臺購物比較的軟件。
但這個模式只適用于類似書這樣的標準商品。互聯網泡沫破裂后他們靠著外包軟件開發支撐了幾年,終不是長久之計。剛好當時國內興起自研國產 CPU 的熱潮,陳文光想既然有 CPU 了、那就肯定需要編譯器——編譯器的作用是將上層應用的程序代碼轉成底下芯片上能運行的機器代碼,于是重新加入了高性能所。
擔任教職后,陳文光繼續在自動并行編譯上做了大量探索,同時拓展到串行編譯器的性能優化,但很快發現這塊的研究已接近天花板:
2010 年,他們的一個編譯器工作被編譯頂會 PLDI 接收,結果卻讓陳文光十分灰心,因為雖然他們在這個編譯器上寫了大量復雜的代碼,整體性能優化卻只提升了 1%。于是 2010 年之后,陳文光就不再局限于編譯器,而是往上一層看,轉向了圖計算的研究。
陳文光
受導師鄭緯民的影響,陳文光一直以“做出有全球影響力的工作”的目標來要求自己,不甘于現狀。在帶翟季冬的時候,陳文光也經常跟他強調,不要追求論文數量,而是要做有用的研究。鄭緯民教做人做事,陳文光教研究品味,所以翟季冬從博士期間就開始了對自己的高要求。
讀博時,翟季冬主要研究高性能計算機的性能評測。當時高性能所有一個國家項目,主要是對國內研制的大規模機器性能(包括網絡、通信與內存)做評測,一般是成百上千臺的規模、跟現在的大規模數據中心類似。這就要求有一套完整的評測理論與方法。翟季冬的博士論文就是寫 HPC 性能預測,用一臺機器預測出更大規模機器上的程序性能。
博士畢業后,翟季冬完全沒考慮過工業界的機會,連簡歷都沒有投過,而是留校當了兩年博士后,2012 年開始當教職。他先是與薛巍一起研究如何在國產高性能計算機(如“神威藍光”)上讓天氣預報等應用程序跑得更快,之后又在 2014 年開始接手了清華的學生超算競賽團隊。
在翟季冬的帶領下,清華超算第二年就開始開掛——2015 年同時獲得三大超算比賽 SC、ISC 與 ASC 的冠軍,2018 年又再度獲得大滿貫。截至目前,清華一共在超算比賽中奪冠 18 次,翟季冬帶隊時就獲得過 15 次。
全球三大超算比賽面向本科生,比賽內容是在一個小規模的集群上給定一些題目,在同等功耗限制下看誰跑得快,本質上考核參賽者對計算機性能分析與優化的能力。因此,打過超算比賽的學生在 HPC 相關基礎知識上也會更扎實。許多參賽學生如謝磊、唐適之、何家傲、鄭立言、黃可釗在本科畢業后都繼續跟著翟季冬讀博,在翟季冬轉向“HPC+AI”后也在這個方向做了深耕。
值得注意的是,DeepSeek 大模型 Infra 的核心成員趙成鋼在清華讀本科時也是超算團隊的學生,在翟季冬的指導下三次奪冠。
趙成鋼的碩士是在清華叉院讀,主攻 Infra 框架層的系統優化軟件開發,2024 年碩士畢業,翟季冬也是他的碩士答辯委員。翟季冬記得當時問他“準備去哪工作”,趙成鋼說“去 DeepSeek 研究 AI 框架”,當時翟季冬還有些意外,因為沒聽過這家公司,但他認可趙成鋼所選的方向是十分重要的。
翟季冬在 2017 年轉向 AI 系統軟件開發時,恰逢新浪潮的萌芽期:那一年,Transformer 誕生,2018 年谷歌又基于 Transformer 發布了 BERT,引起廣泛關注,翟季冬團隊也開始關注。那時候,他們也探索了圍繞 Transformer 的系統優化,包括底層的編譯。
但 Transformer 的出現并沒有立即改變 AI 對 HPC 的低訴求。翟季冬團隊雖有探索,也因處在技術生澀期而走了不少彎路。所以在傳統計算探索多年后、尋找下一個計算 workload 時,清華高性能所的年輕教授反而將目光轉向了圖計算,而非 AI。
2012 年前后,社交網絡的興起催生了大規模的圖分析需求。圖計算也涉及到上百臺機器集群的運轉,要解決底層系統的數據丟失與容錯、負載均衡等問題。那時高性能所有兩個團隊涉及圖計算,陳文光組與武永衛組,不過兩個組是分開研究,武永衛組從系統存儲切入,陳文光從編譯器切入。
受谷歌 MapReduce(專門針對大規模數據集的編程模型)自動并行的思路啟發,陳文光與團隊從數據結構、調度負載均衡及并行計算等 HPC 方法論,分別在 2015、2016 年提出了針對圖計算的單機圖處理引擎 GridGraph 與分布式系統雙子星,計算速度都是當時的 SOTA。尤其是雙子星,速度比當時 CMU 推出的高性能分布式圖并行計算框架 PowerGraph 還要快幾乎 20 倍。
陳文光一直有個目標,就是開發出能被全世界廣泛使用的軟件,像伯克利的 PostgreSQL、Apache Spark 等一樣。它們的路徑都是先開源,然后孵化公司、做成系統在全世界推廣。于是 2016 年陳文光又萌生了創業的念頭,拉了他的四位學生——洪春濤、朱曉偉、林恒、李愷威,在北京創立了費馬科技。
2020 年,費馬科技被螞蟻集團以數億人民幣的價格收購——這次收購主要是對人才的收購,因為螞蟻聚焦支付貸款,整個大場景是金融風控,對圖計算有大量需求。被收購后,費馬團隊一同并入螞蟻集團,包括陳文光。2022 年,陳文光還被任命為螞蟻技術研究院院長。
為了避免清華與螞蟻之間的產權沖突,2020 年被收購后,陳文光開始為學校科研尋找圖計算以外的研究方向。也是在這一年,AI 與 HPC 的緣分終于降臨——秋天,陳文光團隊受智源邀請去搭建機器,以支持一個新的計算 workload:
大模型。
三、一支“特種兵”
1024 張 A100 是什么概念?
今天許多 AI 算法研究員已經對這個數字見怪不怪,但 2020 年 OpenAI 宣稱 GPT-3 的訓練用 1024 張英偉達 A100 跑了 34 天時,所有人都震驚了。然而,這個數字在超算面前卻是“小巫見大巫”。
以神威·太湖之光為例,其由 40 個運算機柜組成,每個機柜包含 1024 塊處理器——也就是說,從大的機器規模上來看,支撐 GPT-3 的集群只是神威·太湖之光超算的 1/40。因此,清華算法團隊在決定研究大模型后,首先就想到了大模型背后龐大計算集群的締造者們——清華高性能所。
2020 年 10 月,陳文光團隊的助理研究員韓文弢率先被邀請到智源搭建十臺英偉達 v100,同行的還有高性能所的幾位學生,曹煥琦、陳晟祺、李岱軒與孫楨波。
這臺小規模的機器集群支持劉知遠團隊完成了預訓練語言模型 CPM,不過 CPM 的參數規模只有幾十億,所以高性能所的支持沒有延伸到更廣的系統優化上,而是停留在機器搭建,韓文弢后來也沒有投身大模型,而是回歸了教職主業。
韓文弢
陳文光與翟季冬真正投身大模型,是 2021 年與唐杰、楊紅霞等人一起在國產超級計算機上訓練百萬億參數 MoE 大模型。為此,他們主力開發了“八卦爐”大模型訓練系統。
2020 年底,翟季冬在一個人工智能論壇上見到楊紅霞。楊紅霞當時對 GPT-3 非常有熱情,向翟季冬提議算法與算力人員合作,大家一起在一個大算力平臺上訓一個超越 GPT-3 的大模型。翟季冬本就對 AI 很感興趣,欣然答應。(更多細節可以閱讀雷峰網往期報道《五道口大模型簡史》)
他們選中的超算在山東。那時候,新一代神威機器即將竣工,也需要新的程序來測試。2021 年 1 月,翟季冬與楊紅霞就帶了高性能所的馬子軒、何家傲等學生去現場考察,當時,支撐大模型訓練的軟件非常不足,無法支撐訓練任務。"幾乎什么都沒有",從上層的并行框架、中間層的PyTorch到底層的算子庫——基本等于赤手空拳。加上之前超算沒有用來訓練過大模型,所以大家心里都沒底。
陳文光與翟季冬的學生從 2 月開始駐場,從底層算子編譯做起,到并行通信、大規模并行計算軟件編寫,搭建了一整套八卦爐系統,中間遇上春節假期也幾乎沒有休息,最終在 5 月份將包含 174 萬億參數的 MoE 模型在超算整機上跑了起來。
在這個過程中,清華高性能所團隊的最大收獲不是誕生了多少創新的 idea,而是掌握了大模型的整體訓練流程。
陳文光告訴雷峰網 (公眾號:雷峰網) ,在他讀博時,組里正在研究可擴展集群計算機,當中涉及到大量并行計算軟件的編寫,包括高速通信協議、并行調試器與高容錯系統等等。后來投身大模型后,他發現“大模型的訓練與 30 年前大家在集群計算機上遇到的問題一模一樣”,都是研究怎么降低延遲、提升帶寬,避免在內存中重復拷貝通信協議、降低開銷等等,甚至用的解法也完全一樣。
在智源的萬億級參數大模型中,高性能所的貢獻主要是算子的編寫優化與訓練框架設計。
通俗來說,編寫并行程序時,通常要告知系統哪些部分可以并行、如何并行,以及訓練過程中怎么處理出錯情況和平衡機器負載等問題,整個過程需要編寫大量的代碼。通過軟件優化后的“八卦爐”大模型訓練系統只需要簡單的任務描述,就能讓萬億大模型在青島超算中心包含 10 萬個 CPU、4000 多萬個核的大型機器上高效運行。
HPC 的本質是追求更快、更極致的計算性能,通過“榨干”底層的硬件潛力支持機器上層的訓練程序。“更快”就意味著“更省”——在相同的硬件條件下,假設大模型的訓練時間能從一小時縮短至十分鐘,那就相當于節省了五十分鐘的算力消耗成本。這個真實存在的需求目標很吸引翟季冬。
也是在參與悟道項目后,翟季冬發現 MoE 架構的大模型訓練還有很大的優化空間。
悟道 2 的萬億大模型之所以選擇 MoE 架構,是因為谷歌 2021 年 1 月發布的 Switch Transformer 也是 MoE,但那時 MoE 還沒火,只有少數團隊關注到這一趨勢。“印象中,當時 MoE 的訓練效率只有 10% 到 20% 之間。”翟季冬告訴雷峰網。為此,他們開展了一系列的 MoE 優化訓練研究。
2021 年 1 月,翟季冬團隊里的博士生何家傲就開始研究 FastMoE。
當時他們發現,MoE 模型相較其他的深度學習模型有天然的獨特之處,主流框架如 PyTorch 原生不支持 MoE 模型的訓練,于是就想開發一個專門的 MoE 框架,在 PyTorch 里加一兩行代碼就能讓 MoE 模型自動跑起來。何家傲耗時大約兩個月將 FastMoE 完成并開源,是全球第一個開源的 MoE 訓練框架,在社區里引起非常不錯的反響,被騰訊、華為等多個團隊引用。
FastMoE 實現了許多功能,但在自動并行等問題上還不夠出色。2022 年,翟季冬的另一個博士生翟明書基于 FastMoE 做改進,設置了一個在線與離線結合的并行策略選擇,提出了 SmartMoE。
簡單來說,大模型在訓練前需要分析采用什么樣的并行策略可以提高模型的訓練效率。針對這一步驟,此前稠密模型已有 Alpa 等工作支持,但 MoE 是稀疏模型、具有動態性,即 MoE 模型在純靜態時所選的并行策略并不一定最優。對此,SmartMoE 選擇了在線與離線結合:靜態時先選擇一組不錯的候選集合,比如大約 10 組配置,然后在大模型真正訓練時在這 10 組中靈活調整到最優。
這兩個工作的思路后來都被行業廣泛引用,但其開始的時間都遠遠早于行業熱捧 MoE 之前。
除了 MoE,翟季冬團隊也針對稠密模型的推理做過系統優化,提出了編譯器 PET 與 EinNet 等工作。但相比 MoE,稠密模型的性能極限已在業內形成共識,而 MoE 架構的稀疏激活和負載動態性對整體訓練優化來說依然非常難,因此從系統的角度看,優化空間更大。
2016 年翟季冬去斯坦福訪問,曾見識硅谷高校的頂尖科學家并不囿于高墻。比如,斯坦福的多核處理器專家 Kunle Olukotun 在學校研究出很好的技術后創立 Afara 芯片公司,后來被 Sun 收購、自己也評選上了美國工程院院士。這讓翟季冬一直相信,創新與創業并不割裂。
于是 2023 年大模型爆發后,翟季冬看到大模型對中間層軟件的需求,就拉著湯雄超、師天麾、唐適之等幾位學生一起創立了大模型 Infra 公司“清程極智”,推出了“赤兔”大模型推理引擎等工作。
八卦爐以訓練為主,赤兔以推理為主。當前大模型領域兩個主流的開源推理引擎 vLLM 與 SGLang 都由伯克利團隊開發,對國產芯片的支持效果不好,而隨著國產芯片的崛起,將國產芯片用于大模型的推理支持是大勢所趨。清程極智所開發的“赤兔”系統經試驗,能大幅降低 DeepSeek 等多個國產大模型的推理成本。
2021 年支持完悟道后,陳文光也選擇在國產大模型基礎設施上更進一步,一方面兼任鵬城實驗室智能計算研究部主任,主導“云腦 2”上大型并行訓練系統搭建;另一方面是開發通用大數據處理優化系統,發布了“諸葛弩”等成果。
云腦 2 的特點是基于 4096 張華為昇騰 910A 卡打造而成,總算力規模為 1 Eops@FP16,存在精度支持不足、顯存較小、卡間通信帶寬較低等問題——這也是國產芯片集群的通用問題,在系統優化上主要有 3 個難點:一是要基于全新的昇騰 910A 卡打造高性能的 AI 處理器,二是要將 4096 張卡互聯起來,三是整機系統的容錯率與故障率把控。
陳文光與團隊的任務是提高大模型在云腦 2 上的訓練效率。總體來說,云腦 2 的設計與優化是成功的:
在芯片上,910A 的推出時間早于 A100,峰值速度是 256T、相當于 A100 的 0.8 倍。卡間互連上,910A 的卡間帶寬只有 180GB/s,遠低于 A100 的 600GB/s,后續的 910B 做了改進、提升到約 400GB/s 以上。此外,云腦 2 采取液冷系統,在 3000 多張卡上訓練大模型時平均故障時間約為 100 小時一次,故障率約為風冷的 A100 系統的 1/10。
云腦 2 完成后,曾用于訓練 2000 億參數規模的純文本稠密模型,但效果并不算出色,原因是訓練數據不夠,當時只訓練了 1.8T token 數據。
一方面,大模型圈一直流行訓練數據即將匱乏、耗盡的聲音,但另一方面,又有觀點認為,當前模型能力不理想的原因之一是特定領域的數據沒有挖掘到,所以數據收集與處理仍是當前大模型基礎研究的關鍵。
如今大模型的訓練數據量越來越大,今年發布的 Llama 4 已達到 30T token、Qwen 3 達到了 35T token,但現有的通用大數據處理系統仍不盡理想。以 Spark 為例,雖然性能比 MapReduce 好,但基于 Java 的設計導致了大量內存冗余、計算效率低下。
陳文光從并行編程切入,將 Java 轉為本地代碼執行,開發了“諸葛弩”系統——像諸葛亮發明的弩一樣,一次性射出多根箭,可以對數據快速去重、去廣告與統一格式,數據處理效率較 Spark 提升了數倍以上。如今,陳文光也成立了數據處理方向的創業公司。
四、存儲寶刀不老
大模型初期,清華高性能所團隊從并行處理與編譯出發,主要解決大模型的訓練優化問題。2023 年 ChatGPT 出圈后,更多 HPC 學者關注到這一計算 workload,以存儲為中心的系統優化開始在大模型領域嶄露頭角。
2024 年,武永衛團隊發表了兩個大模型推理優化的工作——Mooncake 與 KTransformers,最先拔得頭籌。值得注意的是,這兩個工作的背后有一位共同主導者,他就是 90 后青年科學家章明星。
章明星
章明星 2012 年本科畢業于北京郵電大學,大學期間打過 ACM/ICPC 比賽,對榨干硬件潛力的底層技術有深厚興趣,于是直博推免時就自然而然地選擇了高性能計算,在武永衛組研究圖計算的分布式系統。
2017 年博士畢業后,章明星加入深信服,才開始接觸機器學習系統,如用大規模機器學習研究殺毒軟件。他在深信服工作了 5 年,涉獵多個業務線,最后發現自己還是最喜歡研究前沿系統的效率優化問題,于是 2022 年就選擇了回清華任教。
沒多久 ChatGPT 爆火,親自上手體驗后,章明星直覺這是一個顛覆性的技術方向。剛好楊植麟、張宇韜等人在籌備月之暗面,他們認為大模型的算法與 Infra 同等重要,想找系統方向的人才合作。張宇韜與章明星是江西南昌老鄉,又是高中同學加博士校友,于是就找到了章明星,雙方一拍即合。
2023 年年初,章明星以友情合作的身份參與到月之暗面 Infra 系統與團隊的建設中,經歷了從云廠商選型到后續模型訓練與推理的全過程。
這是他第一次接觸深度學習模型。章明星從 CUDA 算子怎么寫、DeepSpeed/Megatron 系統怎么調試開始學習,與月之暗面的算法團隊一起 babysit 煉丹爐,Mooncake 系統與 KTransformers 利用 AMX 指令的早期思路也是在這一合作的過程中誕生,主要用于模型的推理提效。
Mooncake 的誕生初衷很簡單:
在大模型的實際使用中,假設一個用戶用大模型看論文,并提問“這篇論文的三個主要創新點是什么”,之后大量用戶也輸入同樣的論文與提問,那么這些問題的許多中間處理結果(KVCache)實際是相同的。
針對大模型的重復推理,Mooncake 的思路是將不同用戶的相同 KVCache 公共部分存起來,到下一次需要用到時就直接換入到 GPU 中去、從而跳過這一部分的計算,通過廉價的存儲置換了昂貴且稀缺的 GPU 資源,這一套“以存換算”的思想可以大幅度節省算力消耗。
Mooncake 發布后,影響很大。此前,雖然微軟和北大等團隊也針對大模型推理對算力的消耗提出類似思路并進行了早期探索,但 Mooncake 能在一眾工作中脫穎而出的原因是:它第一次將 PD 分離和全局 KVCache 共享在大規模集群(數千張卡的規模)上跑了起來,拿到了真實的業務收益。加上 2024 年 kimi 有一波現象級的爆火,承載 kimi 的 Mooncake 系統也就跟著火了起來。
后來,Mooncake 在月之暗面內部得到更廣泛的應用,包括支撐了 K1.5 和 K2 模型的強化學習后訓練和推理。2024 年年中,他們將 Mooncake 的關鍵組件開源,吸引了包括 9#AISoft、阿里、螞蟻、訊飛、字節、華為在內的國內基礎設施廠商和研究團隊一同建設,打造了一個開源的分布式推理社區。
在國際上,Mooncake 也引發了巨大反響:兩大推理引擎 vLLM 與 SGLang 都通過與 Mooncake 合作進行分布式推理能力的建設,英偉達 Dynamo 系統也借鑒了 Mooncake 架構,此外英偉達還同 Mooncake、SGLang 社區一同在 H100 和 GB200 NVL72 的集群上復現了 DeepSeek 的高效分布式推理架構。
Mooncake 是面向超大規模集群的云上推理優化,KTransformers 則是為了解決大模型在本地化部署中顯存不足的推理優化需求。
大模型在推理時主要用的是 GPU 推理卡,推理卡里包含兩塊區域:一塊是計算、一塊是存儲。其中,存儲區域叫“顯存”,里面主要放兩部分數據:一部分是大模型訓練完以后的參數,另一部分是一步步推理過程的中間部署"KVCache”,所以需要大量的存儲。這也是為什么在過去,將一個 671B 的 DeepSeek V3 大模型裝進個人機器是非常困難的,因為顯存非常昂貴。
為了解決這一問題,武永衛、章明星團隊和趨境科技一同設計的 KTransformers 系統通過充分發揮本地廣泛存在的廉價 CPU/DRAM 資源,借用顯卡之外、主機里也有的存儲 (如 CPU/內存),通過讓 CPU 與 GPU 交換共同推理,實現了 400GB 內存的 CPU 再加一張英偉達的 4090 卡就能做到每秒 20 到 30 個 token 的輸出。
由于正值全民探索 DeepSeek 的熱潮,KTransformers 系統的熱度也隨之暴漲,成為了目前本地推理大型稀疏模型最主要的,以及后續 Qwen3 和 Kimi K2 模型首發推薦的本地推理框架之一。
Mooncake 與 KTransformers 的特點是:它們都是一套系統,而非一個技術單點。系統就意味著可以無限做深、持續優化,任何技術點都可以為系統所用。例如,在設計 Mooncake 時,章明星也用到了傳統為高性能存儲和數據庫設計的 RDMA 等高性能通信技術。
2025 年,Mooncake 榮獲存儲頂會 FAST 最佳論文。
這是清華高性能所距離 2011 年首次發表 FAST 論文后,時隔 14 年的又一次重大榮譽。2011 年發表一篇 FAST 難如登天:FAST 2011 共收錄 20 篇論文,其中 18 篇來自美國和加拿大,1 篇為美韓合作,僅有 1 篇由大陸學者獨立完成,即鄭緯民與張廣艷的 FastScale 論文。14 年后,FAST 將最佳論文頒給 Mooncake,不僅體現了中國存儲技術的科研話語權提升,還反映清華團隊在推動傳統存儲持續創新上的敢為人先。
事實上,大模型從訓練到推理的每一個關鍵步驟都離不開存儲。
不止推理,大模型的訓練也離不開存儲。針對萬卡集群系統在運行時可能出現故障,HPC 存儲在過去已有解法,即在訓練到 10 分鐘時就知道一個小時要出錯、然后主動停下來將當時的軟硬件環境記到硬盤里,標記完后再繼續訓練。清華高性能所曾提出“分布式檢查點”,將可能出錯點的檢查時間從數小時壓縮到了十分鐘內。
此外,在數據獲取上,大模型研究要解決兩個問題:一是系統能夠高效可靠地存儲高達上百億個文件的數據,二是能找到文件存儲的位置并盡快讀取。獲取的數據要進行預處理,處理后的數據質量會直接影響模型的性能。存儲領域的“分布式文件系統”技術就是專門解決這類問題。
陳康是清華高性能所在分布式文件系統上的開拓者。
陳康(左)、張廣艷(右)
從 2015 年開始,陳康與當時剛剛入學讀研的閃英迪(現任清華大學計算機系助理研究員)合作,圍繞分布式文件系統展開了一系列研究。當時的分布式文件系統在出現數據損壞時,往往需要數小時甚至數天來完成故障修復,而冗長的修復過程又極易造成數據的二次損壞乃至永久性丟失。
為了解決這一難題,陳康與閃英迪從信息論領域挖掘出一種名為再生碼的信息編碼,并創新性地將其應用于分布式文件系統。他們設計了與再生碼相適應的硬盤數據結構,使系統的數據修復時間降低至分鐘級。
隨后,伴隨固態硬盤與 RDMA 網卡的逐步普及,他們發現先前的分布式文件系統架構已經無法充分利用新型硬件的性能,又帶領團隊里的碩士生王潤基等人共同設計并實現了新一代分布式文件系統 MadFS,并成功部署在鵬城云腦 II 智算平臺上。MadFS 一舉奪得 2021 年 IO500(全球超算存儲 500 強)榜單冠軍,是國內科研機構在該榜單上首次登頂。
2023年起,IO500 冠軍由舒繼武和陸游游團隊開發的文件系統 SuperFS 奪得。
陸游游是國內閃存與分布式內存方向的先驅青年科學家。在閃存SSD、內存與網絡等高速硬件構成的現代數據中心里,發揮高速硬件的性能是新型存儲系統設計的重要挑戰。基于閃存與內存系統的研究積累與實踐經驗,陸游游帶領曾少勛、郭昊、楊倚天等學生設計開發了全新的文件系統SuperFS,數據帶寬達到硬件理論帶寬的 90% 以上,元數據性能刷新世界紀錄,在相同硬件條件下系統效率提升約 9 倍。
目前,陸游游也在研究大模型訓練與推理的存儲系統,從向量存儲、參數存儲切入探索下一代大模型記憶存儲基礎設施。
陸游游
陸游游 2009 年從南京大學本科畢業后到清華高性能所讀博,師從舒繼武,博士期間在裸閃存上取得了十分突出的成績——國際首次提出 Open_channel 閃存存儲,在 FAST、SOSP 與 OSDI 等頂會上發表了中國第一篇閃存論文,2016 年開始在 Linux 社區被廣泛推廣。也因此,陸游游博士后一出站即拿到了清華的教職,留校任教。
2013 年之后,陸游游轉向分布式內存研究,2017 年提出了基于 RDMA 的分布式共享內存池 Octopus——這是國際上第一個結合非易失內存和 RDMA 的分布式文件系統,其性能在獨立評測中遠超其他文件系統。這項研究得到了國際同行的廣泛關注,被多位國際知名學者在國際學術會議的 keynote 報告介紹,被 Intel、Mellnox 等多個工業巨頭在國際組織的報告中討論,也在多個大學的課堂教學中研討。
2022 年,陸游游團隊又發表了分離式內存成果 Sherman(下一代數據中心內存底座),Sherman 后來獲得數據庫頂會 SIGMOD 2023 的“研究亮點獎”(Research Highlight Award),是大陸團隊首次獲獎。這項工作也在2025年再次入選 ACM 通訊(Communications of ACM)研究亮點成果。
從 2010 年到 2020 年,陸游游與團隊主要關注閃存與內存,也在研究過程中發現了存儲在 AI 系統中的重要性。2019 年開始,陸游游與團隊開始探索推薦系統中內存和 GPU 顯存的管理,與快手合作在真實系統中取得了顯著收益。到大模型時代,GPU 顯存與傳統存儲層次之間的協同問題表現突出,因為大模型距離 GPU 內部的計算單元越來越近,不再僅僅是 SSD 或內存的性能,可能還要去關注 HBM 與互聯的性能。
今年,陸游游團隊基于過往文件系統研究大模型的存儲,在亞馬遜支持的 ASPLOS/EuroSys 2025 大模型推理優化競賽中獲得了第一名。
五、計算永不過時
盡管當前清華高性能計算團隊對大模型的 Infra 支持與探索是從傳統 HPC 技術出發,但他們的布局并不止于此。除了傳統 HPC 的創新,同時他們也永遠在探索 HPC 之外的下一代更快、更好的計算范式,如張悠慧在研究的類腦計算。
張悠慧
不同于 HPC,國內的類腦計算發展基本和海外同步。
張悠慧 1993 年考上清華計算機系,本科第五年就進入計算機系統及應用教研組,先是跟著汪東升做研究,后師從鄭緯民讀博,參與了集群系統的研究。2002 年博士畢業后,張悠慧留校任教,先在汪東升組研究處理器,參加了當年由國務院“18號文”(2000 年 6 月 24 日印發)催熱的首波“中國芯”熱潮。
由汪東升、鞠大鵬、張悠慧等人組成的小組于 2004 年成功研制了當時國內主頻最高的 “清華芯”(代號 THUMP 107),并與國內頭部廠商開展了體系結構定制設計方面的長期合作,但高端突破仍待時日。2014 年,在施路平的影響下,張悠慧就轉向了類腦計算。
當時人工智能剛起來,類腦神經網絡被稱為“第三代人工智能網絡”,非常超前。張悠慧轉變方向后,主要研究類腦芯片的設計與類腦編程范式,用了不少高性能計算機體系結構的設計方法論——這也使得后來他在類腦計算的研究中一直強調要保持系統的軟硬件去耦合特性以及系統的“通用性”。
從信息社會的發展來看,整個計算機體系結構到目前最成功的仍是通用處理器架構,即馮諾依曼架構,原因是圖靈完備性從理論層面解決了根本的問題:一個圖靈完備的語言寫出的程序,肯定能夠等價轉化為圖靈完備系統上的一個等價程序,而馮諾依曼架構是實現圖靈完備的一種最常見、最實用的工程方案。
張悠慧在類腦研究中也采用了通用計算機的方法論。比如在 2020 年與施路平合作發表的國內計算機系統領域的首篇 Nature 論文,就被當期的 Nature 評論文章認為,所提出的類腦計算完備性之于類腦計算系統,就如同圖靈完備性之于通用計算機。
高性能計算會分為軟件、硬件、編譯等不同層次,且不同層次之間能夠獨立演化,張悠慧也深受啟發,誕生了研究類腦通用編譯器的想法,將類腦應用程序分層轉換為芯片上的可執行程序,層間去耦合、轉換可復用。這樣做的原因在于——
目前的類腦系統生態存在軟件碎片化的問題,往往要圍繞不同的類腦芯片開發與之適配的中間軟件和應用。即每一個都是分割的縱向綁定,開發出來的中間層次和應用都是針對特定的芯片,換一個芯片就要重新開發。這就導致整個類腦研究社區難以共同演進。
但是研究通用處理器的人,從來不會去擔心這個處理器上能不能跑一般的應用,寫應用的人也從來不會考慮在這個處理器上能不能跑——肯定能跑,因為通用計算機是圖靈完備的,且從應用到處理器硬件橫向分層,中間編譯器已經做了很多事情,使得底下的硬件特質早就被屏蔽掉,所以軟件和硬件可以獨立發展、彼此不被束縛。
針對這個問題,張悠慧與鄭緯民、施路平、高光榮一起討論過很多次,最后在 2019 年決定從類腦計算系統的層次結構入手,借鑒圖靈完備性與馮諾依曼架構體系,提出了類腦計算完備性。這個工作從構思到成型大概 9 個多月,趕在疫情前夕完成,最后登上 Nature。
張悠慧從 2014 年開始研究類腦計算,一共發表了兩篇 Nature,第一篇是與施路平團隊合作的天機二代。天機二代芯片做了 DNN 與 SNN 的異構融合,支持兩類芯片、兩類網絡的同時運行,登上 Nature 封面,施路平主導、張悠慧為共同一作,是國內類腦芯片的開山之作。
從 2014 年到 2021 年,張悠慧參與過兩代天機芯片的研發,主導了天機一代與二代的工具鏈研發,解決了網絡部署的問題。從論文公開情況來看,施路平、裴京、張悠慧以及其他合作者共同發表在 IEDM 上的論文是國內第一篇類腦計算芯片論文。
2021 年后,張悠慧逐步開始設計通用計算與類腦計算融合的新型芯片。在芯片設計上,張悠慧也是從計算機系統結構的思路出發,用“通用的微體系結構擴展”,進行通用處理器的類腦計算定制化設計。這樣可以取得兩方面效果:一是容易編程,易用;二是體系結構優化到一定程度就能實現編程靈活性和性能的兼備。
比如拿 RISC-V 去擴展,用指令集或較通用的微架構擴展來支持類腦神經網絡的快速運行。這樣的好處是,軟件能夠靈活編程來支持各類類腦應用,而不需要重新去開發一個新芯片;而且運行性能要顯著高于某類采用定制電路方式的 SNN 加速器芯片。
張悠慧提出的類腦計算系統層次結構,解決了類腦芯片與應用緊耦合問題。后來,課題組的助理研究員渠鵬(2009年河北省高考理科狀元)將這一解耦合方法論遷移至信創領域,在信創產業亟需解決軟件跨平臺適配遷移的背景下,創新性地將大模型技術與編譯技術結合,提出基于 “統一中間表示” 的跨平臺軟件適配遷移技術。
該技術利用大模型的代碼理解與生成能力,實現對非跨平臺代碼段的智能化定位與跨平臺轉換, 并通過編譯技術輔助實現準確性提升,從而顯著降低了信創軟件的移植成本。2023年,這項技術與浙江金網合作,孵化了國內首款信創適配一體機產品。
目前張悠慧在類腦計算的研究主要有兩塊:一是開發跨平臺的編譯器,希望在寫程序的時候不必有太多硬件上的約束,而且支持新的類腦芯片時可以盡量避免重復造輪子;另一塊就是用通用處理器做類腦計算擴展。
GPU 擅長密集計算和規則計算,但是對具有大量不規則訪存、稀疏計算特征的諸如神經動力學仿真應用,效率非常低。張悠慧將類腦與通用計算結合所設計的芯片對這類應用體現出了出色的加速作用,同時能保證高計算精度。
以前 SNN 在解決應用問題層面比不上 DNN,優勢主要在于功耗低。但張悠慧告訴雷峰網,“現在慢慢趕上來了,可能還有1到1年半的距離。”
張悠慧轉向類腦計算,汪東升則將研究重點從國產芯片轉向了處理器的硬件安全上。
汪東升
現代處理器朝著高性能、低功耗和智能化的方向發展,硬件的安全問題也不容忽視,2018 年 1 月爆出的“熔斷”和“幽靈”漏洞就是出現在處理器的高性能處理模塊,同年汪東升團隊發現的“騎士(VoltJokey)”漏洞則隱藏在普遍使用的低功耗動態電源管理單元。通過“騎士”漏洞,黑客無需借助任何外部程序或者鏈接就可以直接獲取用戶的安全密鑰,影響了全球大量計算設備、且設計到處理器芯片的核心架構。
對此,汪東升團隊從信息論、數學和測試等角度提出基于熵變、形式化驗證和多層次覆蓋率模型的硬件漏洞檢測與挖掘方法,在架構層面設計了大規模分布式硬件漏洞智能挖掘與安全檢測平臺,可對硬件進行批量化、自動化和智能化漏洞挖掘與安全測評。
他們相繼發現了通用處理器的“幻影”、“超車”、瞬態執行計時側通道、PMU 側通道以及 GPU的“閃電”等漏洞,對處理器領域預先安全防御作出了巨大貢獻。
六、技術的英雄主義
大模型時代,HPC 的機遇加大,挑戰與壓力也倍增。
在過去,系統軟件的研究一般只需與芯片廠商合作,如今也必須與模型廠商合作——因為在大模型的性能優化上,光做軟件優化也許只能將 token 輸出從每秒 10 個提升到 50 個,若要提升至每秒 500 個 Token 的輸出則必須與算法人員一起從底層算子、Transformer 架構、算法公式等改起。
章明星認為,未來軟硬協同設計的趨勢會更加明顯,接下來大模型在軟硬協同上會有兩個趨勢:一是稀疏大模型的發展會加大對算力側的需求,二是提高強化學習驅動的模型推理性能。現在章明星也在應用 Mooncake 作強化學習的訓練優化。
理論上,模型層可以往下探究、芯片層也可以往上延伸,所以位于中間層的 HPC 軟件創新天然受到底層芯片與上層模型的“兩頭擠壓”。不過,在承壓中作性能的極致創新幾乎已是 HPC 的天性,且隨著大模型的競爭愈發激烈,國產芯片崛起,軟件創新的重要性仍在提高。
大規模集群的國產化成必然趨勢。DeepSeek 在算法層面打破了 OpenAI 對中國的壟斷和領先,但底層算力上中美仍有較大差距。中美 AGI 之間的競爭,與其說是模型之間的競爭,不如說是 AI Infra 之間的競爭。DeepSeek 出圈后,陳文光就產生了一個想法:
下一個中美科技戰的里程碑,應該是用國產的芯片訓練出國際一流的高水平大模型。
翟季冬成立清程極智,為大規模集群開發系統優化軟件,主要做兩件事:
一是并行處理——用一張卡跑大模型訓練是“串行”,100 張卡則要做“并行”,理想情況是 100 張卡的訓練速度能比一張卡快 100 倍,但囿于卡與卡之間的通信等原因幾乎不可能。一般的團隊只能實現二三十倍,他們希望做到快七八十倍、甚至九十倍。
二則是編譯軟件開發——將上層的大模型編譯到國產卡中。好的編譯軟件能大幅提升芯片的計算性能、節省硬件投入。大模型的訓練集群硬件投入成本往往超十億元,優化后即使節省 1/3 乃至 1/4 的成本也是一筆大數目。
翟季冬很早就決定,除了英偉達,也要深度支持華為、沐曦、海光、燧原、寒武紀等十幾家國產芯片。
一方面,美國對中國市場禁售后,拿到最新的芯片難度更高,比如英偉達的 GB200 NVL72 就是一個超節點,如果能獲得就可以開展更多推理的優化,否則就要關注國產卡;但另一方面,國產芯片也面臨軟件生態不完善的挑戰,導致大模型在國產卡上跑起來需要開發更多軟件。
圍繞國產算力將中間層的軟件開發好、將底層算力釋放出來是他們的目標,但“如果本身算力不強,還釋放不出來,那挑戰就更大。”翟季冬告訴雷峰網。
國內目前專注 AI 系統編譯的團隊不多,現任清華高性能所助理研究員的王豪杰是其中之一。
王豪杰碩士師從陳文光,博士受翟季冬指導,2021 年博士畢業后開始從純編譯轉向 AI 系統研究,主要關注國產芯片生態——英偉達芯片禁售后,如何通過編譯在國產卡上將中間的答案寫得像在英偉達上一樣好,是一個突出的挑戰。
王豪杰
從編譯角度看,每換一款新的芯片,涉及到的底層基礎建設和編程接口都會有差異,所以如果決定支持一款新的芯片,軟件架構上的調整要使上層所有優化不因新的芯片而崩潰。而在國產卡上,大量原先能在英偉達上跑的編程接口都無法使用,這就需要在工程實現上做大量的工作。
“針對每款芯片都寫一個系統肯定不現實,理想情況是將 10 款芯片統一起來做通用優化。”王豪杰解釋。系統越通用,性能優化空間就會越小。底層芯片的集合帶出了一個新的編程范式,也帶來更大的挑戰。
這個過程中有許多因素是他們所無法控制。以大規模集群國產化替代為例,底層工藝水平與上層生態環境的挑戰是芯片廠商也要花時間彌平的差距。
以英偉達為例。所有的新技術推出后都先適配英偉達的 H100,即使 DeepSeek 開源的許多技術也是基于 H800、A800 展開,將相關內容遷移到國產芯片上至少需要數月的時間。但好在,HPC 的研究也往往以 2、3 年為一個時間單位,耐心與完美主義幾乎是從事這行必備的兩個要求。
“因為到最后大家拼的都是剩余的 5%-10% 空間優化。”
相比算法,系統是一個更冷門、也更需要個人具備技術英雄主義情懷的領域——系統軟件的編寫要求超強的代碼能力,有時甚至需要涉及古早的匯編語言,系統人才兼備十八般武藝、其中大多還都是計算機系的學生最敬而遠之的幾門學科。
也因此,這個領域也是少數能夠容得下孤膽英雄的技術世界之一,少數高水平的人就能開發出極有影響力的系統。 雷峰網
比如清華高性能所去 DeepSeek 的兩位學生中,一位曾單槍匹馬寫了 MadFS 中的大部分代碼、并曾用 Rust 語言迅速復現谷歌基于 Dart 語言開發的操作系統 Fushisia,還有一位在國內某大廠訓練大模型時一個人戰斗力頂七個人。
值得注意的是,到目前為止,國內許多高校在設立學科時依然沒有成立系統方向。
隨著科學計算在各個領域的廣泛應用,建設校級高性能計算公共服務平臺幾乎是各高校深入計算科學研究的前提。 雷峰網
2005 年,清華信息國家實驗室成立了清華高性能計算公共服務平臺,作為清華基礎科研條件建設的重要內容。高性能所承擔了主要的平臺建設工作,張武生、林皎是兩大主力,張武生負責平臺的系統級研發工作,林皎負責平臺的技術支持和用戶服務。
其中,張武生開發了一套可支持通用和國產自主可控算力平臺的可定制集群操作系統和操作系統沙箱服務一體機,重點應對 AI 算力平臺的異構性、動態變化、負荷大等特征帶來的挑戰。
林皎從“穩定的系統環境+豐富的軟件資源+優質的技術服務”對平臺進行管理,研發了“集群自動檢測與修復系統“、”集群節能系統”等成果,并完善系統環境、培養 HPC 應用人才,使平臺高效運營。
2005 年至今,清華高性能計算平臺建設了“探索3號”、“探索100”、“探索200”、“探索1000”幾代超級計算系統,向校內外 46 個院系單位、312 個課題組提供高性能計算服務,用戶發表 SCI 論文1231篇(其中 CNS 論文 51 篇)。
2024年,平臺完成了“開拓1000”智算系統建設,有力推動了清華人工智能及其相關學科領域的發展。
由于技術與人才培養的杰出貢獻,清華高性能所多次獲得集體榮譽,尤其是在前任支部書記趙穎的帶領下獲評全國黨建工作樣板支部,是清華大學第一個成功創建國家級樣板的教師黨支部。
針對國產芯片崛起加劇智能計算生態碎片化的現狀,清華高性能所也作了與時俱進的探索,智能基礎軟件棧就是最新的嘗試。 雷峰網
智能基礎軟件棧的目標是整合高性能所以及典型開源的成果,方便包括大模型在內的智能計算業務的開展,目前已取得初步成果:開發出了九源智能基礎軟件棧,并完成了與國產基礎硬件(飛騰、鯤鵬處理器以及昇騰、寒武紀、昆侖芯等加速芯片)和軟件(麒麟、歐拉等操作系統)的適配。
除了構建底層統一智能計算架構、使同一程序運行在多個硬件上成為可能,九源智能基礎軟件棧還提供了面向模型智能的高效訓推平臺和智能編譯優化系統,面向數據智能的大數據智能分析系統、高性能緩存存儲系統、分布式圖數據庫,不僅能可以滿足模型的訓推需求、支撐檢索增強生成(RAG)等大模型應用場景。
30 年過去,鄭緯民現已退休,但依然每天到實驗室工作、且幾乎每天最早到。他向雷峰網感慨,相比過往的研究成果,他最大的成就其實是“培養了一群優秀的年輕人”。
這個方向已是萬丈高樓,但只要計算機存在,只要芯片、應用仍不斷發展,人們就要解決一個問題,就是如何讓代碼在計算機上跑得更快,高性能計算技術就能被派上用場。所以,這注定是一條求新的漫漫長路,需要一個人獨行,也需要一群人并肩。
也以此文致敬金蘭、鄭衍衡、王鼎興、沈美明、蘇伯珙、謝樹煜、湯志忠和溫冬嬋等教授。
應用沒有終點,計算也沒有終點。
(朱可軒、洪雨欣對本文亦有貢獻)
不確定的時代更需要樂觀的技術理想主義者,更多大模型、AI、具身智能的精彩故事,歡迎添加作者微信 Fiona190913 交流。
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。