通信界訊 近日,中國工程院院士鄭緯民在2023世界5G大會上表示,國產超算完全可以支持大模型訓練。
鄭緯民介紹道,目前支持大模型訓練的主要有三種算力系統,一是基于英偉達公司的GPU系統,二是基于國產AI芯片的系統,三是基于超級計算機的系統。英偉達GPU系統的優點是硬件性能好,生態也比較完善,但中美博弈加上產品價格高,給國產AI芯片帶來了難得的發展機遇,目前國內已經有30多家公司推出了國產芯片,“但用戶不太喜歡用,核心問題就是生態不好。”
而不依賴國外芯片技術改變國產大模型生態系統發展局面,編程框架、并行加速、通信庫、算子庫、AI編譯器、編程語言、調度器、內存分配系統、容錯系統、存儲系統這十大關鍵軟件技術值得重點投入。
“如果國產AI芯片硬件性能達到國外芯片的60%,大多數用戶也是可以滿意的,因為硬件再好這十個軟件做不好,也沒有市場。”鄭緯民說道,一定要把這十個軟件做好,改變國產系統的生態。“如果把這些問題解決好,國產AI卡也會大受歡迎。希望國內廣大用戶盡可能采用國產AI芯片,以用促建,以用促研,不斷的給予正向反饋。”
目前,我國超算水平已經處于國際第一梯隊,有14個國家一級超算中心,另外還有不少由地方和行業建設運營的超算中心。這些超算中心在科學計算上做得很不錯,發揮了很大的作用,但是部分超算中心的算力利用率并不飽和,完全也可以用這些機器來做大模型訓練,但需要從源頭做好軟硬件協同設計。
“硬件發展很快,過去一臺機器,基本是CPU+內存+硬盤就可以,但是現在計算部件不只是簡單的CPU,還有很多新的器件出現;軟件方面,不論是人工智能應用軟件,還是基于圖數據的圖計算應用,以及大數據應用,軟件已和過去不一樣,如何將軟件和硬件更好協同起來非常重要。”