智算中心作為AI時代必備的算力基礎設施,正承載著AI繁榮發展的數據運算需求。在智算中心建設如火如荼之際,如何提升智算中心利用率,成為亟待解決的問題。
智算中心利用率待提升
智算中心通過算力生產、聚合、調度和釋放,面向政府、企業、高校和科研機構等提供普惠公共算力服務。智算中心在建設和運營過程中,面臨算力使用率不高、算力結構不合理、應用生態不完善、運營模式不成熟等諸多問題。其中,算力使用率不高是智算中心面臨的主要問題之一。
浪潮信息AI和HPC產品線總經理劉軍表示,智算中心建設初期,由于應用生態不完善,算力規模與用戶需求不匹配,導致算力空閑率較高。據浪潮人工智能研究院測算,我國智算中心平均算力使用率為30%左右,遠低于大型數據中心的50%~60%的水平。
影響算力利用率的五大因素
算力利用率涉及軟硬件、網絡、訓練策略及算力調度等多個層面。根據中國信通院發布的《智算基礎設施發展研究報告(2024年)》,影響算力利用率的關鍵因素包括芯片存儲量、算力損耗、“通信墻”即多卡互聯與多機互聯時面臨的通信瓶頸等。

硬件配置方面,使用高性能計算節點,如專業的AI芯片或高端GPU,以確保單節點的計算能力最大化。同時,根據AI訓推任務的需求,合理配置服務器的內存、存儲和I/O性能。英偉達中國區技術總監表示,“GPU的算力利用率受到內存帶寬和訪存效率的影響。通過引入高帶寬內存(HBM)和優化內存訪問模式,可以顯著提升GPU的計算效率。”
軟件與算法方面,AI訓練需匹配更高效的深度學習框架,另外,還要對算法進行并行化處理,以充分利用多核處理器及多GPU優勢。華為相關人員表示,“當前算力利用率不足的問題,很大程度上源于軟件層面的瓶頸。通過優化編譯器、運行時的環境,以及算法本身,可以顯著提高算力資源的使用效率。”
網絡性能方面,在構建高性能計算集群時,選擇合適的網絡架構至關重要。有數據表明,網絡的丟包率達到1%時,智算中心集群中的GPU利用率就會在原有基礎之上下降 50%。目前一些智算集群就采用了高效的InfiniBand、RoCE網絡,以充分滿足AI大規模并行計算要求。阿里巴巴達摩院相關負責人表示, “在大規模分布式計算中,通信延遲是一個重要的瓶頸。基于RDMA的高速互聯技術,以減少節點間的通信開銷,從而提升整體算力利用率。”
在AI訓練策略上,采用數據、模型或流水線并行等分布式訓練方式,并采用更高效的資源管理與調度器,利用緩存機制及訓前預熱策略,通過調整及優化超參數等措施,也可以顯著提升算力集群的性能和效率。微軟亞洲研究院研究員表示,“模型訓練過程中的算力利用率往往受到數據預處理和批量大小的影響。通過合理的數據預處理和動態調整批量大小,可以有效提高模型訓練的效率。”
算力調度也是影響算力利用率的因素。騰訊云副總裁劉杉表示,提高算力利用率的關鍵在于精細化的資源管理。智能調度系統,可以根據任務特性和實時負載情況,動態調整資源分配,確保每個任務都能獲得最佳的執行環境。” 清華大學計算機系教授陳文光表示,在大規模并行計算中,任務調度和負載均衡是非常重要的。
四大舉措提升算力利用率
針對智算中心利用率不高的問題,業界專家建議從算力多元化、算力調度、應用生態、運營模式四個方面入手,提升智算中心利用率。
一是推動算力多元化,滿足不同場景需求。智算中心應提供多元化的算力,滿足不同行業、不同應用場景的需求。例如,針對圖像處理、語音識別等場景,智算中心應提供高性能的GPU算力;針對自然語言處理、推薦系統等場景,智算中心應提供高效的CPU算力;針對自動駕駛、智能制造等場景,智算中心應提供高可靠的FPGA算力。
二是加強算力調度,實現算力資源高效利用。算力多元化要求智算中心具備異構算力融合能力。算力調度是算力資源效率最大化的路徑。算力調度需要解決算力資源異構性、算力需求動態性、算力資源分布性等挑戰。算力調度將算力資源在不同用戶、不同應用、不同時間進行動態分配和優化,以提高算力資源利用率和降低算力成本。目前,地方政府、科研機構、算力企業等多方主體積極布局算力調度領域。據不完全統計,目前國內在建和已經建設的算力調度平臺超過20個。

從算力多元化、算力調度、應用生態、運營模式四個方面入手,提升智算中心利用率。
三是完善應用生態,促進算力與數據、算法協同。應用生態是指基于智算中心提供的算力資源,構建面向不同行業、不同應用場景的算法模型和應用軟件。完善的應用生態可以吸引更多用戶使用智算中心提供的算力資源,從而提高算力利用率。
完善應用生態需要政府、企業、高校和科研機構等多方共同努力。政府應加強政策引導,鼓勵企業、高校和科研機構基于智算中心開展算法模型和應用軟件研發;企業應加強與高校和科研機構的合作,共同推動算法模型和應用軟件的研發和應用;高校和科研機構應加強對人工智能領域人才的培養和引進,為算法模型和應用軟件的研發提供人才支撐。
四是創新運營模式,實現算力資源可持續運營。智算中心建設投資大、運營成本高,如何實現算力資源的可持續運營是智算中心面臨的又一挑戰。創新運營模式,實現算力資源的共享、交易和增值服務,是提高算力利用率、降低運營成本的有效途徑。
創新運營模式需要政府、企業、用戶等多方共同參與。政府應加強政策引導,鼓勵企業開展算力資源共享和交易;企業應加強與用戶的合作,共同探索算力資源的共享、交易和增值服務模式;用戶應積極參與算力資源的共享和交易,降低自身算力成本。