智算中心作為AI時代必備的算力基礎(chǔ)設(shè)施,正承載著AI繁榮發(fā)展的數(shù)據(jù)運算需求。在智算中心建設(shè)如火如荼之際,如何提升智算中心利用率,成為亟待解決的問題。
智算中心利用率待提升
智算中心通過算力生產(chǎn)、聚合、調(diào)度和釋放,面向政府、企業(yè)、高校和科研機構(gòu)等提供普惠公共算力服務(wù)。智算中心在建設(shè)和運營過程中,面臨算力使用率不高、算力結(jié)構(gòu)不合理、應(yīng)用生態(tài)不完善、運營模式不成熟等諸多問題。其中,算力使用率不高是智算中心面臨的主要問題之一。
浪潮信息AI和HPC產(chǎn)品線總經(jīng)理劉軍表示,智算中心建設(shè)初期,由于應(yīng)用生態(tài)不完善,算力規(guī)模與用戶需求不匹配,導(dǎo)致算力空閑率較高。據(jù)浪潮人工智能研究院測算,我國智算中心平均算力使用率為30%左右,遠低于大型數(shù)據(jù)中心的50%~60%的水平。
影響算力利用率的五大因素
算力利用率涉及軟硬件、網(wǎng)絡(luò)、訓(xùn)練策略及算力調(diào)度等多個層面。根據(jù)中國信通院發(fā)布的《智算基礎(chǔ)設(shè)施發(fā)展研究報告(2024年)》,影響算力利用率的關(guān)鍵因素包括芯片存儲量、算力損耗、“通信墻”即多卡互聯(lián)與多機互聯(lián)時面臨的通信瓶頸等。

硬件配置方面,使用高性能計算節(jié)點,如專業(yè)的AI芯片或高端GPU,以確保單節(jié)點的計算能力最大化。同時,根據(jù)AI訓(xùn)推任務(wù)的需求,合理配置服務(wù)器的內(nèi)存、存儲和I/O性能。英偉達中國區(qū)技術(shù)總監(jiān)表示,“GPU的算力利用率受到內(nèi)存帶寬和訪存效率的影響。通過引入高帶寬內(nèi)存(HBM)和優(yōu)化內(nèi)存訪問模式,可以顯著提升GPU的計算效率。”
軟件與算法方面,AI訓(xùn)練需匹配更高效的深度學(xué)習(xí)框架,另外,還要對算法進行并行化處理,以充分利用多核處理器及多GPU優(yōu)勢。華為相關(guān)人員表示,“當(dāng)前算力利用率不足的問題,很大程度上源于軟件層面的瓶頸。通過優(yōu)化編譯器、運行時的環(huán)境,以及算法本身,可以顯著提高算力資源的使用效率。”
網(wǎng)絡(luò)性能方面,在構(gòu)建高性能計算集群時,選擇合適的網(wǎng)絡(luò)架構(gòu)至關(guān)重要。有數(shù)據(jù)表明,網(wǎng)絡(luò)的丟包率達到1%時,智算中心集群中的GPU利用率就會在原有基礎(chǔ)之上下降 50%。目前一些智算集群就采用了高效的InfiniBand、RoCE網(wǎng)絡(luò),以充分滿足AI大規(guī)模并行計算要求。阿里巴巴達摩院相關(guān)負(fù)責(zé)人表示, “在大規(guī)模分布式計算中,通信延遲是一個重要的瓶頸。基于RDMA的高速互聯(lián)技術(shù),以減少節(jié)點間的通信開銷,從而提升整體算力利用率。”
在AI訓(xùn)練策略上,采用數(shù)據(jù)、模型或流水線并行等分布式訓(xùn)練方式,并采用更高效的資源管理與調(diào)度器,利用緩存機制及訓(xùn)前預(yù)熱策略,通過調(diào)整及優(yōu)化超參數(shù)等措施,也可以顯著提升算力集群的性能和效率。微軟亞洲研究院研究員表示,“模型訓(xùn)練過程中的算力利用率往往受到數(shù)據(jù)預(yù)處理和批量大小的影響。通過合理的數(shù)據(jù)預(yù)處理和動態(tài)調(diào)整批量大小,可以有效提高模型訓(xùn)練的效率。”
算力調(diào)度也是影響算力利用率的因素。騰訊云副總裁劉杉表示,提高算力利用率的關(guān)鍵在于精細化的資源管理。智能調(diào)度系統(tǒng),可以根據(jù)任務(wù)特性和實時負(fù)載情況,動態(tài)調(diào)整資源分配,確保每個任務(wù)都能獲得最佳的執(zhí)行環(huán)境。” 清華大學(xué)計算機系教授陳文光表示,在大規(guī)模并行計算中,任務(wù)調(diào)度和負(fù)載均衡是非常重要的。
四大舉措提升算力利用率
針對智算中心利用率不高的問題,業(yè)界專家建議從算力多元化、算力調(diào)度、應(yīng)用生態(tài)、運營模式四個方面入手,提升智算中心利用率。
一是推動算力多元化,滿足不同場景需求。智算中心應(yīng)提供多元化的算力,滿足不同行業(yè)、不同應(yīng)用場景的需求。例如,針對圖像處理、語音識別等場景,智算中心應(yīng)提供高性能的GPU算力;針對自然語言處理、推薦系統(tǒng)等場景,智算中心應(yīng)提供高效的CPU算力;針對自動駕駛、智能制造等場景,智算中心應(yīng)提供高可靠的FPGA算力。
二是加強算力調(diào)度,實現(xiàn)算力資源高效利用。算力多元化要求智算中心具備異構(gòu)算力融合能力。算力調(diào)度是算力資源效率最大化的路徑。算力調(diào)度需要解決算力資源異構(gòu)性、算力需求動態(tài)性、算力資源分布性等挑戰(zhàn)。算力調(diào)度將算力資源在不同用戶、不同應(yīng)用、不同時間進行動態(tài)分配和優(yōu)化,以提高算力資源利用率和降低算力成本。目前,地方政府、科研機構(gòu)、算力企業(yè)等多方主體積極布局算力調(diào)度領(lǐng)域。據(jù)不完全統(tǒng)計,目前國內(nèi)在建和已經(jīng)建設(shè)的算力調(diào)度平臺超過20個。

從算力多元化、算力調(diào)度、應(yīng)用生態(tài)、運營模式四個方面入手,提升智算中心利用率。
三是完善應(yīng)用生態(tài),促進算力與數(shù)據(jù)、算法協(xié)同。應(yīng)用生態(tài)是指基于智算中心提供的算力資源,構(gòu)建面向不同行業(yè)、不同應(yīng)用場景的算法模型和應(yīng)用軟件。完善的應(yīng)用生態(tài)可以吸引更多用戶使用智算中心提供的算力資源,從而提高算力利用率。
完善應(yīng)用生態(tài)需要政府、企業(yè)、高校和科研機構(gòu)等多方共同努力。政府應(yīng)加強政策引導(dǎo),鼓勵企業(yè)、高校和科研機構(gòu)基于智算中心開展算法模型和應(yīng)用軟件研發(fā);企業(yè)應(yīng)加強與高校和科研機構(gòu)的合作,共同推動算法模型和應(yīng)用軟件的研發(fā)和應(yīng)用;高校和科研機構(gòu)應(yīng)加強對人工智能領(lǐng)域人才的培養(yǎng)和引進,為算法模型和應(yīng)用軟件的研發(fā)提供人才支撐。
四是創(chuàng)新運營模式,實現(xiàn)算力資源可持續(xù)運營。智算中心建設(shè)投資大、運營成本高,如何實現(xiàn)算力資源的可持續(xù)運營是智算中心面臨的又一挑戰(zhàn)。創(chuàng)新運營模式,實現(xiàn)算力資源的共享、交易和增值服務(wù),是提高算力利用率、降低運營成本的有效途徑。
創(chuàng)新運營模式需要政府、企業(yè)、用戶等多方共同參與。政府應(yīng)加強政策引導(dǎo),鼓勵企業(yè)開展算力資源共享和交易;企業(yè)應(yīng)加強與用戶的合作,共同探索算力資源的共享、交易和增值服務(wù)模式;用戶應(yīng)積極參與算力資源的共享和交易,降低自身算力成本。