首頁 分類 排行榜 閱讀記錄 我的書架

第237章 商湯大裝置算電協同:給智算中心裝“智慧能源大腦”

2026-02-22 作者:巴蜀魔幻俠

商湯在第二十屆中國IDC產業年度大典上分享的算電協同實踐,說白了就是給智算中心這個“AI算力工廠”解決了用電的大難題——現在跑大模型的智算中心就是個巨型“電老虎”,不僅耗電多、電費貴,還經常因為電力供應不穩導致算力任務中斷。商湯靠一套“能源大模型+智慧儲能系統”的組合拳,讓算力和電力精準配合,實現了“算隨電用、電隨算動”,既降了成本,又保了穩定,還貼合了“雙碳”目標,下面就用最接地氣的話把這事拆明白。

一、為啥智算中心非得搞“算電協同”?—— 電力已經成了AI發展的“卡脖子”難題

現在AI大模型越做越大,訓練一個千億引數的模型,需要成千上萬的伺服器連軸轉,這些伺服器堆在一起的智算中心,就是個實打實的“電老虎”。但行業裡一直有兩個繞不開的用電痛點,不解決的話,AI算力想發展根本無從談起。

1. 資料“各玩各的”,電力浪費嚴重

智算中心裡有三類關鍵資料:一是AI訓練任務的資料,比如今天要跑影片生成模型、明天要做資料分析;二是伺服器叢集的負載資料,比如現在有多少伺服器在幹活、負載有多高;三是電力排程的資料,比如電網甚麼時候電價便宜、甚麼時候綠電(風電、光伏)多、電網能提供多少電力。

但現在這三類資料就像三個互不搭理的“部門”,電力系統不知道智算中心接下來要幹啥、需要多少電,智算中心也不知道電網的電力情況,只能“瞎用電”。比如電網深夜電價低、綠電充足時,智算中心的算力任務可能正處於低谷,白白浪費了便宜電;而白天電網用電高峰、電價高時,智算中心又剛好要跑大模型,需要大量電力,不僅電費飆升,還可能因為電網供電不足導致任務中斷。這種資料孤島,讓智算中心的電力使用效率大打折扣,錢花了不少,還沒辦好事。

2. 電力波動太坑,算力穩定沒保障

大模型訓練和推理時,算力負載就像坐過山車,可能上一秒還很平穩,下一秒因為要處理海量資料,負載突然飆升,瞬間需要巨量電力。電網的供電能力是相對固定的,根本跟不上這種“尖峰需求”,很容易導致伺服器電壓不穩甚至宕機,辛苦跑了幾天的大模型訓練任務可能直接歸零,損失難以估量。

反過來,當算力任務進入低谷,伺服器負載驟降,智算中心的電力需求也跟著減少,這時候電網的電力又沒處用,造成資源閒置。而且現在國家在推“雙碳”目標,智算中心作為高耗能場所,要是不能降低能耗、減少碳排放,後續發展也會受政策限制。

3. 全球都在搶賽道,這是國家層面的戰略佈局

不只是國內有這問題,全球科技強國都在盯著“算力-能源”一體化的佈局。比如美國的大資料企業Palantir推出了“Chain Reaction”平臺,把它定位成“美國人工智慧基礎設施的作業系統”,核心就是把算力排程、電力預測和晶片管理揉到一起,打造國家級的AI基礎設施。商湯搞算電協同,不只是為了解決自己智算中心的運營問題,更是在國家戰略層面,補齊我國AI基礎設施的能源短板,避免在全球AI競爭中落後。

二、商湯怎麼破解難題?—— 兩大核心抓手,讓算力和電力“心有靈犀”

商湯沒有簡單地給智算中心裝個電錶或者買個充電寶,而是從底層邏輯入手,打造了“能源大模型+智慧儲能系統”的閉環,讓算力和電力能雙向適配,真正實現“算隨電用、電隨算動”。

1. 能源大模型:智算中心的“電力預言家+總排程”

商湯自研的能源大模型,就像給智算中心裝了個超級聰明的大腦,既能精準預測未來的電力需求,又能實時指揮電力怎麼用,核心靠三個獨門絕技。

(1)把所有資料串起來,實現“任務-算力-功耗”精準對應

以前智算中心的任務、算力、功耗資料是割裂的,現在商湯透過獨創的“能量塊”資料模型和“算電功耗模型”,把這些資料全打通了。比如跑一個千億引數的多模態大模型,能源大模型能精準算出需要啟動多少臺伺服器、每臺伺服器每小時耗多少電、整個算力叢集的總功耗是多少,甚至能對應到配電系統的每一條線路。

簡單說,只要輸入一個算力任務,能源大模型就能立刻算出“要花多少電”,就像你點能精準算出配送時間和費用一樣,再也不用“盲猜”電力需求了。

(2)“能量塊”加持,複雜場景也能精準預測

為了讓預測更準,商湯把能源本身的資料(比如風電、光伏的發電效率)、使用者的用能習慣(比如智算中心甚麼時候跑大任務)、能源平衡規則(比如電網的供電限制),和算力伺服器的資訊綁在一起,做成一個個“能量塊”,作為分析的基礎單元。

就像玩積木時,用不同的積木塊能拼出不同造型,這些“能量塊”能根據實際情況組合分析,再結合多輪訓練最佳化的演算法,哪怕遇到極端天氣(比如陰天光伏發電少)、算力任務臨時調整等複雜場景,能源大模型也能精準預測未來的能源需求。目前這個模型的能源需求預測準確率已經超過88%,決策準確率超93%,未來還能達到90%-95%的行業頂尖水平。

(3)高頻次動態排程,讓電力使用“利益最大化”

能源大模型不是一天只預測一次,而是每15分鐘更新一次電力需求預測,每5分鐘調整一次排程策略,相當於每分鐘都在“精打細算”怎麼用電。

它會綜合考慮各種因素:比如電網的實時電價(低谷電便宜就多用電)、綠電比例(綠電多就優先用,貼合雙碳)、儲能系統的電量(儲能滿了就少充,儲能空了就補)、電網的供電要求(電網高峰就少用點),然後自動生成最優的排程策略。比如電網深夜電價低、綠電足,就安排跑算力密集型任務;白天電網高峰,就把非緊急任務暫停,用儲能系統的電支撐基礎算力,真正讓智算中心從“只能被動用電的剛性負荷”,變成“能靈活調節的電力資源”。

2. 聯合寧德時代做智慧儲能:智算中心的“超級充電寶”

光有預測和排程還不夠,得有實際的電力儲備來應對算力負載的突然波動,商湯找了寧德時代合作,打造了一個規模達的儲能系統,相當於給智算中心裝了個超大號的“充電寶”,而且還是帶智慧大腦的。

(1)毫秒級響應,解決電力“瞬時缺口”

這個儲能系統最厲害的地方是響應速度快,能在毫秒級內釋放電力。比如智算中心的萬卡級伺服器叢集突然啟動,算力負載瞬間飆升,電網供電跟不上時,儲能系統能立刻補上電,就像汽車爬坡時渦輪增壓突然發力,保證伺服器不會因為電力不足宕機,大模型訓練任務也能順利進行。

(2)分季節調模式,安全和效率兩手抓

這個儲能系統不是一成不變地充放電,而是會根據季節調整策略。在冬春秋季,智算中心的PUE(能耗效率指標,數值越低越節能)比較低,能耗壓力小,就用傳統的兩充兩放模式,簡單又高效;到了夏季,氣溫高導致PUE升高、電力冗餘少,就切換成能源大模型驅動的智慧排程模式,精準控制充放電節奏,確保系統在安全紅線內執行,不會因為過熱出問題。

(3)還能參與電力交易,賺額外收益

這個儲能系統不只是個“備胎”,還能幫智算中心賺錢。它可以參與電網的削峰填谷:電網用電高峰時,把儲存的電賣給電網,賺差價;電網低谷時,再低價買電存起來,降低用電成本。同時還能參與電力市場交易,根據市場價格調整充放電策略,讓智算中心從“用電方”變成“電力市場參與者”,多了一筆額外收入。

三、實際效果咋樣?—— 上海臨港AIDC成“樣板間”,省錢又環保

商湯把這套算電協同方案落地在了上海臨港的智算中心,這也是全國首個5A級智算中心,實際運營效果特別亮眼,成了行業裡的綠色智算中心“樣板間”。

1. 能耗大幅降低:整體PUE降到了,比最初的設計值還低3%。PUE這個數越低,說明智算中心的能源利用效率越高,的水平在行業裡已經屬於頂尖了,全年還節電超過1000萬度,相當於少燒了幾千噸煤。

2. 電費成本大減:年化電費成本節約了7%,對於動輒一年上億電費的智算中心來說,這可是一筆不小的開支,直接降低了AI算力的運營成本。

3. 碳排放顯著減少:一年下來碳減排3000噸,實實在在地響應了國家的“雙碳”目標,讓AI發展不再以高汙染為代價。

4. 獲得行業認可:這個智算中心還拿到了“2025年度中國IDC產業算電協同先鋒獎”,證明商湯的這套方案已經得到了行業的認可,具備複製推廣的價值。

四、這佈局對整個AI產業有啥意義?

商湯的算電協同實踐,不只是解決了自己智算中心的用電問題,更給整個AI產業帶來了深遠的影響。

首先,降低了全行業的算力運營成本。智算中心是AI產業的基礎設施,電費是其最大的運營成本之一。商湯的方案能讓智算中心的電力使用效率大幅提升,電費成本下降,整個AI產業的算力成本都會跟著降低,中小企業也能更輕鬆地用上高階AI算力。

其次,推動了AI產業的綠色發展。透過綠電利用、儲能最佳化和能耗降低,讓AI技術的發展和環境保護實現了雙贏,避免AI成為新的高汙染產業,符合未來產業發展的趨勢。

最後,鞏固了我國AI基礎設施的優勢。在全球都在佈局“算力-能源”一體化的背景下,商湯提前掌握了核心技術,打造了可複製的算電協同正規化,讓我國的AI基礎設施更自主、更高效,在全球AI競爭中佔據了有利位置。

未來,隨著能源大模型和儲能系統的不斷最佳化,商湯的這套方案還會在更多智算中心落地,讓AI算力真正實現“高效、穩定、綠色”的發展,為整個AI產業的進步提供堅實的支撐。

A−
A+
護眼
目錄