首頁 分類 排行榜 閱讀記錄 我的書架

第243章 商湯x記憶張量:國產算力逆襲A100的關鍵一戰

2026-02-22 作者:巴蜀魔幻俠

最近商湯大裝置和記憶張量聯手搞出了個大動靜——落地了業界首個國產GPGPU PD分離商用推理叢集,最亮眼的成績是:在大模型推理這個關鍵賽道上,綜合推理價效比直接幹到了同代NVIDIA A100的150%。

這話乍一聽有點抽象,說白了就是:用國產的晶片和軟體,跑大模型推理業務,花同樣的錢能跑出1.5倍的效果,或者說跑出同樣的效果,只需要花三分之二的錢。更關鍵的是,這不是靠堆硬體、拼引數的“笨辦法”,而是靠體系級的軟硬體協同創新,給國產算力闖出了一條“彎道超車”的路子,不是跟在別人屁股後面模仿。

下面咱們用大白話把這件事的來龍去脈、核心門道和行業意義掰扯清楚,讓大家明白這波操作到底牛在哪。

一、先搞懂:大模型推理為啥這麼難?PD分離又是啥?

要理解這個合作的價值,得先明白大模型推理的核心痛點。咱們平時用ChatGPT、文心一言這類大模型,看似只是發個指令等回覆,背後的計算過程其實分兩大步,這兩步的需求天差地別,也是卡住很多算力的“瓶頸”。

第一步叫Prefill(預處理)。當你輸入一個問題,比如“幫我寫一篇關於古蜀文明的短文”,大模型要先把這段文字轉換成機器能看懂的向量,然後一次性計算出大量的中間結果,也就是KV快取。這個過程的特點是計算量大、可以批次處理,就像工廠裡的流水線批次生產零件,需要算力集中發力,但對延遲要求不高——稍微等個幾十毫秒,使用者根本感覺不到。

第二步叫Decode(解碼)。大模型拿到KV快取後,要逐字逐句生成回覆,也就是“逐token生成”。比如先出“古蜀文明”,再出“是中國西南地區一支極具特色的古代文明”,每生成一個詞,都要用到前面的KV快取。這個過程的特點是計算量小,但對延遲要求極高——要是生成一句話卡個一兩秒,使用者體驗直接拉胯,而且這個過程沒法批次,只能“序列幹活”。

這兩步本來是在同一批硬體上完成的,問題就出在這:Prefill階段需要“暴力計算”,會佔滿硬體的算力和視訊記憶體;等輪到Decode階段,硬體又閒著大半,算力利用率直接暴跌。尤其是國產GPGPU,本身在視訊記憶體容量、生態適配方面和國際頂尖產品有差距,這麼一折騰,劣勢更明顯——跑同樣的任務,成本高、速度慢,根本沒法商業化。

那PD分離是啥?說白了就是“分工合作”——把Prefill和Decode這兩個階段,拆到不同的硬體叢集上分別處理。負責Prefill的叢集專門幹“批次重活”,把KV快取算好;負責Decode的叢集專門幹“精細快活”,用現成的KV快取快速生成回覆。這樣一來,硬體不用在兩種模式間來回切換,利用率能提一大截。

但這裡要劃重點:單純的硬體PD分離,解決不了根本問題。很多廠商之前也試過,結果發現只是把“一個瓶頸”變成了“兩個瓶頸”——Prefill叢集算完的KV快取,要傳到Decode叢集,傳輸過程會產生延遲;而且KV快取本身佔視訊記憶體,就算分開處理,視訊記憶體不夠用的問題還是沒解決,價效比提升非常有限。

二、核心突破:不是改硬體,是重構整個推理正規化

商湯和記憶張量的聰明之處在於,他們沒有侷限在“硬體層面拆分工序”,而是把PD分離技術,和記憶張量的核心產品MemOS的啟用記憶體系深度綁在了一起,相當於從“流水線分工”升級到了“全產業鏈協同”,直接重構了大模型推理的底層邏輯。

咱們來拆解這個“協同創新”的關鍵操作,其實就兩件核心事,件件都戳中痛點:

1. MemOS的啟用記憶體系:讓KV快取“活起來”,省下大量視訊記憶體

前面說過,KV快取是大模型推理的“剛需”,但它特別佔視訊記憶體——一個千億引數的大模型,一次推理產生的KV快取,就能吃掉好幾GB的視訊記憶體。傳統模式下,這些快取用過一次就扔,下次再推理,又要重新計算,既費算力又費視訊記憶體。

而MemOS的啟用記憶體系,說白了就是給KV快取搞了個“智慧管理系統”。它能做到兩件事:

- 快取複用:把高頻出現的KV快取(比如使用者經常問的“大模型是甚麼”這類通用問題的快取)存起來,下次再有使用者問類似問題,直接呼叫現成的快取,不用重新計算。這就像餐廳裡的預製菜,不用每次都從零開始炒菜,節省大量時間和燃氣。

- 動態壓縮:對不常用的KV快取,進行無失真壓縮,把視訊記憶體佔用率降下來。比如原本佔10GB的快取,壓縮後只佔5GB,省下的視訊記憶體就能用來跑更多的推理任務,相當於一臺機器當成兩臺用。

更關鍵的是,MemOS的這套體系不是孤立執行的,它和PD分離的硬體叢集深度聯動:Prefill叢集算出來的KV快取,會直接傳到MemOS的“記憶庫”裡,由MemOS統一排程,再分發給Decode叢集使用。這樣一來,不僅解決了KV快取的傳輸延遲問題,還從根源上減少了視訊記憶體佔用——這才是真正的“降本增效”。

2. 商湯大裝置:給國產GPGPU“量身定製”排程方案

有了好的軟體,還得有好的排程,讓硬體的潛力發揮到極致。這就是商湯大裝置的核心作用。

商湯在AI大模型領域摸爬滾打多年,最懂大模型推理的“脾氣”。他們針對國產GPGPU的特性——比如視訊記憶體頻寬、算力架構和國際晶片不一樣——做了三件關鍵最佳化:

- 批次排程最佳化:讓Prefill叢集“吃飽喝足”,把多個使用者的推理請求打包成批次任務,最大化利用算力,避免資源閒置。比如原本一次只能算10個使用者的請求,最佳化後能算20個,效率直接翻倍。

- Decode低延遲排程:給Decode叢集設計了“優先順序排程”機制,確保使用者的請求能被快速響應。比如把實時對話類的請求排在前面,避免出現“使用者等半天”的情況,兼顧了吞吐率和延遲。

- 硬體適配調優:針對國產GPGPU的底層架構,修改推理框架的程式碼,解決了很多“相容性問題”。比如有些國產晶片跑大模型時會出現“算力浪費”,商湯透過最佳化運算元,讓硬體的算力利用率提升了30%以上。

簡單來說,記憶張量的MemOS解決了“快取怎麼存、怎麼用”的問題,商湯大裝置解決了“硬體怎麼排程、怎麼算得快”的問題,兩者結合,不是1+1=2,而是1+1=3。

三、實測成果:150%價效比,到底意味著甚麼?

說了這麼多技術,最終還是要看實打實的結果——綜合推理價效比達到同代NVIDIA A100的150%。這個數字不是實驗室裡的“理論值”,而是商用叢集跑出來的“實戰值”,含金量極高。

咱們先解釋一下“綜合推理價效比”:它不是單看速度,也不是單看成本,而是**(推理速度×推理規模)÷(硬體成本+運維成本)**。比值越高,說明同樣的投入,能獲得的產出越多。

150%的價效比,意味著兩種實際應用場景:

- 場景一:成本相同。用國產GPGPU叢集,花和A100叢集一樣的錢,能跑出1.5倍的推理量。比如A100叢集一天能處理100萬次使用者請求,國產叢集能處理150萬次,直接提升50%的業務量。

- 場景二:推理量相同。要處理100萬次使用者請求,國產叢集的成本只有A100叢集的三分之二。比如A100叢集要花100萬元,國產叢集只需要花67萬元,成本直接降了三分之一。

這對大模型商業化來說,簡直是“救命級”的突破。現在很多大模型公司都卡在“推理成本太高”的問題上——跑一次推理就要燒不少錢,根本沒法大規模推廣。而商湯和記憶張量的這套方案,直接把成本壓了下來,讓國產大模型在商用市場上有了競爭力。

更重要的是,這個叢集已經實現了商用落地,不是停留在實驗室的樣品。這意味著方案的穩定性、可靠性都經過了市場檢驗,其他企業可以直接借鑑、部署,不用再從零開始摸索。

四、行業意義:不止反超A100,更是國產算力的“正規化革命”

這件事的意義,遠不止“價效比超過A100”這麼簡單,它給國產算力的發展指明瞭一條全新的道路——不是靠硬體引數對標,而是靠體系級創新實現彎道超車。

1. 打破“跟隨者”定位,走出差異化路線

過去,很多國產算力廠商的思路是“對標”——英偉達出A100,我就做一個引數差不多的晶片;英偉達出H100,我就跟著做H100的對標產品。但這種思路永遠只能跟在別人後面,而且很容易陷入“引數內卷”,成本下不來,生態也跟不上。

而商湯和記憶張量的方案證明:不用在硬體引數上硬碰硬,透過軟體和硬體的協同創新,照樣能在關鍵場景實現反超。國產算力的優勢不在於“複製別人的路”,而在於“走出自己的路”——針對中國市場的商用場景,做體系級最佳化,形成差異化競爭力。

2. 重構大模型推理的成本曲線,加速商業化落地

大模型的發展,分為“訓練”和“推理”兩個階段。訓練階段是一次性投入,而推理階段是長期、持續的成本——使用者每用一次,就要消耗一次算力。可以說,推理成本決定了大模型的商業化天花板。

這次方案把推理價效比提升50%,直接把這個天花板拉高了一大截。對大模型公司來說,成本降下來,就能把更多的錢投入到模型最佳化、場景拓展上;對中小企業來說,以前用不起大模型推理服務,現在成本降低了,就能用得起,推動大模型在千行百業的應用。

3. 推動國產算力生態的正向迴圈

一個算力生態的成熟,需要“硬體—軟體—應用”三者的良性互動。以前,國產硬體因為生態不好,沒人願意做軟體適配;軟體適配少,應用就少,硬體也賣不出去,陷入惡性迴圈。

而商湯和記憶張量的合作,打破了這個迴圈:他們用國產硬體做基底,用自主軟體做最佳化,跑通了商用場景,證明了國產算力的價值。這會吸引更多的軟體廠商來做適配,更多的應用廠商來用國產算力,形成“硬體賣得好—軟體適配多—應用場景廣”的正向迴圈,加速國產算力生態的成熟。

五、總結:這波操作,給國產算力打了一劑強心針

商湯大裝置和記憶張量的這次合作,不是一次簡單的“技術突破”,而是一次正規化革命。它告訴我們:國產算力要想趕超國際頂尖水平,靠的不是“堆引數”“拼硬體”,而是“體系級創新”——把硬體、軟體、排程、應用擰成一股繩,在關鍵場景上形成自己的優勢。

150%的價效比,只是一個開始。隨著更多國產GPGPU的推出,隨著MemOS這類軟體的持續最佳化,隨著商湯大裝置的排程能力不斷升級,國產算力在大模型推理、訓練等更多場景實現反超,只是時間問題。

更重要的是,這次突破給整個行業帶來了信心——國產算力不是“陪跑者”,而是“領跑者”的有力競爭者。在AI這個賽道上,中國企業完全有能力走出一條自主可控、差異化發展的道路。

A−
A+
護眼
目錄