第243章商湯x記憶張量：國產算力逆襲A100的關鍵一戰

2026-02-22 作者：巴蜀魔幻俠

最近商湯大裝置和記憶張量聯手搞出了個大動靜——落地了業界首個國產GPGPU PD分離商用推理叢集，最亮眼的成績是：在大模型推理這個關鍵賽道上，綜合推理價效比直接幹到了同代NVIDIA A100的150%。

這話乍一聽有點抽象，說白了就是：用國產的晶片和軟體，跑大模型推理業務，花同樣的錢能跑出1.5倍的效果，或者說跑出同樣的效果，只需要花三分之二的錢。更關鍵的是，這不是靠堆硬體、拼引數的“笨辦法”，而是靠體系級的軟硬體協同創新，給國產算力闖出了一條“彎道超車”的路子，不是跟在別人屁股後面模仿。

下面咱們用大白話把這件事的來龍去脈、核心門道和行業意義掰扯清楚，讓大家明白這波操作到底牛在哪。

一、先搞懂：大模型推理為啥這麼難？PD分離又是啥？

要理解這個合作的價值，得先明白大模型推理的核心痛點。咱們平時用ChatGPT、文心一言這類大模型，看似只是發個指令等回覆，背後的計算過程其實分兩大步，這兩步的需求天差地別，也是卡住很多算力的“瓶頸”。

第一步叫Prefill（預處理）。當你輸入一個問題，比如“幫我寫一篇關於古蜀文明的短文”，大模型要先把這段文字轉換成機器能看懂的向量，然後一次性計算出大量的中間結果，也就是KV快取。這個過程的特點是計算量大、可以批次處理，就像工廠裡的流水線批次生產零件，需要算力集中發力，但對延遲要求不高——稍微等個幾十毫秒，使用者根本感覺不到。

第二步叫Decode（解碼）。大模型拿到KV快取後，要逐字逐句生成回覆，也就是“逐token生成”。比如先出“古蜀文明”，再出“是中國西南地區一支極具特色的古代文明”，每生成一個詞，都要用到前面的KV快取。這個過程的特點是計算量小，但對延遲要求極高——要是生成一句話卡個一兩秒，使用者體驗直接拉胯，而且這個過程沒法批次，只能“序列幹活”。

這兩步本來是在同一批硬體上完成的，問題就出在這：Prefill階段需要“暴力計算”，會佔滿硬體的算力和視訊記憶體；等輪到Decode階段，硬體又閒著大半，算力利用率直接暴跌。尤其是國產GPGPU，本身在視訊記憶體容量、生態適配方面和國際頂尖產品有差距，這麼一折騰，劣勢更明顯——跑同樣的任務，成本高、速度慢，根本沒法商業化。

那PD分離是啥？說白了就是“分工合作”——把Prefill和Decode這兩個階段，拆到不同的硬體叢集上分別處理。負責Prefill的叢集專門幹“批次重活”，把KV快取算好；負責Decode的叢集專門幹“精細快活”，用現成的KV快取快速生成回覆。這樣一來，硬體不用在兩種模式間來回切換，利用率能提一大截。

但這裡要劃重點：單純的硬體PD分離，解決不了根本問題。很多廠商之前也試過，結果發現只是把“一個瓶頸”變成了“兩個瓶頸”——Prefill叢集算完的KV快取，要傳到Decode叢集，傳輸過程會產生延遲；而且KV快取本身佔視訊記憶體，就算分開處理，視訊記憶體不夠用的問題還是沒解決，價效比提升非常有限。

二、核心突破：不是改硬體，是重構整個推理正規化

商湯和記憶張量的聰明之處在於，他們沒有侷限在“硬體層面拆分工序”，而是把PD分離技術，和記憶張量的核心產品MemOS的啟用記憶體系深度綁在了一起，相當於從“流水線分工”升級到了“全產業鏈協同”，直接重構了大模型推理的底層邏輯。

咱們來拆解這個“協同創新”的關鍵操作，其實就兩件核心事，件件都戳中痛點：

1. MemOS的啟用記憶體系：讓KV快取“活起來”，省下大量視訊記憶體

前面說過，KV快取是大模型推理的“剛需”，但它特別佔視訊記憶體——一個千億引數的大模型，一次推理產生的KV快取，就能吃掉好幾GB的視訊記憶體。傳統模式下，這些快取用過一次就扔，下次再推理，又要重新計算，既費算力又費視訊記憶體。

而MemOS的啟用記憶體系，說白了就是給KV快取搞了個“智慧管理系統”。它能做到兩件事：

- 快取複用：把高頻出現的KV快取（比如使用者經常問的“大模型是甚麼”這類通用問題的快取）存起來，下次再有使用者問類似問題，直接呼叫現成的快取，不用重新計算。這就像餐廳裡的預製菜，不用每次都從零開始炒菜，節省大量時間和燃氣。

- 動態壓縮：對不常用的KV快取，進行無失真壓縮，把視訊記憶體佔用率降下來。比如原本佔10GB的快取，壓縮後只佔5GB，省下的視訊記憶體就能用來跑更多的推理任務，相當於一臺機器當成兩臺用。

更關鍵的是，MemOS的這套體系不是孤立執行的，它和PD分離的硬體叢集深度聯動：Prefill叢集算出來的KV快取，會直接傳到MemOS的“記憶庫”裡，由MemOS統一排程，再分發給Decode叢集使用。這樣一來，不僅解決了KV快取的傳輸延遲問題，還從根源上減少了視訊記憶體佔用——這才是真正的“降本增效”。

2. 商湯大裝置：給國產GPGPU“量身定製”排程方案

有了好的軟體，還得有好的排程，讓硬體的潛力發揮到極致。這就是商湯大裝置的核心作用。

商湯在AI大模型領域摸爬滾打多年，最懂大模型推理的“脾氣”。他們針對國產GPGPU的特性——比如視訊記憶體頻寬、算力架構和國際晶片不一樣——做了三件關鍵最佳化：

- 批次排程最佳化：讓Prefill叢集“吃飽喝足”，把多個使用者的推理請求打包成批次任務，最大化利用算力，避免資源閒置。比如原本一次只能算10個使用者的請求，最佳化後能算20個，效率直接翻倍。

- Decode低延遲排程：給Decode叢集設計了“優先順序排程”機制，確保使用者的請求能被快速響應。比如把實時對話類的請求排在前面，避免出現“使用者等半天”的情況，兼顧了吞吐率和延遲。

- 硬體適配調優：針對國產GPGPU的底層架構，修改推理框架的程式碼，解決了很多“相容性問題”。比如有些國產晶片跑大模型時會出現“算力浪費”，商湯透過最佳化運算元，讓硬體的算力利用率提升了30%以上。

簡單來說，記憶張量的MemOS解決了“快取怎麼存、怎麼用”的問題，商湯大裝置解決了“硬體怎麼排程、怎麼算得快”的問題，兩者結合，不是1+1=2，而是1+1=3。

三、實測成果：150%價效比，到底意味著甚麼？

說了這麼多技術，最終還是要看實打實的結果——綜合推理價效比達到同代NVIDIA A100的150%。這個數字不是實驗室裡的“理論值”，而是商用叢集跑出來的“實戰值”，含金量極高。

咱們先解釋一下“綜合推理價效比”：它不是單看速度，也不是單看成本，而是**（推理速度×推理規模）÷（硬體成本+運維成本）**。比值越高，說明同樣的投入，能獲得的產出越多。

150%的價效比，意味著兩種實際應用場景：

- 場景一：成本相同。用國產GPGPU叢集，花和A100叢集一樣的錢，能跑出1.5倍的推理量。比如A100叢集一天能處理100萬次使用者請求，國產叢集能處理150萬次，直接提升50%的業務量。

- 場景二：推理量相同。要處理100萬次使用者請求，國產叢集的成本只有A100叢集的三分之二。比如A100叢集要花100萬元，國產叢集只需要花67萬元，成本直接降了三分之一。

這對大模型商業化來說，簡直是“救命級”的突破。現在很多大模型公司都卡在“推理成本太高”的問題上——跑一次推理就要燒不少錢，根本沒法大規模推廣。而商湯和記憶張量的這套方案，直接把成本壓了下來，讓國產大模型在商用市場上有了競爭力。

更重要的是，這個叢集已經實現了商用落地，不是停留在實驗室的樣品。這意味著方案的穩定性、可靠性都經過了市場檢驗，其他企業可以直接借鑑、部署，不用再從零開始摸索。

四、行業意義：不止反超A100，更是國產算力的“正規化革命”

這件事的意義，遠不止“價效比超過A100”這麼簡單，它給國產算力的發展指明瞭一條全新的道路——不是靠硬體引數對標，而是靠體系級創新實現彎道超車。

1. 打破“跟隨者”定位，走出差異化路線

過去，很多國產算力廠商的思路是“對標”——英偉達出A100，我就做一個引數差不多的晶片；英偉達出H100，我就跟著做H100的對標產品。但這種思路永遠只能跟在別人後面，而且很容易陷入“引數內卷”，成本下不來，生態也跟不上。

而商湯和記憶張量的方案證明：不用在硬體引數上硬碰硬，透過軟體和硬體的協同創新，照樣能在關鍵場景實現反超。國產算力的優勢不在於“複製別人的路”，而在於“走出自己的路”——針對中國市場的商用場景，做體系級最佳化，形成差異化競爭力。

2. 重構大模型推理的成本曲線，加速商業化落地

大模型的發展，分為“訓練”和“推理”兩個階段。訓練階段是一次性投入，而推理階段是長期、持續的成本——使用者每用一次，就要消耗一次算力。可以說，推理成本決定了大模型的商業化天花板。

這次方案把推理價效比提升50%，直接把這個天花板拉高了一大截。對大模型公司來說，成本降下來，就能把更多的錢投入到模型最佳化、場景拓展上；對中小企業來說，以前用不起大模型推理服務，現在成本降低了，就能用得起，推動大模型在千行百業的應用。

3. 推動國產算力生態的正向迴圈

一個算力生態的成熟，需要“硬體—軟體—應用”三者的良性互動。以前，國產硬體因為生態不好，沒人願意做軟體適配；軟體適配少，應用就少，硬體也賣不出去，陷入惡性迴圈。

而商湯和記憶張量的合作，打破了這個迴圈：他們用國產硬體做基底，用自主軟體做最佳化，跑通了商用場景，證明了國產算力的價值。這會吸引更多的軟體廠商來做適配，更多的應用廠商來用國產算力，形成“硬體賣得好—軟體適配多—應用場景廣”的正向迴圈，加速國產算力生態的成熟。

五、總結：這波操作，給國產算力打了一劑強心針

商湯大裝置和記憶張量的這次合作，不是一次簡單的“技術突破”，而是一次正規化革命。它告訴我們：國產算力要想趕超國際頂尖水平，靠的不是“堆引數”“拼硬體”，而是“體系級創新”——把硬體、軟體、排程、應用擰成一股繩，在關鍵場景上形成自己的優勢。

150%的價效比，只是一個開始。隨著更多國產GPGPU的推出，隨著MemOS這類軟體的持續最佳化，隨著商湯大裝置的排程能力不斷升級，國產算力在大模型推理、訓練等更多場景實現反超，只是時間問題。

更重要的是，這次突破給整個行業帶來了信心——國產算力不是“陪跑者”，而是“領跑者”的有力競爭者。在AI這個賽道上，中國企業完全有能力走出一條自主可控、差異化發展的道路。