第88章 AI晶片的兩大“升級方向”——FP8精度和多芯互聯，到底牛在哪？

2025-11-22 作者：巴蜀魔幻俠

提到AI晶片，不少人可能覺得“離自己很遠”，但其實咱們平時用的AI聊天、刷的短影片推薦，背後都靠AI晶片“算”出來的。現在AI晶片正在快速升級，其中有兩個方向特別關鍵：FP8精度和多芯互聯。這倆詞聽著挺專業，其實用大白話拆解開特別好懂——簡單說，FP8精度是讓晶片“算得又快又省電”，多芯互聯是讓晶片“組隊幹活，力大無窮”。今天就從這兩個方向入手，跟大家聊明白AI晶片是怎麼升級的，以及對咱們用AI、對國產晶片發展有啥影響。

一、先搞懂基礎：AI晶片為啥要“升級”？核心是解決“算力不夠、電費太貴”的問題

在聊具體技術之前，得先弄明白一個事兒：AI晶片為啥非得升級？答案很簡單——現在的AI越來越“能吃算力”了。

比如訓練一個像GPT-4這樣的大模型，需要處理幾十萬億條資料，要是晶片算得慢，可能得花好幾個月才能訓練完；而且晶片算的時候特別費電，一個大模型訓練一次，電費可能就好幾百萬。以前的晶片技術，要麼算得慢、要麼電費高，根本跟不上現在AI的“胃口”。

就像咱們做飯，以前用小煤爐，做一大鍋飯又慢又費煤；現在換成大燃氣灶，又快又省氣。AI晶片的升級，就相當於從“小煤爐”換成“大燃氣灶”，核心是解決“算力不夠用、能耗太高”這兩個痛點。而FP8精度和多芯互聯，就是解決這兩個痛點的“兩把鑰匙”。

二、第一個升級方向：FP8精度——讓晶片“算得準、跑得快、省電費”，大模型訓練直接受益

先來說第一個關鍵技術：FP8精度。這裡的“精度”不是指晶片的製造精度，而是指晶片“計算資料時的精細程度”。咱們可以把晶片計算想象成“用尺子量東西”：以前的晶片用“厘米尺”量，現在FP8精度相當於用“毫米尺”量，既能量得更準，還能更快量完，同時還不費“力氣”（也就是省電）。

1. 先拆“FP8精度”：不是“精度降低”，而是“精準控耗”，該細的地方細，該省的地方省

可能有人看到“FP8”裡的“8”會疑惑：以前不是有FP16、FP32嗎？數字變小了，是不是精度變低了？其實不是這麼回事。

簡單說，“FP+數字”代表晶片儲存和計算資料的“格式”，數字越大，能儲存的資料越精細，但需要的儲存空間和計算資源也越多。比如FP32就像“高畫質電影”，畫面特別細，但佔記憶體大、播放時費電；FP16像“標清電影”，畫面稍粗一點，但佔記憶體小、播放快；而FP8是“最佳化後的標清”——在保證畫面（計算精度）夠用的前提下，把沒用的“畫素”（冗餘資料）去掉，既不影響觀看（計算結果），還能省記憶體、省電費。

舉個例子：比如計算“1. + 2.”，用FP32能算出“3.”，精確到小數點後8位；用FP8算，能算出“”，精確到小數點後4位。對咱們日常用的AI來說，小數點後4位的精度完全夠用——比如AI推薦短影片，不用精確到小數點後8位，只要能判斷“你喜歡這個影片的機率是85%”就行，沒必要算成“85.%”。

所以FP8精度不是“降低精度”，而是“精準控耗”——把算力和電量用在“刀刃上”，該精細的地方不馬虎，沒必要精細的地方省資源。

2. FP8精度的核心好處：算力密度翻2倍、能耗降30%，大模型訓練直接“提速又省錢”

搞懂了FP8精度的原理，再來看它的實際好處，主要有兩個：一是“算力密度提升2倍”，二是“能耗降低30%”。這倆好處對大模型訓練來說，簡直是“及時雨”。

先解釋“算力密度”：就是同樣大小的晶片，能提供的計算能力翻了2倍。以前一塊晶片每秒能算100次，現在用FP8精度，每秒能算200次。這意味著訓練大模型時，需要的晶片數量能減半——比如以前要100塊晶片，現在50塊就夠了，不僅省了晶片採購錢，還省了機房空間（放晶片的地方也需要成本）。

再看“能耗降低30%”：就是算同樣多的資料，電費能省三成。舉個直觀的例子：以前訓練一個大模型，用老晶片需要100萬度電，電費按工業用電1元/度算，得花100萬；現在用支援FP8精度的晶片，只要70萬度電，電費直接省30萬。對那些經常訓練大模型的企業來說，這可不是小數目——比如某AI公司一年訓練10個大模型，光電費就能省300萬。

而且這兩個好處加起來，還能“縮短訓練週期”。比如訓練GPT-4這樣的大模型，以前用老技術需要3個月，現在用FP8精度，算力翻2倍、能耗降30%，算下來訓練週期能縮短25%，也就是隻要2個多月就能訓練完。對企業來說，訓練週期縮短意味著能更快推出新的AI產品，比如別人還在訓練，你已經把新的AI聊天工具上線了，自然能搶佔市場先機。

3. 國產晶片的動作：寒武紀、壁仞科技已跟上，BR100晶片算力達1000TOPS，專門對標“超大規模訓練”

可能有人會問：國外晶片早就支援FP8精度了，國產晶片能跟上嗎？答案是“當然能”，而且已經有不少國產企業拿出了實實在在的產品。

首先是大家比較熟悉的寒武紀，它的思元系列晶片早就支援FP8精度了，比如思元590晶片，用FP8精度計算時，算力比用老格式提升1.8倍，能耗降低28%，已經能滿足不少中小規模AI模型的訓練需求。

除了寒武紀，還有一家叫壁仞科技的企業，推出的BR100晶片更是“重量級選手”——它支援FP8精度，算力能達到1000TOPS（1TOPS相當於每秒算1萬億次）。這個算力有多強？簡單說，用BR100晶片訓練一個百億引數的AI模型，可能只要幾天時間；要是用來訓練超大規模的大模型（比如千億、萬億引數），也能輕鬆應對。

現在不少國內的大模型企業已經開始用這些國產晶片了。比如某網際網路公司，以前訓練大模型用國外晶片，一次要花500萬；現在換成壁仞BR100晶片，因為支援FP8精度，算力夠、能耗低，一次訓練只要300萬，成本直接降了40%。而且國產晶片不用受國外政策限制，不用擔心“斷供”，用起來更放心。

三、第二個升級方向：多芯互聯——讓晶片“組隊幹活”，解決“單晶片算力不夠用”的難題

聊完了FP8精度，再來說第二個關鍵技術：多芯互聯。這個技術的思路特別簡單——既然單顆晶片的算力有限，那不如把多顆晶片“連起來”，組成一個“虛擬大晶片”，讓它們一起幹活，算力自然就上去了。

就像咱們搬東西，一個人搬不動100斤的箱子，要是8個人一起抬，就能輕鬆搬起來。多芯互聯就是讓晶片“組隊抬箱子”，核心是解決“單晶片算力跟不上大模型需求”的問題。

1. 為啥需要多芯互聯？單晶片“再牛也有上限”，大模型需要“集體力量”

可能有人會問：既然能把單顆晶片做得更厲害，為啥還要搞多芯互聯？答案是“單晶片的算力有上限”。

就像一個人再強壯，最多能舉200斤，不可能舉2000斤；單顆晶片不管怎麼升級，算力也有天花板——比如現在最厲害的單顆AI晶片，算力也就1000多TOPS，而訓練一個千億引數的大模型，需要的算力至少是8000TOPS，單顆晶片根本不夠用。

而且單顆晶片做得太複雜，成本會飆升。比如想把單顆晶片的算力從1000TOPS提升到8000TOPS，需要的研發成本可能是原來的10倍，售價也會貴得離譜，沒幾個企業能買得起。

這時候多芯互聯的優勢就體現出來了：不用把單顆晶片做得“神乎其神”，只要把多顆普通晶片連起來，就能達到超高算力。比如用8顆1000TOPS的晶片，透過多芯互聯組成“虛擬大晶片”，總算力就能達到8000TOPS，成本只要單顆“超級晶片”的1/3，價效比一下子就上來了。

2. 多芯互聯咋實現？靠“高速互聯介面”，讓晶片之間“說話不卡頓”

要讓多顆晶片“組隊幹活”，關鍵得解決一個問題：晶片之間得能快速“傳遞資料”。就像8個人一起抬箱子，得喊著“一二一”同步發力，要是有人慢半拍，箱子就會歪；晶片之間要是資料傳得慢，有的晶片算完了等著要資料，有的晶片還沒傳完，整體算力就會浪費。

而多芯互聯技術，核心就是靠“高速互聯介面”解決這個問題。這個介面就像“超高速網線”，能讓晶片之間每秒傳遞幾十GB甚至上百GB的資料，延遲特別低（比如只有幾微秒，1微秒等於百萬分之一秒）。

舉個例子：比如把8顆晶片連起來，第一顆晶片算完一部分資料，透過高速介面瞬間傳給第二顆，第二顆接著算，中間幾乎沒有停頓；要是沒有這個介面，用普通網線傳資料，可能需要幾毫秒（1毫秒等於千分之一秒），8顆晶片算下來，光等資料的時間就會浪費一半，算力自然上不去。

現在國產晶片企業在高速互聯介面上做得很到位。比如中科曙光的“海光芯雲”平臺，用的就是自主研發的高速互聯介面，能讓晶片之間的資料傳輸速度達到每秒100GB，延遲只有3微秒，幾乎實現了“零卡頓”。

3. 國產案例：中科曙光“海光芯雲”平臺，8顆晶片組出8000TOPS算力，能搞定千億引數大模型

聊完原理，再看國產晶片的實際應用——中科曙光的“海光芯雲”平臺，就是多芯互聯技術的典型代表。

這個平臺是怎麼做的呢？簡單說，就是把8顆海光DCU晶片（海光DCU是國產AI晶片的一種，單顆算力大概1000TOPS），透過高速互聯介面連起來，組成一個“算力節點”。這樣一來，這個節點的總算力就是8×1000TOPS=8000TOPS，剛好能滿足千億引數大模型的“推理需求”（推理就是大模型訓練完後，給它輸入問題，它算出答案的過程）。

可能有人會問：千億引數大模型的推理，需要這麼高的算力嗎？答案是“需要”。比如咱們用AI聊天，問一個複雜問題（比如“幫我寫一份1000字的產品方案”），大模型需要在幾秒內處理幾十萬條資料，要是算力不夠，可能得等十幾秒甚至幾十秒才能出答案，體驗就會很差。而8000TOPS的算力節點，能讓千億引數大模型的推理速度提升到“秒級響應”，比如輸入問題後，2-3秒就能出答案，跟咱們平時聊天一樣流暢。

現在這個平臺已經在不少地方用起來了。比如某科研機構，用“海光芯雲”平臺跑千億引數的醫療大模型，給它輸入患者的CT影像和病歷資料，幾秒內就能給出初步診斷建議，比以前用單顆晶片快了6倍，大大提升了科研效率；還有某網際網路公司，用這個平臺做短影片推薦，能更快分析使用者的觀看習慣，推薦的影片更精準，使用者停留時間比以前增加了20%。

而且多芯互聯還能“靈活擴充套件”——要是需要更高的算力，比如要處理萬億引數的大模型，只要再增加晶片數量就行。比如把16顆海光DCU晶片連起來，就能組成TOPS的算力節點，完全能滿足更高需求。這種“按需擴充套件”的特性，對企業來說特別友好，不用一開始就買最貴的裝置，後期根據需求加晶片就行，能省不少錢。

四、技術迭代的實際意義：國產AI晶片“又強又便宜”，給大模型企業更多選擇

聊完了FP8精度和多芯互聯的技術細節，咱們得回到一個更實際的問題：這些技術升級，到底有啥用？對國產晶片、對咱們用AI有啥影響？

總結下來，有三個核心意義：

1. 國產AI晶片“效能追上了”，不用再依賴國外晶片

以前國產AI晶片最大的短板就是“效能不夠”，比如算得慢、不支援大模型訓練。但透過FP8精度和多芯互聯的升級，國產晶片的效能已經能跟上需求了——比如壁仞BR100晶片支援FP8精度，能訓練超大規模大模型；中科曙光的多芯互聯平臺，能滿足千億引數大模型的推理。

這意味著國內的大模型企業，不用再盯著國外晶片了。以前國外晶片一斷供，企業就慌了；現在有了國產晶片的選擇，就算國外晶片買不到，也能靠國產晶片繼續做研發、搞業務。比如某AI創業公司，以前一直用國外晶片，去年因為政策限制買不到了，換成壁仞BR100晶片後，發現效能完全夠用，訓練成本還降了30%，現在已經把所有業務都換成國產晶片了。

2. 算力成本“降下來了”，中小企業也能用得起AI

以前AI是“大企業的遊戲”，因為算力成本太高，中小企業根本負擔不起。比如訓練一箇中小規模的AI模型，用國外晶片可能要花100萬，很多小企業想做都不敢做。

但現在不一樣了：FP8精度讓晶片能耗降30%，多芯互聯讓企業不用買昂貴的單顆晶片，兩者結合直接把算力成本拉低了40%-50%。比如以前訓練一箇中小模型要100萬，現在用國產晶片只要50-60萬，不少中小企業也能負擔得起了。

就像以前只有大企業能買得起豪車，現在普通家庭也能買得起經濟適用車一樣。算力成本的降低，讓更多企業能參與到AI研發中，比如小的創業公司能做垂直領域的AI（比如AI教育、AI醫療），這會讓整個AI行業更有活力。

3. 形成“國產產業鏈閉環”，發展更穩

以前國產晶片的產業鏈不完善，比如晶片設計軟體靠國外、互聯介面靠國外，很容易被“卡脖子”。但現在FP8精度和多芯互聯的核心技術，都是國產企業自主研發的——比如寒武紀、壁仞的FP8精度技術，中科曙光的高速互聯介面，都是自己做的，不用依賴國外技術。

這意味著國產AI晶片已經形成了“設計-生產-應用”的閉環，從技術到產品再到落地，都能自己搞定。這種閉環特別重要，就像一個人有了完整的消化系統，不用靠別人餵飯，能自己吸收營養成長。以後就算國外技術封鎖，國產晶片也能自己迭代升級，發展會更穩。

五、總結：AI晶片的升級，不是“炫技”，而是“解決真問題”

最後咱們再總結一下：FP8精度和多芯互聯這兩個技術方向，不是晶片廠家在“炫技”，而是實實在在解決AI發展中遇到的“算力不夠、成本太高”的問題。

FP8精度讓晶片“算得快、省電費”，多芯互聯讓晶片“組隊幹活、算力翻倍”，兩者結合讓國產AI晶片實現了“效能提升、成本下降”的雙重突破。對咱們普通人來說，這意味著以後用AI會更流暢（比如聊天響應更快、推薦更精準），而且會有更多貼近生活的AI應用（比如中小企業做的AI教育、AI養老工具）；對國產晶片來說，這意味著終於能在全球AI晶片市場中“站穩腳跟”，不再被國外牽著鼻子走。

當然，咱們也得客觀看待：國產AI晶片雖然進步快，但在某些細節上（比如超大規模晶片的穩定性、極端場景的適配），跟國外頂尖晶片還有一點差距。但這並不可怕，畢竟技術升級是個循序漸進的過程——就像咱們學走路，先學會站穩，再學會走，最後才能跑。現在國產AI晶片已經“站穩了”，也“會走了”，相信再給點時間，一定能跑得更快、更遠。

總的來說，AI晶片的這波技術迭代，對國產晶片是“機遇”，對AI行業是“助力”，最終受益的還是咱們每一個用AI的人。以後再聽到“FP8精度”“多芯互聯”，不用覺得陌生，知道它們是讓AI更好用、更便宜的“幕後功臣”就行啦。