首頁 分類 排行榜 閱讀記錄 我的書架

第88章 AI晶片的兩大“升級方向”——FP8精度和多芯互聯,到底牛在哪?

2025-11-22 作者:巴蜀魔幻俠

提到AI晶片,不少人可能覺得“離自己很遠”,但其實咱們平時用的AI聊天、刷的短影片推薦,背後都靠AI晶片“算”出來的。現在AI晶片正在快速升級,其中有兩個方向特別關鍵:FP8精度和多芯互聯。這倆詞聽著挺專業,其實用大白話拆解開特別好懂——簡單說,FP8精度是讓晶片“算得又快又省電”,多芯互聯是讓晶片“組隊幹活,力大無窮”。今天就從這兩個方向入手,跟大家聊明白AI晶片是怎麼升級的,以及對咱們用AI、對國產晶片發展有啥影響。

一、先搞懂基礎:AI晶片為啥要“升級”?核心是解決“算力不夠、電費太貴”的問題

在聊具體技術之前,得先弄明白一個事兒:AI晶片為啥非得升級?答案很簡單——現在的AI越來越“能吃算力”了。

比如訓練一個像GPT-4這樣的大模型,需要處理幾十萬億條資料,要是晶片算得慢,可能得花好幾個月才能訓練完;而且晶片算的時候特別費電,一個大模型訓練一次,電費可能就好幾百萬。以前的晶片技術,要麼算得慢、要麼電費高,根本跟不上現在AI的“胃口”。

就像咱們做飯,以前用小煤爐,做一大鍋飯又慢又費煤;現在換成大燃氣灶,又快又省氣。AI晶片的升級,就相當於從“小煤爐”換成“大燃氣灶”,核心是解決“算力不夠用、能耗太高”這兩個痛點。而FP8精度和多芯互聯,就是解決這兩個痛點的“兩把鑰匙”。

二、第一個升級方向:FP8精度——讓晶片“算得準、跑得快、省電費”,大模型訓練直接受益

先來說第一個關鍵技術:FP8精度。這裡的“精度”不是指晶片的製造精度,而是指晶片“計算資料時的精細程度”。咱們可以把晶片計算想象成“用尺子量東西”:以前的晶片用“厘米尺”量,現在FP8精度相當於用“毫米尺”量,既能量得更準,還能更快量完,同時還不費“力氣”(也就是省電)。

1. 先拆“FP8精度”:不是“精度降低”,而是“精準控耗”,該細的地方細,該省的地方省

可能有人看到“FP8”裡的“8”會疑惑:以前不是有FP16、FP32嗎?數字變小了,是不是精度變低了?其實不是這麼回事。

簡單說,“FP+數字”代表晶片儲存和計算資料的“格式”,數字越大,能儲存的資料越精細,但需要的儲存空間和計算資源也越多。比如FP32就像“高畫質電影”,畫面特別細,但佔記憶體大、播放時費電;FP16像“標清電影”,畫面稍粗一點,但佔記憶體小、播放快;而FP8是“最佳化後的標清”——在保證畫面(計算精度)夠用的前提下,把沒用的“畫素”(冗餘資料)去掉,既不影響觀看(計算結果),還能省記憶體、省電費。

舉個例子:比如計算“1. + 2.”,用FP32能算出“3.”,精確到小數點後8位;用FP8算,能算出“”,精確到小數點後4位。對咱們日常用的AI來說,小數點後4位的精度完全夠用——比如AI推薦短影片,不用精確到小數點後8位,只要能判斷“你喜歡這個影片的機率是85%”就行,沒必要算成“85.%”。

所以FP8精度不是“降低精度”,而是“精準控耗”——把算力和電量用在“刀刃上”,該精細的地方不馬虎,沒必要精細的地方省資源。

2. FP8精度的核心好處:算力密度翻2倍、能耗降30%,大模型訓練直接“提速又省錢”

搞懂了FP8精度的原理,再來看它的實際好處,主要有兩個:一是“算力密度提升2倍”,二是“能耗降低30%”。這倆好處對大模型訓練來說,簡直是“及時雨”。

先解釋“算力密度”:就是同樣大小的晶片,能提供的計算能力翻了2倍。以前一塊晶片每秒能算100次,現在用FP8精度,每秒能算200次。這意味著訓練大模型時,需要的晶片數量能減半——比如以前要100塊晶片,現在50塊就夠了,不僅省了晶片採購錢,還省了機房空間(放晶片的地方也需要成本)。

再看“能耗降低30%”:就是算同樣多的資料,電費能省三成。舉個直觀的例子:以前訓練一個大模型,用老晶片需要100萬度電,電費按工業用電1元/度算,得花100萬;現在用支援FP8精度的晶片,只要70萬度電,電費直接省30萬。對那些經常訓練大模型的企業來說,這可不是小數目——比如某AI公司一年訓練10個大模型,光電費就能省300萬。

而且這兩個好處加起來,還能“縮短訓練週期”。比如訓練GPT-4這樣的大模型,以前用老技術需要3個月,現在用FP8精度,算力翻2倍、能耗降30%,算下來訓練週期能縮短25%,也就是隻要2個多月就能訓練完。對企業來說,訓練週期縮短意味著能更快推出新的AI產品,比如別人還在訓練,你已經把新的AI聊天工具上線了,自然能搶佔市場先機。

3. 國產晶片的動作:寒武紀、壁仞科技已跟上,BR100晶片算力達1000TOPS,專門對標“超大規模訓練”

可能有人會問:國外晶片早就支援FP8精度了,國產晶片能跟上嗎?答案是“當然能”,而且已經有不少國產企業拿出了實實在在的產品。

首先是大家比較熟悉的寒武紀,它的思元系列晶片早就支援FP8精度了,比如思元590晶片,用FP8精度計算時,算力比用老格式提升1.8倍,能耗降低28%,已經能滿足不少中小規模AI模型的訓練需求。

除了寒武紀,還有一家叫壁仞科技的企業,推出的BR100晶片更是“重量級選手”——它支援FP8精度,算力能達到1000TOPS(1TOPS相當於每秒算1萬億次)。這個算力有多強?簡單說,用BR100晶片訓練一個百億引數的AI模型,可能只要幾天時間;要是用來訓練超大規模的大模型(比如千億、萬億引數),也能輕鬆應對。

現在不少國內的大模型企業已經開始用這些國產晶片了。比如某網際網路公司,以前訓練大模型用國外晶片,一次要花500萬;現在換成壁仞BR100晶片,因為支援FP8精度,算力夠、能耗低,一次訓練只要300萬,成本直接降了40%。而且國產晶片不用受國外政策限制,不用擔心“斷供”,用起來更放心。

三、第二個升級方向:多芯互聯——讓晶片“組隊幹活”,解決“單晶片算力不夠用”的難題

聊完了FP8精度,再來說第二個關鍵技術:多芯互聯。這個技術的思路特別簡單——既然單顆晶片的算力有限,那不如把多顆晶片“連起來”,組成一個“虛擬大晶片”,讓它們一起幹活,算力自然就上去了。

就像咱們搬東西,一個人搬不動100斤的箱子,要是8個人一起抬,就能輕鬆搬起來。多芯互聯就是讓晶片“組隊抬箱子”,核心是解決“單晶片算力跟不上大模型需求”的問題。

1. 為啥需要多芯互聯?單晶片“再牛也有上限”,大模型需要“集體力量”

可能有人會問:既然能把單顆晶片做得更厲害,為啥還要搞多芯互聯?答案是“單晶片的算力有上限”。

就像一個人再強壯,最多能舉200斤,不可能舉2000斤;單顆晶片不管怎麼升級,算力也有天花板——比如現在最厲害的單顆AI晶片,算力也就1000多TOPS,而訓練一個千億引數的大模型,需要的算力至少是8000TOPS,單顆晶片根本不夠用。

而且單顆晶片做得太複雜,成本會飆升。比如想把單顆晶片的算力從1000TOPS提升到8000TOPS,需要的研發成本可能是原來的10倍,售價也會貴得離譜,沒幾個企業能買得起。

這時候多芯互聯的優勢就體現出來了:不用把單顆晶片做得“神乎其神”,只要把多顆普通晶片連起來,就能達到超高算力。比如用8顆1000TOPS的晶片,透過多芯互聯組成“虛擬大晶片”,總算力就能達到8000TOPS,成本只要單顆“超級晶片”的1/3,價效比一下子就上來了。

2. 多芯互聯咋實現?靠“高速互聯介面”,讓晶片之間“說話不卡頓”

要讓多顆晶片“組隊幹活”,關鍵得解決一個問題:晶片之間得能快速“傳遞資料”。就像8個人一起抬箱子,得喊著“一二一”同步發力,要是有人慢半拍,箱子就會歪;晶片之間要是資料傳得慢,有的晶片算完了等著要資料,有的晶片還沒傳完,整體算力就會浪費。

而多芯互聯技術,核心就是靠“高速互聯介面”解決這個問題。這個介面就像“超高速網線”,能讓晶片之間每秒傳遞幾十GB甚至上百GB的資料,延遲特別低(比如只有幾微秒,1微秒等於百萬分之一秒)。

舉個例子:比如把8顆晶片連起來,第一顆晶片算完一部分資料,透過高速介面瞬間傳給第二顆,第二顆接著算,中間幾乎沒有停頓;要是沒有這個介面,用普通網線傳資料,可能需要幾毫秒(1毫秒等於千分之一秒),8顆晶片算下來,光等資料的時間就會浪費一半,算力自然上不去。

現在國產晶片企業在高速互聯介面上做得很到位。比如中科曙光的“海光芯雲”平臺,用的就是自主研發的高速互聯介面,能讓晶片之間的資料傳輸速度達到每秒100GB,延遲只有3微秒,幾乎實現了“零卡頓”。

3. 國產案例:中科曙光“海光芯雲”平臺,8顆晶片組出8000TOPS算力,能搞定千億引數大模型

聊完原理,再看國產晶片的實際應用——中科曙光的“海光芯雲”平臺,就是多芯互聯技術的典型代表。

這個平臺是怎麼做的呢?簡單說,就是把8顆海光DCU晶片(海光DCU是國產AI晶片的一種,單顆算力大概1000TOPS),透過高速互聯介面連起來,組成一個“算力節點”。這樣一來,這個節點的總算力就是8×1000TOPS=8000TOPS,剛好能滿足千億引數大模型的“推理需求”(推理就是大模型訓練完後,給它輸入問題,它算出答案的過程)。

可能有人會問:千億引數大模型的推理,需要這麼高的算力嗎?答案是“需要”。比如咱們用AI聊天,問一個複雜問題(比如“幫我寫一份1000字的產品方案”),大模型需要在幾秒內處理幾十萬條資料,要是算力不夠,可能得等十幾秒甚至幾十秒才能出答案,體驗就會很差。而8000TOPS的算力節點,能讓千億引數大模型的推理速度提升到“秒級響應”,比如輸入問題後,2-3秒就能出答案,跟咱們平時聊天一樣流暢。

現在這個平臺已經在不少地方用起來了。比如某科研機構,用“海光芯雲”平臺跑千億引數的醫療大模型,給它輸入患者的CT影像和病歷資料,幾秒內就能給出初步診斷建議,比以前用單顆晶片快了6倍,大大提升了科研效率;還有某網際網路公司,用這個平臺做短影片推薦,能更快分析使用者的觀看習慣,推薦的影片更精準,使用者停留時間比以前增加了20%。

而且多芯互聯還能“靈活擴充套件”——要是需要更高的算力,比如要處理萬億引數的大模型,只要再增加晶片數量就行。比如把16顆海光DCU晶片連起來,就能組成TOPS的算力節點,完全能滿足更高需求。這種“按需擴充套件”的特性,對企業來說特別友好,不用一開始就買最貴的裝置,後期根據需求加晶片就行,能省不少錢。

四、技術迭代的實際意義:國產AI晶片“又強又便宜”,給大模型企業更多選擇

聊完了FP8精度和多芯互聯的技術細節,咱們得回到一個更實際的問題:這些技術升級,到底有啥用?對國產晶片、對咱們用AI有啥影響?

總結下來,有三個核心意義:

1. 國產AI晶片“效能追上了”,不用再依賴國外晶片

以前國產AI晶片最大的短板就是“效能不夠”,比如算得慢、不支援大模型訓練。但透過FP8精度和多芯互聯的升級,國產晶片的效能已經能跟上需求了——比如壁仞BR100晶片支援FP8精度,能訓練超大規模大模型;中科曙光的多芯互聯平臺,能滿足千億引數大模型的推理。

這意味著國內的大模型企業,不用再盯著國外晶片了。以前國外晶片一斷供,企業就慌了;現在有了國產晶片的選擇,就算國外晶片買不到,也能靠國產晶片繼續做研發、搞業務。比如某AI創業公司,以前一直用國外晶片,去年因為政策限制買不到了,換成壁仞BR100晶片後,發現效能完全夠用,訓練成本還降了30%,現在已經把所有業務都換成國產晶片了。

2. 算力成本“降下來了”,中小企業也能用得起AI

以前AI是“大企業的遊戲”,因為算力成本太高,中小企業根本負擔不起。比如訓練一箇中小規模的AI模型,用國外晶片可能要花100萬,很多小企業想做都不敢做。

但現在不一樣了:FP8精度讓晶片能耗降30%,多芯互聯讓企業不用買昂貴的單顆晶片,兩者結合直接把算力成本拉低了40%-50%。比如以前訓練一箇中小模型要100萬,現在用國產晶片只要50-60萬,不少中小企業也能負擔得起了。

就像以前只有大企業能買得起豪車,現在普通家庭也能買得起經濟適用車一樣。算力成本的降低,讓更多企業能參與到AI研發中,比如小的創業公司能做垂直領域的AI(比如AI教育、AI醫療),這會讓整個AI行業更有活力。

3. 形成“國產產業鏈閉環”,發展更穩

以前國產晶片的產業鏈不完善,比如晶片設計軟體靠國外、互聯介面靠國外,很容易被“卡脖子”。但現在FP8精度和多芯互聯的核心技術,都是國產企業自主研發的——比如寒武紀、壁仞的FP8精度技術,中科曙光的高速互聯介面,都是自己做的,不用依賴國外技術。

這意味著國產AI晶片已經形成了“設計-生產-應用”的閉環,從技術到產品再到落地,都能自己搞定。這種閉環特別重要,就像一個人有了完整的消化系統,不用靠別人餵飯,能自己吸收營養成長。以後就算國外技術封鎖,國產晶片也能自己迭代升級,發展會更穩。

五、總結:AI晶片的升級,不是“炫技”,而是“解決真問題”

最後咱們再總結一下:FP8精度和多芯互聯這兩個技術方向,不是晶片廠家在“炫技”,而是實實在在解決AI發展中遇到的“算力不夠、成本太高”的問題。

FP8精度讓晶片“算得快、省電費”,多芯互聯讓晶片“組隊幹活、算力翻倍”,兩者結合讓國產AI晶片實現了“效能提升、成本下降”的雙重突破。對咱們普通人來說,這意味著以後用AI會更流暢(比如聊天響應更快、推薦更精準),而且會有更多貼近生活的AI應用(比如中小企業做的AI教育、AI養老工具);對國產晶片來說,這意味著終於能在全球AI晶片市場中“站穩腳跟”,不再被國外牽著鼻子走。

當然,咱們也得客觀看待:國產AI晶片雖然進步快,但在某些細節上(比如超大規模晶片的穩定性、極端場景的適配),跟國外頂尖晶片還有一點差距。但這並不可怕,畢竟技術升級是個循序漸進的過程——就像咱們學走路,先學會站穩,再學會走,最後才能跑。現在國產AI晶片已經“站穩了”,也“會走了”,相信再給點時間,一定能跑得更快、更遠。

總的來說,AI晶片的這波技術迭代,對國產晶片是“機遇”,對AI行業是“助力”,最終受益的還是咱們每一個用AI的人。以後再聽到“FP8精度”“多芯互聯”,不用覺得陌生,知道它們是讓AI更好用、更便宜的“幕後功臣”就行啦。

A−
A+
護眼
目錄