2026年1月12日,DeepSeek聯合北京大學在arXiv上釋出的《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》論文,以及同步開源的Engram(記憶痕跡)核心模組,堪稱大模型技術演進的一次關鍵轉向。這項被視作DeepSeek-V4“技術底牌”的創新,以“查—算分離”的全新機制,跳出了“引數越大、算力越足、模型越強”的傳統內卷路徑,為大模型突破效能瓶頸提供了更精巧的解決方案,更將引發AI產業鏈的價值重估與格局洗牌。
一、 傳統大模型的“低效痛點”:用計算模擬記憶,純屬“殺雞用牛刀”
要理解Engram的革命性,首先得看清傳統Transformer模型的核心缺陷。
在處理“莎士比亞的全名是甚麼”“珠穆朗瑪峰的高度是多少”這類確定性知識問題時,傳統大模型的操作堪稱“大材小用”:它不會像人類一樣直接調取記憶庫裡的答案,而是要啟動多層神經網路,透過複雜的矩陣運算、注意力機制層層推導,最終“拼湊”出結果。這種模式本質上是用“動態深度計算”去模擬“靜態知識檢索”,不僅耗時耗力,還造成了巨大的算力資源浪費。
打個比方,這就像讓一個數學家放下微積分研究,專門去背誦九九乘法表——不是做不到,而是完全沒必要,屬於典型的“能力錯配”。隨著大模型引數規模突破千億、萬億級別,這種“用計算代記憶”的模式,帶來的算力成本、部署門檻也水漲船高,成為制約大模型普惠化的關鍵瓶頸。
二、 Engram的核心邏輯:“查算分離”,讓專業的人做專業的事
Engram模組的誕生,正是為了根治上述痛點。它的核心設計哲學,是將大模型的任務拆分為“靜態知識檢索”和“動態推理計算”兩大分支,實現精準分工。
1. “查”:Engram模組負責的靜態記憶檢索
Engram本質上是一個可擴充套件、高效率的現代化查詢表,專門儲存那些確定性、固定化的知識——比如實體名稱、固定短語、歷史事實、公式定理等。它的最大優勢在於,能夠以O(1)的時間複雜度完成檢索,相當於“隨取隨用”。
當模型遇到“Alexander the Great”這個短語時,不需要再透過多層神經網路運算推導,而是直接從Engram的記憶庫中提取對應的語義向量;當使用者詢問“中國的首都是哪裡”時,Engram可以瞬間給出答案,無需模型“絞盡腦汁”計算。
這就像給大模型配備了一個“超級記憶隨身碟”,把那些不需要思考的“死知識”全部存進去,隨用隨取。
2. “算”:Transformer主幹負責的動態組合推理
在Engram接管了“死記硬背”的工作後,Transformer主幹網路終於可以“輕裝上陣”,專注於自己最擅長的事——複雜邏輯推理、創造性內容生成、上下文關聯分析等需要“動腦筋”的任務。
比如,當使用者要求“基於莎士比亞的生平,寫一篇關於人性的散文”時,Engram負責快速檢索莎士比亞的生平事蹟、代表作品等基礎資訊,而Transformer主幹則負責整合這些資訊,進行邏輯梳理、語言組織和創意表達;當使用者提出“設計一個基於區塊鏈的供應鏈管理方案”時,Engram提供區塊鏈相關的基礎概念和技術術語,Transformer主幹則負責方案的架構設計、流程規劃和可行性分析。
這種分工,就像給程式設計師配備了一個智慧IDE:IDE自動補全語法、呼叫函式,程式設計師則專注於核心演算法的設計——效率提升是顯而易見的。
3. 理論支撐:U型縮放定律,最佳化資源配比
論文中還提出了一個關鍵發現:神經計算(MoE)與靜態記憶(Engram)之間存在一種U型縮放定律。這一定律揭示了兩者之間的資源最佳化配比關係——不是一味增加某一方的資源投入,而是找到兩者的平衡點,才能實現效能最大化。
這就意味著,未來大模型的最佳化方向,不再是盲目堆引數、堆算力,而是透過調整“檢索”與“計算”的資源佔比,實現效率與效能的最優解。這為大模型的架構設計提供了明確的理論指導,堪稱是一次“方法論層面的革新”。
三、 實測效能:不止是知識檢索,推理能力也意外飛躍
Engram的價值,不是停留在理論層面的“紙上談兵”,而是在實測中展現出了效能與效率的雙重突破。在27B引數規模的對比實驗中,Engram模型在“等引數、等算力”的條件下,全面超越了傳統的MoE模型,甚至帶來了一些“意外之喜”。
1. 知識檢索能力顯著增強
這是最符合預期的提升。在MMLU、CMMLU等知識密集型任務中,Engram模型的準確率提升了3-4分。畢竟,專門的記憶檢索模組,就是為了解決知識問答的效率問題而生的,這一提升在意料之中。
2. 推理與程式碼數學能力“意外飛躍”
令人驚喜的是,Engram模型不僅在知識任務上表現出色,還在需要深層思考的任務中大放異彩:在BigBench Hard(BBH)推理任務上提升5.0分,在HumanEval程式碼生成任務上提升3.0分,在MATH數學任務上提升2.4分。
這背後的邏輯很簡單:Transformer主幹網路從繁瑣的知識記憶中解放出來後,算力資源被集中用於推理計算,自然能夠“更專注地解題”。就像一個學生不用再死記硬背公式,而是可以把精力放在理解公式的應用邏輯上,解題能力自然會提升。
3. 長上下文理解能力實現“質變”
在32K上下文長度的RULER基準測試中,多查詢“大海撈針”任務的準確率從84.2%躍升至97.0%,這是一個堪稱“質變”的提升。
傳統大模型在處理長上下文時,注意力機制很容易被大量冗餘資訊分散,導致關鍵資訊檢索效率低下。而Engram模組負責處理區域性的固定依賴關係,注意力機制得以解放,能夠更專注於全域性上下文的建模和關鍵資訊的抓取——這就像清理了電腦的記憶體,讓系統執行更加流暢。
四、 產業影響:打破硬體枷鎖,重塑AI產業鏈的價值版圖
Engram技術的顛覆性,遠不止於模型效能的提升,更在於它打破了大模型對高階GPU的“硬體枷鎖”,進而引發整個AI產業鏈的價值重估。
1. 硬體正規化革新:從“GPU視訊記憶體依賴”到“儲存算力協同”
傳統大模型的執行,高度依賴超大容量、超高頻寬的GPU視訊記憶體(HBM),這也是高階GPU價格居高不下的核心原因。而Engram的確定性定址方式,使得系統可以在計算進行時,提前從CPU記憶體(CPU DRAM)中預取所需資料,完美掩蓋了CPU記憶體讀取速度慢的缺陷。
實驗資料顯示,將一個千億引數的Engram詞表完全放置在CPU記憶體中,整體推理吞吐量的損耗小於3%。這意味著甚麼?
- 降低部署門檻:未來執行千億引數模型,可能只需要一張消費級顯示卡負責核心計算,再搭配廉價的大容量CPU記憶體條儲存知識——中小企業、科研機構甚至個人,都能以更低的成本部署大模型。
- 動態知識更新:無需重新訓練整個模型,只需在CPU記憶體中“外掛”新的Engram表,就能讓模型快速學習最新的法律條文、醫療資料、市場動態——這極大降低了垂直行業應用的維護成本,讓大模型的“迭代速度”跟上現實世界的變化。
- 超大規模模型成為可能:透過將“熱知識”(高頻使用)存放在GPU視訊記憶體、“溫知識”(中頻使用)存放在CPU記憶體、“冷知識”(低頻使用)存放在固態硬碟中,理論上可以外掛數萬億引數的超大知識庫,而成本卻遠低於傳統方案。
2. 產業鏈價值重估:誰被利空?誰將受益?
Engram技術的普及,將不可避免地引發AI產業鏈的“價值洗牌”,不同板塊的命運將出現分化。
(1) 偏利空板塊
- 高階GPU製造商:Engram降低了對超大容量HBM視訊記憶體的依賴,市場對頂級算力卡的需求增長可能放緩。不過,這也並非絕對的“利空”——傑文斯悖論告訴我們,成本降低會刺激需求增長,大模型部署門檻的下降,可能會帶來整體GPU市場規模的擴大,只是需求結構會從“高階旗艦”向“中低端普惠”轉移。
- 傳統MoE架構路徑依賴者:那些在純MoE路線上投入巨資研發,卻未能及時跟進“查算分離”架構的公司,可能會面臨技術路線的挑戰。Engram提供了一種更高效的稀疏化新維度,將倒逼整個行業轉向“架構創新”。
- 獨立向量資料庫與知識圖譜服務商:如果未來主流大模型都內建了Engram這樣的高效記憶系統,那麼對於外部結構化知識檢索服務的需求可能會減弱——畢竟,“內建功能”通常比“外接外掛”更便捷。
(2) 利好板塊
- AI推理與服務提供商:以DeepSeek自身、雲廠商為代表的服務商,能夠以更低的硬體成本提供效能更強、知識更新更快的模型服務,利潤率有望大幅提升,同時服務門檻的降低也會帶來更多客戶。
- CPU與記憶體產業鏈:對高容量、高頻寬的CPU DRAM需求將激增,這將直接利好儲存晶片製造商、記憶體模組廠商等相關產業鏈。同時,CPU在AI推理中的價值地位得到顯著提升,打破了GPU的“一家獨大”。
- 邊緣計算與物聯網:更低的部署成本,讓在汽車、手機、機器人等終端裝置上本地執行大引數、高智慧的模型成為可能,加速AI從“雲端”走向“終端”,推動邊緣計算和物聯網的智慧化升級。
- 垂直行業AI應用商:法律、醫療、金融等知識密集型行業,對模型的“知識更新速度”和“定製化成本”要求極高。Engram的動態知識更新能力,讓這些行業的AI定製化落地變得更加容易,有望催生一大批垂直領域的AI應用爆款。
- 開源AI生態:DeepSeek選擇將論文和程式碼完全開源,這將加速全球範圍內對“條件記憶”架構的探索與應用,吸引更多開發者參與到技術迭代中,繁榮整個開源AI工具鏈。
五、 賽道啟示:AI競賽下半場,拼的是“巧勁”而非“蠻力”
Engram技術的出現,標誌著大模型競賽的邏輯發生了根本性轉變——從**“規模擴張”的蠻力時代,轉向“架構創新”的巧勁時代**。
過去幾年,大模型賽道的競爭關鍵詞是“引數”“算力”“資料”:誰的引數更多,誰的算力更強,誰的資料更全,誰就能領先。這種“軍備競賽”式的發展模式,不僅推高了行業門檻,也導致了嚴重的資源浪費。
而Engram的創新告訴我們,大模型的未來,不在於“更大”,而在於“更聰明”——透過更精巧的架構設計,讓模型在更低的成本下,實現更高的效能。這對於缺乏高階GPU資源的科研機構、中小企業甚至國家而言,無疑是一個重大利好:它提供了一條“換道超車”的可能路徑——不用再盲目追逐頂級算力,而是可以透過架構創新,在AI競賽中佔據一席之地。
六、 總結:不止是技術創新,更是思維模式的革命
說到底,Engram的價值,不僅在於它提出了一種“查算分離”的技術方案,更在於它重塑了我們對大模型的認知邏輯。
它讓我們意識到,大模型的核心競爭力,不是“記憶知識的能力”,而是“運用知識的能力”;AI的未來,不是“模擬人類的記憶”,而是“解放人類的思考”。
從更長遠的視角看,Engram的“條件記憶”架構,或許只是大模型向通用人工智慧(AGI)邁進的一小步。但這一小步,卻邁出了AI從“堆砌算力”到“最佳化智慧”的一大步。未來,隨著“查算分離”理念的不斷深化,以及更多創新架構的湧現,大模型終將真正走進千家萬戶,成為普惠化的智慧工具。