DeepSeek V4留下大遗憾Engram记忆模块未集成等待V5_AI

V4什么都好唯独缺了它

DeepSeek V4技术报告中有mHC有CSA有Muon有FP4但唯独没有Engram。这个今年1月由DeepSeek和北大联合开源的记忆模块一度被视为V4的架构地基。它给Transformer加了一个原生知识查表模块做到"能查的别算先查一下"。

测试项目	MoE-27B基线	Engram-27B	提升幅度
MMLU	基准	+3.4	知识密集
CMMLU	基准	+4.0	中文知识
BBH	基准	+5.0	通用推理
HumanEval	基准	+3.0	代码能力
MATH	基准	+2.4	数学推理
Multi-Query NIAH	84.2%	97.0%	+12.8%长上下文

语言建模包含两种任务：需要深度计算的组合推理和检索静态知识。Transformer过去把两件事混在一起做消耗大量计算资源重建"查找表"。Engram通过哈希查找直接从巨大嵌入表中提取知识把深层网络解放出来做更复杂的推理——相当于给模型配了一本词典不用每次遇到生字都从头拼写。