DeepSeek V4留下大遗憾Engram记忆模块未集成等待V5

V4什么都好唯独缺了它

DeepSeek V4技术报告中有mHC有CSA有Muon有FP4但唯独没有Engram。这个今年1月由DeepSeek和北大联合开源的记忆模块一度被视为V4的架构地基。它给Transformer加了一个原生知识查表模块做到"能查的别算先查一下"。

AI架构

Engram性能提升数据

测试项目MoE-27B基线Engram-27B提升幅度
MMLU基准+3.4知识密集
CMMLU基准+4.0中文知识
BBH基准+5.0通用推理
HumanEval基准+3.0代码能力
MATH基准+2.4数学推理
Multi-Query NIAH84.2%97.0%+12.8%长上下文

Engram为何如此重要

语言建模包含两种任务:需要深度计算的组合推理和检索静态知识。Transformer过去把两件事混在一起做消耗大量计算资源重建"查找表"。Engram通过哈希查找直接从巨大嵌入表中提取知识把深层网络解放出来做更复杂的推理——相当于给模型配了一本词典不用每次遇到生字都从头拼写。

技术亮点

  • MoE之外的另一条稀疏轴:把存储稀疏化
  • 20%-25%稀疏参数分给Engram达到比较好效果
  • 支持卸载到Host DRAM推理吞吐损失仅2.8%
  • 确定性寻址为CXL内存池化量身定做

后续发展

  1. 北大阿里云团队实现CXL内存池化部署
  2. 独立研究者验证了Engram优化方向
  3. AutoArk团队将Engram扩展到视觉模态
  4. 预计V5或V4.1可能正式集成Engram
数据流架构