V4什么都好唯独缺了它
DeepSeek V4技术报告中有mHC有CSA有Muon有FP4但唯独没有Engram。这个今年1月由DeepSeek和北大联合开源的记忆模块一度被视为V4的架构地基。它给Transformer加了一个原生知识查表模块做到"能查的别算先查一下"。
Engram性能提升数据
| 测试项目 | MoE-27B基线 | Engram-27B | 提升幅度 |
|---|---|---|---|
| MMLU | 基准 | +3.4 | 知识密集 |
| CMMLU | 基准 | +4.0 | 中文知识 |
| BBH | 基准 | +5.0 | 通用推理 |
| HumanEval | 基准 | +3.0 | 代码能力 |
| MATH | 基准 | +2.4 | 数学推理 |
| Multi-Query NIAH | 84.2% | 97.0% | +12.8%长上下文 |
Engram为何如此重要
语言建模包含两种任务:需要深度计算的组合推理和检索静态知识。Transformer过去把两件事混在一起做消耗大量计算资源重建"查找表"。Engram通过哈希查找直接从巨大嵌入表中提取知识把深层网络解放出来做更复杂的推理——相当于给模型配了一本词典不用每次遇到生字都从头拼写。
技术亮点
- MoE之外的另一条稀疏轴:把存储稀疏化
- 20%-25%稀疏参数分给Engram达到比较好效果
- 支持卸载到Host DRAM推理吞吐损失仅2.8%
- 确定性寻址为CXL内存池化量身定做
后续发展
- 北大阿里云团队实现CXL内存池化部署
- 独立研究者验证了Engram优化方向
- AutoArk团队将Engram扩展到视觉模态
- 预计V5或V4.1可能正式集成Engram