最近阅读 DeepSeek 的一篇新论文时,我有一种久违的“被技术击中”的感觉。不是那种参数又涨了、榜单又破了的刺激,而是——它真的在 重新定义大模型的“大脑结构” 。
如果你熟悉《攻壳机动队》,你会记得一个经典设定:赛博人并不是把一切都塞进脑子里,而是“电子脑 + 外部记忆”的组合。以前我一直觉得这只是科幻,但这一次,DeepSeek 把它做成了工程现实。
我们现在用的大模型,尤其是 MoE 架构,本质上有一个默认假设: 知识和推理是绑在一起的 。每个 Expert 既要“记住世界”,又要“现场推理”。这在小模型时代还能凑合,但当参数规模上到百亿、千亿,这种设计开始变得笨重——你会发现,大量算力其实被浪费在“重复激活静态知识”上,而不是真正的推理。
DeepSeek 这篇论文提出了一个非常激进、但又极其优雅的想法: 把“记忆”和“推理”拆开 。MoE 继续负责动态计算、组合能力、执行推理;而静态知识,交给一个全新的模块——Engram。
你可以把 Engram 理解为“大模型的长期记忆区”,它不参与复杂计算,只负责 极速检索 。
真正让我震惊的是,它不是用传统注意力、不是走一层一层算出来的,而是直接做到 O(1) 复杂度的条件查表 。什么意思?就是模型在刚读到输入时,就已经知道该从哪一块“记忆”里取东西,根本不需要等前面层算完。这带来的工程后果非常疯狂:Engram 的嵌入表可以直接放在 CPU 内存里 ,通过预取机制几乎零成本拉取。哪怕你有几十亿参数的知识库,也 不怎么占 GPU 显存 。
如果你做过大模型推理部署,就知道这意味着什么。以前我们总在算:显存够不够?KV Cache 会不会爆?现在 DeepSeek 等于告诉你: 知识可以不住在 GPU 里 。GPU 专心干一件事——推理。
更关键的是第二个收获,也是我认为更“底层”的改变: 单位参数的推理能力被放大了 。论文里有一句话我反复看了好几遍:Engram 把主干网络的早期层,从“静态模式重建”里解放了出来。说人话就是——以前模型前几层忙着“背书”,现在不用背了,可以直接理解语义、做推理。
举个直观的例子。以前模型看到一道数学题,前几层既要回忆公式,又要解析问题结构;现在公式直接从 Engram 里 O(1) 拉出来,前几层就像“突然加深了一样”,全力投入逻辑拆解。效果也非常实在:DeepSeek 实测,BBH 推理 +5.0,MATH +2.4,代码能力 +3.0。这不是玄学,是 结构性红利 。
如果你把这条技术路线连起来看,会发现 DeepSeek 的演进其实非常清晰。V2 用 MLA 重构注意力效率,V3 把 MoE 的负载均衡做到“几乎无损”。
那 V4 再往前一步,把“记忆”从 MoE 里抽离出来,引入 Engram,几乎是顺理成章的事。MoE 负责“想”,Engram 负责“记”,这已经不是简单的模型优化,而是 一种新的智能体形态 。
从 Agent 的角度看,这件事也特别有意思。我们现在做 RAG、做外部工具、做向量库,本质上都是在“外挂记忆”。而 Engram 是把这件事 内生化 ,变成模型架构的一部分。未来的 Agent,很可能就是:一个强推理核心 + 一个超大、超快、可控的条件记忆系统。
所以当我读完这篇论文时,脑子里只有一个念头:DeepSeek-V4 如果真的把 Engram 融进去,那它已经不只是“下一个版本的模型”,而是在往“类电子脑架构”迈了一大步。春节礼物?说实话,我已经开始期待它会把整个大模型范式往前推多远了。