免责声明：金色财经所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（jinse.com.cn）举报

a16z：AI时代为何需要大模型持续学习

金色财经

刚刚

作者：Malika Aubakirova，Matt Bornstein；来源：a16z；编译：Shaw，金色财经

在克里斯托弗・诺兰的电影《记忆碎片》中，伦纳德・谢尔比活在一个破碎的当下。在遭遇创伤性脑损伤后，他患上了顺行性遗忘症，无法形成新的记忆。每隔几分钟，他的世界就会重置，让他困在永恒的此刻，与刚刚发生的一切脱节，也无法确定接下来会发生什么。为了活下去，他把提示文身刺在身上、拍下拍立得照片，用这些外部道具来记住大脑无法留存的信息。

大语言模型（LLM）也活在类似的永恒当下。它们在训练中获得海量知识，并被固化在参数里，却无法形成新记忆—— 无法根据新的经历更新自身参数。为了弥补这一缺陷，我们为它们搭建了各种辅助框架：把对话历史当作短期便签，把检索系统当作外部笔记本，把系统提示当作指导性文身。但模型本身从未真正将新信息内化。

越来越多的研究者认为，这远远不够。语境学习（ICL）对于答案或答案片段已存在于世界某处的问题是足够的。但对于需要真正原创性发现的问题（如全新的数学问题）、对抗性场景（如网络安全），或是难以用语言表述的隐性知识，有充分的理由表明：模型需要一种在部署后，能将知识与经验直接更新到自身参数中的能力。

语境学习是短暂易逝的。真正的学习需要信息压缩。如果不能让模型持续进行压缩式学习，我们可能会永远困在《记忆碎片》式的永恒当下。反之，如果我们能让模型学会构建自己的记忆架构，而不是依赖定制化外部工具，或许就能打开全新的规模化升级维度。

这一研究领域被称为持续学习。尽管这一概念并非全新（可追溯至McCloskey和Cohen 1989年的研究），但我们认为，它是当前人工智能领域最重要的研究方向之一。过去两三年间，模型能力实现了惊人增长，而模型 “已知” 与 “可知” 之间的差距也愈发明显。因此，本文希望分享我们与该领域顶尖研究者交流所得的见解，厘清持续学习的不同技术路径，并在创业生态中推动这一议题的发展。

先谈谈语境

在论证参数化学习（即通过更新模型权重实现的学习）之前，必须承认：语境学习确实有效，而且有充分理由相信它会持续占据优势。

Transformer 本质上是对序列进行条件化的下一个词预测模型。只要输入合适的序列，无需改动权重，就能展现出惊人的丰富行为。这也是语境管理、提示词工程、指令微调与小样本学习如此强大的原因。智能蕴藏在静态参数中，而模型的外在表现会随着输入窗口内容的变化而剧烈改变。

Cursor 近期关于自主编程智能体规模化的深度分析就很好地说明了这一点：“系统的大量表现，归根结底取决于我们如何为智能体设计提示词。框架和模型固然重要，但提示词更为关键。”

模型权重是固定的。让系统真正运转起来的，是对语境的精细编排：该包含哪些信息、何时进行总结、如何在数小时的自主运行中保持连贯状态。

OpenClaw 就是另一个绝佳案例。它之所以脱颖而出，并非依靠特殊的模型权限（底层模型对所有人都是开放的），而是因为它能高效地将语境与工具转化为可运行的状态：追踪你的操作、结构化中间产物、决定哪些内容需要重新注入提示词，并对过往工作保留持久记忆。OpenClaw 将智能体框架设计提升成了一门独立的专业技术。

提示词刚出现时，许多研究者都怀疑 “仅靠提示词” 能否成为正式的交互方式，当时它看起来更像一种投机取巧的技巧。但这种方式天然适配 Transformer 架构，无需重新训练，还能随着模型性能提升自动扩展。因此，模型越强大，提示词的效果就越好。“简陋但原生” 的交互方式往往能胜出，因为它们直接与底层系统协同，而非与之对抗。到目前为止，大语言模型领域正是如此。

状态空间模型：超强版语境能力

随着主流工作流程从直接调用大语言模型转向智能体循环，语境学习模式的压力正不断增大。以往，语境被完全占满的情况相对少见，通常只有在让模型执行一长串独立任务时才会出现，且应用层可以通过简单方式删减或压缩对话历史。但在智能体场景下，单个任务就可能占用大量可用语境空间。智能体循环中的每一步都依赖上一轮传递的语境，往往在运行 20 至 100 步后就会失效 —— 因为语境耗尽、逻辑连贯性下降，最终无法收敛。

因此，各大主流人工智能实验室如今正投入大量资源（如大规模训练任务），研发具备超大语境窗口的模型。这是一种顺理成章的思路，因为它基于已验证有效的语境学习，且完美契合行业向推理算力转型的大趋势。最常见的架构是将固定记忆层与普通注意力头交替搭配，也就是状态空间模型及各类线性注意力变体（为简便起见，我们统称为 SSM）。在处理长语境时，SSM 的扩展特性从根本上优于传统注意力机制。

其目标是帮助智能体在更长的循环中保持逻辑连贯，将有效步数从约 20 步提升至约 20000 步，同时不损失传统 Transformer 所具备的广泛技能与知识。如果这一思路可行，将是长时运行智能体的重大突破。你甚至可以把这种方式视作一种持续学习：虽然没有更新模型权重，但引入了一个几乎不需要重置的外部记忆层。

因此，这些非参数化方法是真实存在且效果强劲的。任何对持续学习的评估都必须从这里开始。问题不在于当前基于语境的系统是否有效 —— 它们确实有效。而在于我们是否已经触达天花板，以及新方法能否带我们走得更远。

语境的局限：文件柜谬误

“AGI 与预训练所发生的情况是，从某种意义上说，它们超额完成了目标…… 人类并非 AGI。诚然，人类有基础技能体系，但却缺乏海量知识。相反，我们依靠的是持续学习。假如我造出一个超级聪明的 15 岁少年，他其实所知甚少。他是个优秀的学生，充满求知欲。你可以告诉他：‘去做程序员，去当医生。’模型部署本身就需要一段学习、试错的过程。这是一个渐进过程，而不是直接交付一个成品。”—— 伊利亚・苏茨克维

想象一个拥有无限存储空间的系统：世界上最大的文件柜，每条事实都被完美索引，可瞬间检索。它能查到任何信息。但它学会了吗？

并没有。它从未被要求进行信息压缩。

这是我们核心论点的关键，也借鉴了伊利亚・苏茨克维曾提出的观点：大语言模型的本质，就是压缩算法。在训练阶段，它们将互联网压缩进参数中。这种压缩是有损的，而这恰恰是其强大之处。压缩迫使模型发现结构、实现泛化、构建可跨语境迁移的表征。只会死记硬背训练样本的模型，远不如能提炼底层规律的模型。有损压缩本身，就是学习。

讽刺之处在于：正是这套让大语言模型在训练中变得强大的机制（将原始数据压缩为紧凑、可迁移的表征），我们却在模型部署后拒绝让它们继续使用。我们在模型发布时就停止了压缩，转而用外部记忆取而代之。当然，大多数智能体框架会以某种定制方式对语境进行压缩。但从 “惨痛教训” 来看，难道不应该让模型自身直接、大规模地学会这种压缩吗？

Yu Sun 分享了一个数学例子来说明这场争论。以费马大定理为例：350 多年来，没有数学家能证明它 —— 并非因为缺乏相关文献，而是因为解法极具创新性。既有数学体系与最终答案之间的概念鸿沟实在过于巨大。20 世纪 90 年代，英国数学家安德鲁・怀尔斯在近乎与世隔绝地研究七年后，最终攻克了这一难题，他不得不创造出强大的新方法来完成证明。他的论证成功架起了数学两大分支 —— 椭圆曲线与模形式之间的桥梁。尽管美国数学家肯・里贝特此前的研究已证明，只要证明这一关联就能解决费马大定理，但在怀尔斯之前，无人拥有构建这座桥梁的理论工具。俄罗斯数学家格里戈里・佩雷尔曼对庞加莱猜想的证明也是同理。

核心问题在于：这些例子是否证明大语言模型缺失了某种能力 —— 一种更新先验认知、进行真正创造性思考的能力？还是说，这些例子恰恰证明了相反的结论：人类所有知识都只是可供训练与重组的数据，而怀尔斯与佩雷尔曼的成就，只是大语言模型在更大规模下所能实现的效果？

这是一个需要实证检验的问题，目前尚无定论。但我们已经明确，有许多类问题是当前语境学习无法解决的，而参数化学习却可能发挥作用。例如：

此外，语境学习仅限于可用语言表达的内容，而模型权重可以编码那些无法通过提示词用文字传递的概念。有些模式维度过高、过于隐性、结构性过深，无法容纳在语境里。例如，医学影像中区分良性病灶与肿瘤的视觉纹理，或是定义说话人独特节奏的音频微波动，这些模式很难被拆解成精确的文字描述。语言只能近似表达它们。无论提示词多长，都无法传递这类知识 —— 这类知识只能存在于权重之中。它们存在于学习表征的隐空间里，而非文字中。无论语境窗口扩展到多大，总会有无法用文本描述、只能存储在参数里的知识。

这或许可以解释，为什么像 ChatGPT 记忆这类明确的 “机器人记住你” 的功能，往往会让用户感到不适，而非惊喜。用户其实并不想要单纯的回忆，他们想要的是能力。一个内化了你的行为模式的模型，可以泛化应对新场景；而一个只会调取你过往记录的模型则做不到。“这是你之前对这封邮件的回复”（逐字复述）与 “我足够了解你的思路，能预判你需要什么” 之间的差别，就是检索与学习的本质区别。

持续学习入门

持续学习有多种实现路径，核心分界不在于 “有无记忆功能”，而在于：压缩发生在何处。相关方法大致可分为三类，形成一个连续谱系：

无压缩（纯检索，权重冻结）
完全内部压缩（权重级学习，模型真正变聪明）
一个重要的中间方案：模块化方案

语境

在语境这一端，研究团队会构建更智能的检索流程、智能体框架与提示词编排系统。这是目前最成熟的方向：基础设施已得到验证，部署流程也清晰可控。其局限性在于深度，也就是语境长度。

这里有一个值得关注的新兴拓展方向：多智能体架构，将其作为语境本身的扩展策略。如果单个模型受限于 128K 令牌的窗口，那么一组协同运作的智能体集群 —— 每个智能体持有自身语境、专攻问题的一个细分部分并互通结果 —— 可以整体近似实现无限大的工作记忆。每个智能体在自身窗口内完成语境学习，再由系统进行结果聚合。Karpathy 近期的自主研究项目以及 Cursor 构建网页浏览器的案例，都属于这类早期实践。这是一种纯非参数化方法（不改变权重），却极大提升了基于语境的系统所能达到的上限。

模块化

在模块化方向，团队会搭建可挂载的知识模块（压缩键值缓存、适配器层、外部存储库等），在无需重新训练的情况下，让通用模型具备专项能力。一个 80 亿参数的模型搭配合适的模块，就能在特定任务上达到 1090 亿参数模型的效果，且仅占用极少的内存。该方案的吸引力在于，它能兼容现有的 Transformer 架构。

权重更新

在权重更新方向，研究人员正在探索真正的参数化学习，例如仅更新相关部分参数的稀疏记忆层、通过反馈持续优化模型的强化学习循环，以及在推理阶段将语境压缩进权重的测试时训练等。这些是最深入的方案，也是部署难度最高的，但它们能真正让模型完全内化新信息或新技能。

目前已有多种参数化更新机制，以下是几个代表性研究方向：

权重层面的研究领域包含多条并行的技术路线。正则化与权重空间方法是历史最悠久的方向：弹性权重固化会根据参数对先前任务的重要性，对参数变动施加惩罚；权重插值法则在参数空间中对新旧权重组合进行融合，不过这两种方法在大规模应用时往往稳定性不足。测试时训练由 Sun 等人于 2020 年率先提出，此后发展为多种基础架构模块（TTT 层、端到端 TTT、TTT-Discover 等），其思路截然不同：在测试数据上执行梯度下降，在关键节点将新信息压缩进模型参数。元学习则探索能否训练出具备学习能力的模型，从适合小样本场景的 MAML 参数初始化方法，到 Behrouz 等人 2025 年提出的嵌套学习，后者将模型设计为多层级优化结构，在不同时间尺度运行，受生物记忆巩固机制启发，设置了快速适配模块与慢速更新模块。

知识蒸馏通过让学生模型拟合冻结的教师模型权重，来保留旧任务知识。LoRD 通过对模型与回放缓冲区同时剪枝，让这一过程实现高效持续运行。自蒸馏则反转了信号来源，使用模型自身基于专家条件生成的输出作为训练信号，避免了连续微调中常见的灾难性遗忘问题。递归自我进化思路与之相似：STaR 通过模型自生成的推理逻辑实现能力迭代；AlphaEvolve 发现了数十年来未被改进的算法优化方向；Silver 与 Sutton 提出的“经验时代”则将智能体的学习建立在持续不断的经验流之上。

这些研究方向正逐步融合。TTT-Discover 已经将测试时训练与强化学习驱动的探索相结合；HOPE 架构在单一模型中嵌套了快慢双学习循环；SDFT 把蒸馏转化为自我提升的基础单元。不同技术路线的边界日渐模糊 —— 下一代持续学习系统很可能会融合多种策略，用正则化保证稳定性，用元学习加速学习，用自我提升实现能力复利。越来越多的初创团队正围绕这一技术体系的不同层面展开布局。

持续学习领域初创生态

非参数化路线是目前最为大众熟知的方向。智能体框架厂商（Letta、mem0、Subconscious）搭建编排层与辅助架构，管理输入语境窗口的内容；外部存储与检索增强生成（RAG）基础设施（如 Pinecone、xmemory）提供检索底层支持。数据本身已经存在，核心挑战在于如何在合适的时机为模型筛选并提供精准的数据片段。随着语境窗口不断扩大，这类公司的设计空间也随之拓展，尤其是框架领域，一批新创公司正涌现，用于管理日趋复杂的语境策略。

参数化路线则发展阶段更早、技术路线更多元。相关公司尝试实现各类部署后压缩方案，让模型在权重中内化新信息。根据模型发布后的学习方式，这些路径可分为几个明确的方向。

局部压缩：无需重训练的学习。部分团队开发可挂载的知识模块（压缩键值缓存、适配器层、外部记忆库），在不改动核心权重的前提下，为通用模型赋予专项能力。其核心理念是：在可控的稳定性与可塑性平衡下实现有意义的信息压缩，而非仅做检索，因为学习过程被隔离，而非分散在整个参数空间。一个 80 亿参数的模型搭配合适模块，就能在特定任务上达到远更大模型的效果。该路线的优势在于可组合性：模块可直接适配现有 Transformer 架构，能独立替换或更新，且实验成本远低于重新训练。

强化学习与反馈循环：从信号中学习。另一些团队认为，部署后学习最丰富的信号本就存在于部署流程中 —— 用户修正、任务成败、真实场景的奖励反馈等。核心思路是，模型应将每一次交互都视为潜在的训练信号，而非仅当作推理请求。这与人类在工作中提升能力的模式高度相似：实践、获得反馈、内化有效经验。工程难点在于，如何将稀疏、嘈杂甚至带有对抗性的反馈转化为稳定的权重更新，避免灾难性遗忘；而一旦模型能真正从部署中学习，其价值会随时间不断累积，这是纯语境系统无法实现的。

以数据为中心的路径：从优质信号中学习。一个相关但独立的方向认为，瓶颈并非学习算法，而是训练数据与配套系统。这类团队专注于筛选、生成或合成高质量数据，驱动持续更新：其核心前提是，若模型能获取高质量、结构化的学习信号，只需更少梯度步骤即可实现有效提升。这与反馈循环路线的公司理念相通，但更侧重上游问题：不仅关注模型能否学习，更关注学习内容与学习程度。

全新架构：从设计层面实现学习。最激进的路线认为，Transformer 架构本身就是瓶颈，持续学习需要底层完全不同的计算单元 —— 具备连续时间动态特性与内置记忆机制的架构。其核心理念是结构性的：若要打造持续学习系统，就应将学习机制内置在基础架构中。

各大主流实验室也都在这些方向上积极布局。一部分在探索更优的语境管理与思维链推理方案，另一部分则在试验外部记忆模块或离线计算（睡眠期计算）流程。还有多家未公开的初创公司正在研发全新架构。该领域目前仍处于早期阶段，尚无任何一种方法占据绝对优势；而且从应用场景的多样性来看，未来也不太可能出现一家独大的局面。

简单粗暴的权重更新为何行不通

在生产环境中直接更新模型参数，会引发一连串连锁式的失效问题，这些问题至今仍未在大规模场景下得到解决。

这些工程问题已有大量文献记载。灾难性遗忘意味着，模型对新数据的学习敏感度足够高时，会破坏已有的表征结构 —— 这就是稳定性 — 可塑性困境。时序解耦问题则表现为：不变规则与可变状态被压缩进同一组权重中，更新其中一方就会破坏另一方。逻辑整合失效是因为事实更新无法传导至其衍生结论：改动仅局限于词元序列局部，而非语义概念层面。此外，知识消除至今无法实现：不存在可微的减法运算，因此虚假或有害知识无法被精准剔除。

但还有另一类问题较少受到关注。当前训练与部署相分离的模式，不仅是工程上的便利安排，更是安全、可审计性与治理的边界。一旦打破这一界限，多项机制会同时失效。安全对齐可能出现不可预测的退化：即便只在良性数据上进行小范围微调，也可能产生大范围的对齐偏差行为。持续更新会制造数据投毒面—— 一种缓慢、持久地存在于权重中的提示词注入攻击。可审计性不复存在，因为持续更新的模型是一个移动目标，无法进行版本管理、回归测试或一次性认证。当用户交互被压缩进参数时，隐私风险会加剧：敏感信息被嵌入表征中，远比检索式语境更难过滤。

这些都是悬而未决的问题，而非本质上的不可能。解决这些问题，与攻克核心架构难题一样，都是持续学习研究议程的重要组成部分。

从《记忆碎片》到真正的记忆

在《记忆碎片》中，伦纳德的悲剧并非他无法正常生活：他足智多谋，在每一个场景中甚至堪称聪慧。他的悲剧在于永远无法实现能力复利。所有经历都停留在外部 —— 一张拍立得、一处文身、一行别人写下的笔记。他可以检索，却无法压缩新知识。

当伦纳德在自己构筑的迷宫中前行时，真相与信念的界限开始模糊。他的病症不仅剥夺了记忆，还迫使他不断重构意义，使他在自己的故事里同时成为调查者与不可靠的叙述者。

如今的人工智能也受限于同样的困境。我们已经构建出能力极强的检索系统：更长的语境窗口、更智能的框架、协同运作的多智能体集群，而且它们确实有效！但检索不等于学习。一个能查阅任何事实的系统，并未被要求去发现结构，也没有被要求实现泛化。正是那种让训练如此强大的有损压缩机制 —— 将原始数据转化为可迁移表征的能力 —— 在模型部署的那一刻被我们关闭了。

未来的发展路径或许不是单一突破，而是一套分层系统。语境学习仍将是适配的第一道防线：它原生、经过验证且仍在持续优化。模块化机制可以承担个性化与领域专业化的中间任务。但面对原创发现、对抗性适应、无法用语言表达的隐性知识这类难题，我们可能需要模型在训练后仍能将经验压缩进参数。这意味着要在稀疏架构、元学习目标与自我提升循环上取得进展。这或许还要求我们重新定义 “模型” 的内涵：不再是一组固定权重，而是一个不断进化的系统，包含记忆、更新算法，以及从自身经验中抽象规律的能力。

文件柜只会越来越大。但再大的文件柜，也终究只是文件柜。真正的突破，是让模型在部署后继续做那件让它在训练中变得强大的事：压缩、抽象、学习。我们正站在关键节点，即将从失忆般的模型，迈向拥有一丝经验感知的智能体。否则，我们将永远困在属于自己的《记忆碎片》之中。