作者:Malika Aubakirova,Matt Bornstein;来源:a16z;编译:Shaw,金色财经
在克里斯托弗・诺兰的电影《记忆碎片》中,伦纳德・谢尔比活在一个破碎的当下。在遭遇创伤性脑损伤后,他患上了顺行性遗忘症,无法形成新的记忆。每隔几分钟,他的世界就会重置,让他困在永恒的此刻,与刚刚发生的一切脱节,也无法确定接下来会发生什么。为了活下去,他把提示文身刺在身上、拍下拍立得照片,用这些外部道具来记住大脑无法留存的信息。
大语言模型(LLM)也活在类似的永恒当下。它们在训练中获得海量知识,并被固化在参数里,却无法形成新记忆—— 无法根据新的经历更新自身参数。为了弥补这一缺陷,我们为它们搭建了各种辅助框架:把对话历史当作短期便签,把检索系统当作外部笔记本,把系统提示当作指导性文身。但模型本身从未真正将新信息内化。
越来越多的研究者认为,这远远不够。语境学习(ICL)对于答案或答案片段已存在于世界某处的问题是足够的。但对于需要真正原创性发现的问题(如全新的数学问题)、对抗性场景(如网络安全),或是难以用语言表述的隐性知识,有充分的理由表明:模型需要一种在部署后,能将知识与经验直接更新到自身参数中的能力。
语境学习是短暂易逝的。真正的学习需要信息压缩。如果不能让模型持续进行压缩式学习,我们可能会永远困在《记忆碎片》式的永恒当下。反之,如果我们能让模型学会构建自己的记忆架构,而不是依赖定制化外部工具,或许就能打开全新的规模化升级维度。
这一研究领域被称为持续学习。尽管这一概念并非全新(可追溯至McCloskey和Cohen 1989年的研究),但我们认为,它是当前人工智能领域最重要的研究方向之一。过去两三年间,模型能力实现了惊人增长,而模型 “已知” 与 “可知” 之间的差距也愈发明显。因此,本文希望分享我们与该领域顶尖研究者交流所得的见解,厘清持续学习的不同技术路径,并在创业生态中推动这一议题的发展。
在论证参数化学习(即通过更新模型权重实现的学习)之前,必须承认:语境学习确实有效,而且有充分理由相信它会持续占据优势。
Transformer 本质上是对序列进行条件化的下一个词预测模型。只要输入合适的序列,无需改动权重,就能展现出惊人的丰富行为。这也是语境管理、提示词工程、指令微调与小样本学习如此强大的原因。智能蕴藏在静态参数中,而模型的外在表现会随着输入窗口内容的变化而剧烈改变。
Cursor 近期关于自主编程智能体规模化的深度分析就很好地说明了这一点:“系统的大量表现,归根结底取决于我们如何为智能体设计提示词。框架和模型固然重要,但提示词更为关键。”
模型权重是固定的。让系统真正运转起来的,是对语境的精细编排:该包含哪些信息、何时进行总结、如何在数小时的自主运行中保持连贯状态。
OpenClaw 就是另一个绝佳案例。它之所以脱颖而出,并非依靠特殊的模型权限(底层模型对所有人都是开放的),而是因为它能高效地将语境与工具转化为可运行的状态:追踪你的操作、结构化中间产物、决定哪些内容需要重新注入提示词,并对过往工作保留持久记忆。OpenClaw 将智能体框架设计提升成了一门独立的专业技术。
提示词刚出现时,许多研究者都怀疑 “仅靠提示词” 能否成为正式的交互方式,当时它看起来更像一种投机取巧的技巧。但这种方式天然适配 Transformer 架构,无需重新训练,还能随着模型性能提升自动扩展。因此,模型越强大,提示词的效果就越好。“简陋但原生” 的交互方式往往能胜出,因为它们直接与底层系统协同,而非与之对抗。到目前为止,大语言模型领域正是如此。
随着主流工作流程从直接调用大语言模型转向智能体循环,语境学习模式的压力正不断增大。以往,语境被完全占满的情况相对少见,通常只有在让模型执行一长串独立任务时才会出现,且应用层可以通过简单方式删减或压缩对话历史。但在智能体场景下,单个任务就可能占用大量可用语境空间。智能体循环中的每一步都依赖上一轮传递的语境,往往在运行 20 至 100 步后就会失效 —— 因为语境耗尽、逻辑连贯性下降,最终无法收敛。
因此,各大主流人工智能实验室如今正投入大量资源(如大规模训练任务),研发具备超大语境窗口的模型。这是一种顺理成章的思路,因为它基于已验证有效的语境学习,且完美契合行业向推理算力转型的大趋势。最常见的架构是将固定记忆层与普通注意力头交替搭配,也就是状态空间模型及各类线性注意力变体(为简便起见,我们统称为 SSM)。在处理长语境时,SSM 的扩展特性从根本上优于传统注意力机制。

其目标是帮助智能体在更长的循环中保持逻辑连贯,将有效步数从约 20 步提升至约 20000 步,同时不损失传统 Transformer 所具备的广泛技能与知识。如果这一思路可行,将是长时运行智能体的重大突破。你甚至可以把这种方式视作一种持续学习:虽然没有更新模型权重,但引入了一个几乎不需要重置的外部记忆层。
因此,这些非参数化方法是真实存在且效果强劲的。任何对持续学习的评估都必须从这里开始。问题不在于当前基于语境的系统是否有效 —— 它们确实有效。而在于我们是否已经触达天花板,以及新方法能否带我们走得更远。
“AGI 与预训练所发生的情况是,从某种意义上说,它们超额完成了目标…… 人类并非 AGI。诚然,人类有基础技能体系,但却缺乏海量知识。相反,我们依靠的是持续学习。假如我造出一个超级聪明的 15 岁少年,他其实所知甚少。他是个优秀的学生,充满求知欲。你可以告诉他:‘去做程序员,去当医生。’模型部署本身就需要一段学习、试错的过程。这是一个渐进过程,而不是直接交付一个成品。”—— 伊利亚・苏茨克维
想象一个拥有无限存储空间的系统:世界上最大的文件柜,每条事实都被完美索引,可瞬间检索。它能查到任何信息。但它学会了吗?
并没有。它从未被要求进行信息压缩。
这是我们核心论点的关键,也借鉴了伊利亚・苏茨克维曾提出的观点:大语言模型的本质,就是压缩算法。在训练阶段,它们将互联网压缩进参数中。这种压缩是有损的,而这恰恰是其强大之处。压缩迫使模型发现结构、实现泛化、构建可跨语境迁移的表征。只会死记硬背训练样本的模型,远不如能提炼底层规律的模型。有损压缩本身,就是学习。
讽刺之处在于:正是这套让大语言模型在训练中变得强大的机制(将原始数据压缩为紧凑、可迁移的表征),我们却在模型部署后拒绝让它们继续使用。我们在模型发布时就停止了压缩,转而用外部记忆取而代之。当然,大多数智能体框架会以某种定制方式对语境进行压缩。但从 “惨痛教训” 来看,难道不应该让模型自身直接、大规模地学会这种压缩吗?
Yu Sun 分享了一个数学例子来说明这场争论。以费马大定理为例:350 多年来,没有数学家能证明它 —— 并非因为缺乏相关文献,而是因为解法极具创新性。既有数学体系与最终答案之间的概念鸿沟实在过于巨大。20 世纪 90 年代,英国数学家安德鲁・怀尔斯在近乎与世隔绝地研究七年后,最终攻克了这一难题,他不得不创造出强大的新方法来完成证明。他的论证成功架起了数学两大分支 —— 椭圆曲线与模形式之间的桥梁。尽管美国数学家肯・里贝特此前的研究已证明,只要证明这一关联就能解决费马大定理,但在怀尔斯之前,无人拥有构建这座桥梁的理论工具。俄罗斯数学家格里戈里・佩雷尔曼对庞加莱猜想的证明也是同理。
核心问题在于:这些例子是否证明大语言模型缺失了某种能力 —— 一种更新先验认知、进行真正创造性思考的能力?还是说,这些例子恰恰证明了相反的结论:人类所有知识都只是可供训练与重组的数据,而怀尔斯与佩雷尔曼的成就,只是大语言模型在更大规模下所能实现的效果?
这是一个需要实证检验的问题,目前尚无定论。但我们已经明确,有许多类问题是当前语境学习无法解决的,而参数化学习却可能发挥作用。例如:

此外,语境学习仅限于可用语言表达的内容,而模型权重可以编码那些无法通过提示词用文字传递的概念。有些模式维度过高、过于隐性、结构性过深,无法容纳在语境里。例如,医学影像中区分良性病灶与肿瘤的视觉纹理,或是定义说话人独特节奏的音频微波动,这些模式很难被拆解成精确的文字描述。语言只能近似表达它们。无论提示词多长,都无法传递这类知识 —— 这类知识只能存在于权重之中。它们存在于学习表征的隐空间里,而非文字中。无论语境窗口扩展到多大,总会有无法用文本描述、只能存储在参数里的知识。
这或许可以解释,为什么像 ChatGPT 记忆这类明确的 “机器人记住你” 的功能,往往会让用户感到不适,而非惊喜。用户其实并不想要单纯的回忆,他们想要的是能力。一个内化了你的行为模式的模型,可以泛化应对新场景;而一个只会调取你过往记录的模型则做不到。“这是你之前对这封邮件的回复”(逐字复述)与 “我足够了解你的思路,能预判你需要什么” 之间的差别,就是检索与学习的本质区别。
持续学习有多种实现路径,核心分界不在于 “有无记忆功能”,而在于:压缩发生在何处。相关方法大致可分为三类,形成一个连续谱系:
无压缩(纯检索,权重冻结)
完全内部压缩(权重级学习,模型真正变聪明)
一个重要的中间方案:模块化方案

在语境这一端,研究团队会构建更智能的检索流程、智能体框架与提示词编排系统。这是目前最成熟的方向:基础设施已得到验证,部署流程也清晰可控。其局限性在于深度,也就是语境长度。
这里有一个值得关注的新兴拓展方向:多智能体架构,将其作为语境本身的扩展策略。如果单个模型受限于 128K 令牌的窗口,那么一组协同运作的智能体集群 —— 每个智能体持有自身语境、专攻问题的一个细分部分并互通结果 —— 可以整体近似实现无限大的工作记忆。每个智能体在自身窗口内完成语境学习,再由系统进行结果聚合。Karpathy 近期的自主研究项目以及 Cursor 构建网页浏览器的案例,都属于这类早期实践。这是一种纯非参数化方法(不改变权重),却极大提升了基于语境的系统所能达到的上限。
在模块化方向,团队会搭建可挂载的知识模块(压缩键值缓存、适配器层、外部存储库等),在无需重新训练的情况下,让通用模型具备专项能力。一个 80 亿参数的模型搭配合适的模块,就能在特定任务上达到 1090 亿参数模型的效果,且仅占用极少的内存。该方案的吸引力在于,它能兼容现有的 Transformer 架构。
在权重更新方向,研究人员正在探索真正的参数化学习,例如仅更新相关部分参数的稀疏记忆层、通过反馈持续优化模型的强化学习循环,以及在推理阶段将语境压缩进权重的测试时训练等。这些是最深入的方案,也是部署难度最高的,但它们能真正让模型完全内化新信息或新技能。
目前已有多种参数化更新机制,以下是几个代表性研究方向:

权重层面的研究领域包含多条并行的技术路线。正则化与权重空间方法是历史最悠久的方向:弹性权重固化会根据参数对先前任务的重要性,对参数变动施加惩罚;权重插值法则在参数空间中对新旧权重组合进行融合,不过这两种方法在大规模应用时往往稳定性不足。测试时训练由 Sun 等人于 2020 年率先提出,此后发展为多种基础架构模块(TTT 层、端到端 TTT、TTT-Discover 等),其思路截然不同:在测试数据上执行梯度下降,在关键节点将新信息压缩进模型参数。元学习则探索能否训练出具备学习能力的模型,从适合小样本场景的 MAML 参数初始化方法,到 Behrouz 等人 2025 年提出的嵌套学习,后者将模型设计为多层级优化结构,在不同时间尺度运行,受生物记忆巩固机制启发,设置了快速适配模块与慢速更新模块。
知识蒸馏通过让学生模型拟合冻结的教师模型权重,来保留旧任务知识。LoRD 通过对模型与回放缓冲区同时剪枝,让这一过程实现高效持续运行。自蒸馏则反转了信号来源,使用模型自身基于专家条件生成的输出作为训练信号,避免了连续微调中常见的灾难性遗忘问题。递归自我进化思路与之相似:STaR 通过模型自生成的推理逻辑实现能力迭代;AlphaEvolve 发现了数十年来未被改进的算法优化方向;Silver 与 Sutton 提出的“经验时代”则将智能体的学习建立在持续不断的经验流之上。
这些研究方向正逐步融合。TTT-Discover 已经将测试时训练与强化学习驱动的探索相结合;HOPE 架构在单一模型中嵌套了快慢双学习循环;SDFT 把蒸馏转化为自我提升的基础单元。不同技术路线的边界日渐模糊 —— 下一代持续学习系统很可能会融合多种策略,用正则化保证稳定性,用元学习加速学习,用自我提升实现能力复利。越来越多的初创团队正围绕这一技术体系的不同层面展开布局。
非参数化路线是目前最为大众熟知的方向。智能体框架厂商(Letta、mem0、Subconscious)搭建编排层与辅助架构,管理输入语境窗口的内容;外部存储与检索增强生成(RAG)基础设施(如 Pinecone、xmemory)提供检索底层支持。数据本身已经存在,核心挑战在于如何在合适的时机为模型筛选并提供精准的数据片段。随着语境窗口不断扩大,这类公司的设计空间也随之拓展,尤其是框架领域,一批新创公司正涌现,用于管理日趋复杂的语境策略。
参数化路线则发展阶段更早、技术路线更多元。相关公司尝试实现各类部署后压缩方案,让模型在权重中内化新信息。根据模型发布后的学习方式,这些路径可分为几个明确的方向。
局部压缩:无需重训练的学习。部分团队开发可挂载的知识模块(压缩键值缓存、适配器层、外部记忆库),在不改动核心权重的前提下,为通用模型赋予专项能力。其核心理念是:在可控的稳定性与可塑性平衡下实现有意义的信息压缩,而非仅做检索,因为学习过程被隔离,而非分散在整个参数空间。一个 80 亿参数的模型搭配合适模块,就能在特定任务上达到远更大模型的效果。该路线的优势在于可组合性:模块可直接适配现有 Transformer 架构,能独立替换或更新,且实验成本远低于重新训练。
强化学习与反馈循环:从信号中学习。另一些团队认为,部署后学习最丰富的信号本就存在于部署流程中 —— 用户修正、任务成败、真实场景的奖励反馈等。核心思路是,模型应将每一次交互都视为潜在的训练信号,而非仅当作推理请求。这与人类在工作中提升能力的模式高度相似:实践、获得反馈、内化有效经验。工程难点在于,如何将稀疏、嘈杂甚至带有对抗性的反馈转化为稳定的权重更新,避免灾难性遗忘;而一旦模型能真正从部署中学习,其价值会随时间不断累积,这是纯语境系统无法实现的。
以数据为中心的路径:从优质信号中学习。一个相关但独立的方向认为,瓶颈并非学习算法,而是训练数据与配套系统。这类团队专注于筛选、生成或合成高质量数据,驱动持续更新:其核心前提是,若模型能获取高质量、结构化的学习信号,只需更少梯度步骤即可实现有效提升。这与反馈循环路线的公司理念相通,但更侧重上游问题:不仅关注模型能否学习,更关注学习内容与学习程度。
全新架构:从设计层面实现学习。最激进的路线认为,Transformer 架构本身就是瓶颈,持续学习需要底层完全不同的计算单元 —— 具备连续时间动态特性与内置记忆机制的架构。其核心理念是结构性的:若要打造持续学习系统,就应将学习机制内置在基础架构中。

各大主流实验室也都在这些方向上积极布局。一部分在探索更优的语境管理与思维链推理方案,另一部分则在试验外部记忆模块或离线计算(睡眠期计算)流程。还有多家未公开的初创公司正在研发全新架构。该领域目前仍处于早期阶段,尚无任何一种方法占据绝对优势;而且从应用场景的多样性来看,未来也不太可能出现一家独大的局面。
在生产环境中直接更新模型参数,会引发一连串连锁式的失效问题,这些问题至今仍未在大规模场景下得到解决。

这些工程问题已有大量文献记载。灾难性遗忘意味着,模型对新数据的学习敏感度足够高时,会破坏已有的表征结构 —— 这就是稳定性 — 可塑性困境。时序解耦问题则表现为:不变规则与可变状态被压缩进同一组权重中,更新其中一方就会破坏另一方。逻辑整合失效是因为事实更新无法传导至其衍生结论:改动仅局限于词元序列局部,而非语义概念层面。此外,知识消除至今无法实现:不存在可微的减法运算,因此虚假或有害知识无法被精准剔除。
但还有另一类问题较少受到关注。当前训练与部署相分离的模式,不仅是工程上的便利安排,更是安全、可审计性与治理的边界。一旦打破这一界限,多项机制会同时失效。安全对齐可能出现不可预测的退化:即便只在良性数据上进行小范围微调,也可能产生大范围的对齐偏差行为。持续更新会制造数据投毒面—— 一种缓慢、持久地存在于权重中的提示词注入攻击。可审计性不复存在,因为持续更新的模型是一个移动目标,无法进行版本管理、回归测试或一次性认证。当用户交互被压缩进参数时,隐私风险会加剧:敏感信息被嵌入表征中,远比检索式语境更难过滤。
这些都是悬而未决的问题,而非本质上的不可能。解决这些问题,与攻克核心架构难题一样,都是持续学习研究议程的重要组成部分。
在《记忆碎片》中,伦纳德的悲剧并非他无法正常生活:他足智多谋,在每一个场景中甚至堪称聪慧。他的悲剧在于永远无法实现能力复利。所有经历都停留在外部 —— 一张拍立得、一处文身、一行别人写下的笔记。他可以检索,却无法压缩新知识。
当伦纳德在自己构筑的迷宫中前行时,真相与信念的界限开始模糊。他的病症不仅剥夺了记忆,还迫使他不断重构意义,使他在自己的故事里同时成为调查者与不可靠的叙述者。
如今的人工智能也受限于同样的困境。我们已经构建出能力极强的检索系统:更长的语境窗口、更智能的框架、协同运作的多智能体集群,而且它们确实有效!但检索不等于学习。一个能查阅任何事实的系统,并未被要求去发现结构,也没有被要求实现泛化。正是那种让训练如此强大的有损压缩机制 —— 将原始数据转化为可迁移表征的能力 —— 在模型部署的那一刻被我们关闭了。
未来的发展路径或许不是单一突破,而是一套分层系统。语境学习仍将是适配的第一道防线:它原生、经过验证且仍在持续优化。模块化机制可以承担个性化与领域专业化的中间任务。但面对原创发现、对抗性适应、无法用语言表达的隐性知识这类难题,我们可能需要模型在训练后仍能将经验压缩进参数。这意味着要在稀疏架构、元学习目标与自我提升循环上取得进展。这或许还要求我们重新定义 “模型” 的内涵:不再是一组固定权重,而是一个不断进化的系统,包含记忆、更新算法,以及从自身经验中抽象规律的能力。
文件柜只会越来越大。但再大的文件柜,也终究只是文件柜。真正的突破,是让模型在部署后继续做那件让它在训练中变得强大的事:压缩、抽象、学习。我们正站在关键节点,即将从失忆般的模型,迈向拥有一丝经验感知的智能体。否则,我们将永远困在属于自己的《记忆碎片》之中。
声明:本文系金色财经原创稿件,版权属金色财经所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:金色财经",违者将依法追究责任。
提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。
区块链骑士
链捕手ChainCatcher
137LabsCN
道说时间
Block unicorn
