为什么 AI 总会忘记？聊聊 AI"记忆"的底层原理

跟 ChatGPT 或 Claude 聊久了你会发现：聊着聊着，它突然不记得你前面说过什么了。你明明十分钟前告诉它"我叫小明"，再问"我叫什么"——它说不知道。

这感觉就像在跟一个得了短期失忆症的人聊天。为什么会这样？这篇文章用通俗的语言讲清楚。

AI 的记忆不是你想的那种记忆

先说结论：AI 没有真正的记忆。

人的记忆是存储在大脑里的——你记住一件事，它就一直在那，直到你忘记。AI 不是这样。AI 的"记忆"本质上是把整个对话历史塞进一个固定大小的窗口里，让它一次性读完。

想象你在跟一个人说话，但每说一句话，你都得把从你们认识以来的所有对话重新念一遍给他听。窗口的大小有上限——比如只能念 5000 个字。聊到第 5001 个字的时候，最早的内容就会被挤掉。他"忘掉"了。

这就是 AI 的 Context Window（上下文窗口）。

上下文窗口到底是什么

现在的 AI 模型都有一个参数叫"上下文长度"。GPT-4 有 128K tokens，Claude 有 200K tokens，Gemini 号称 1M tokens。

什么叫 token？你可以粗略理解为一个中文字 ≈ 1.5-2 个 token，一个英文单词 ≈ 1-2 个 token。128K tokens 大概相当于一本 300 页的中文书的量。

也就是说，AI 一次性能"看到"的对话内容最多就是 128K tokens。超过这个量，模型就必须截断——丢掉最早的内容，只保留最近的部分。

这就解释了为什么会"忘记"——不是它不想记住，是"记住"这件事在它的架构里根本就不存在。它每次回答你的问题，逻辑是这样的：

把你当前的问题 + 整个对话历史打包成一个输入
如果对话历史太长，截断到上下文窗口能装下的范围
把这个输入送进模型，模型基于输入里的内容生成回答
回答完了，这次计算就结束了——没有任何东西被"存入长期记忆"

下次你说话，又回到第 1 步。整个过程里没有"存储"环节。

注意力机制的代价：O(n²)

为什么不能把上下文窗口做得无限大？答案是：算力不够。

AI 模型的核心叫 Transformer，Transformer 的核心叫 Self-Attention（自注意力机制）。

这个机制的工作原理简单说是：让文本中的每个词都关注文本中的其他所有词。

比如"小明买了一本书，他很喜欢它"——“他"需要关注"小明”，“它"需要关注"书”。每个词和每个词之间都要算一遍关联度。

假设你有 n 个 token，每个 token 都要跟其他 n-1 个 token 算一次——总共要算 n×(n-1)≈n² 次。

如果上下文长度翻倍（2n），计算量翻四倍（4n²）。如果翻十倍，计算量翻一百倍。

举个例子：

1000 tokens → 约 100 万次计算
10000 tokens → 约 1 亿次计算
100000 tokens → 约 100 亿次计算
1000000 tokens → 约 1 万亿次计算

就算你有无限多的 GPU，O(n²) 的增长速度意味着扩大上下文窗口的成本是指数级上升的。这就是为什么即使 Gemini 号称 1M 上下文，也做不到"无限记忆"——物理上算不过来。

KV Cache 和"记忆"的物理限制

更技术一点说：Transformer 在生成每个新 token 时需要维护一个叫 KV Cache 的东西。你可以把它理解为"对话历史的压缩摘要"。

这个 KV Cache 的大小跟对话长度成正比。对话越长，KV Cache 越大，显存占用越多。

我们算个账。一张 H100 GPU 有 80GB 显存。一个 70B 参数的模型（比如 LLaMA 3 70B），光加载模型参数就要占大约 140GB，需要两张 H100 才能跑。

如果再加上 KV Cache——128K tokens 的对话可能额外占几十 GB 显存。这还是在用了各种压缩技巧之后的数据。

所以上下文窗口的极限是由显存容量决定的。理论上你可以做到更大的窗口，但要么模型变小（能力变弱），要么显存你得加——两个都是代价。

那些"能记住"的 AI 是怎么做到的

你可能用过一些说"有记忆"的 AI 工具。它们是怎么工作的？

RAG（检索增强生成）。 把对话中的重要信息自动提取出来，存到向量数据库里。每次新对话时，先搜索数据库，找到相关的历史信息，再塞进上下文窗口。

这就是为什么有些 AI 说"我会记住你说过的关键信息"——它不是真的记住了，是每次都在"翻之前的笔记"。

Summary（摘要压缩）。 当对话太长时，把早期的对话内容用 AI 自动压缩成一段摘要（“之前你和小明讨论了买电脑的事，预算 8000，偏好轻薄本”），用摘要替代原文，节省 token。

这就像你记笔记——你不会记住每句话，但会记住"今天聊了什么主题、结论是什么"。

Memory 系统（类似 Hermes 的 Memory 工具）。 把关键信息存到一个持久化的存储里，每次对话开始时自动加载这些信息到系统提示词中。

这三种都是"伪记忆"。它们不改变模型本身的能力——只是每次对话时多给你塞点背景信息，让你"看起来"像是被记住了。

为什么人类记忆和 AI 记忆完全不同

人类记忆是分层的，而且是有选择性的：

感觉记忆：几秒钟，比如你看到一串数字，默念之后几秒就忘了
短期记忆：几分钟到几小时，比如你记一个电话号码到拨完就忘
长期记忆：几天到几十年，而且不是存了就能随时调出来——需要有"线索"触发

更重要的是，人的记忆是动态重组的。你回忆一件事情的时候，不是在读取一个固定文件——是大脑在实时重建那段记忆。这意味着记忆会随着时间、情绪、新的经历而改变。

AI 没有这个机制。AI 的"记忆"就是一个静态文本输入——给什么就是什么，不存在"遗忘曲线"“记忆偏差”"情感色彩影响回忆"这些人类特有的东西。

那未来能实现真正的"无限记忆"吗

短期内不能，除非架构发生根本性变革。

业界在尝试的方向有几个：

状态空间模型（SSM，如 Mamba）。 用不同的数学结构替代 Attention，理论上可以把 O(n²) 降到 O(n)。但目前的 SSM 在实际效果上还不如 Transformer，尤其是在需要精确记忆早期对话细节的场景。

外部存储器架构。 给模型接一个"外部硬盘"——不是把整个对话打包输入，而是让模型学会"什么时候去查外部存储"。这就有点像人类记忆——你需要的时候才去回忆，而不是一直把整个记忆库放在眼前。

混合专家模型（MoE）。 把模型拆成多个"专家"，每个专家只处理特定领域的问题。理论上分摊了内存和算力压力，但训练和部署复杂度高很多。

但这些都还在研究阶段。目前生产环境里实际可用的方案还是老三样：加大上下文窗口（受显存限制）、RAG（受检索精度限制）、Summary（受信息损失限制）。

最后

每次有人抱怨"AI 怎么又忘了"，我都想说：它不是忘了，是根本就没记住过。

在底层，AI 的每一轮对话都是独立的。它看起来"记得"，是因为你每次把历史对话重新喂给它。它看起来"忘记"，是因为历史对话太长，被截断了。

理解这一点，对用好 AI 很重要。你想让它记住某个信息，就每次对话都提一下——或者等它忘掉之后接受这个事实，重新告诉它。

这不是 AI 的 Bug，是当前架构下不可绕过的物理限制。

明航の个人博客

为什么 AI 总会忘记？聊聊 AI 记忆的底层原理

为什么 AI 总会忘记？聊聊 AI"记忆"的底层原理

AI 的记忆不是你想的那种记忆

上下文窗口到底是什么

注意力机制的代价：O(n²)

KV Cache 和"记忆"的物理限制

那些"能记住"的 AI 是怎么做到的

为什么人类记忆和 AI 记忆完全不同

那未来能实现真正的"无限记忆"吗

最后

青云制作_彭明航

为什么 AI 总会忘记？聊聊 AI"记忆"的底层原理

AI 的记忆不是你想的那种记忆

上下文窗口到底是什么

注意力机制的代价：O(n²)

KV Cache 和"记忆"的物理限制

那些"能记住"的 AI 是怎么做到的

为什么人类记忆和 AI 记忆完全不同

那未来能实现真正的"无限记忆"吗

最后

为什么 Android 手机越用越卡？从底层讲清楚

为什么 AI 更擅长开发 Web，却搞不定 App

青云制作_彭明航