slug
当 AI 遇到"经验积累":CL-bench 揭示的根本瓶颈
type
Post
status
Published
date
Feb 19, 2026
tags
推荐
文字
思考
summary
如果你问一个人:"GPT-5.1 能解竞赛数学题,能写代码,能过各种专业资格考试——它还差什么?"
大多数人可能想不到这个答案:它不太会从经验中学习。
category
技术分享与前沿技术域认知
icon
password
论文:CL-bench: A Benchmark for Context Learning arXiv: 2602.03587 | 2026 年 2 月 来自腾讯混元团队 × 复旦大学
一个反直觉的结论
如果你问一个人:"GPT-5.1 能解竞赛数学题,能写代码,能过各种专业资格考试——它还差什么?"
大多数人可能想不到这个答案:它不太会从经验中学习。
CL-bench 做了一件简单却刺穿幻觉的事情:把 500 份真实世界的"情境文档"交给 10 个顶级大模型,要求它们从中学习新知识,再用来解题。结果,平均正确率只有 17.2%,最强的 GPT-5.1 也只有 23.7%。
这不是在测试谁更聪明。这是在测试一种更基础的能力——从新情境中习得可用知识的能力。
人类经验 vs AI 上下文学习
人类积累经验的过程其实很简单:
CL-bench 定义的 Context Learning 对应了完全一样的路径:
两者的本质是一样的——从未见过的信息中习得可用的知识。
人类在这方面天然擅长。给你一份新公司的操作手册,一周后你能独立上手。给你一套陌生的桌游规则,读完就能开始下棋。
大模型呢?CL-bench 给了我们一个清醒的数字。
能力层次的分解
如果把 LLM 处理上下文的能力分层来看,格局就变得很清晰:
层次 | 人类表现 | 当前 LLM | CL-bench 发现 |
记忆——记住看过的内容 | 有限但够用 | 长上下文检索,基本解决 | NIAH 等任务接近满分 |
理解——读懂字面含义 | 自然具备 | 阅读理解,表现不错 | 非核心关注 |
习得——从经历中提炼规律 | 人类核心优势 | 极弱(17.2%) | 核心瓶颈 |
迁移——旧经验用到新场景 | 举一反三 | 更弱(归纳发现类 11.8%) | 最难的任务类型 |
关键结论是:LLM 做到了"过目不忘",但"举一反三"的能力极差。
四类情境,四种挑战
CL-bench 把测试情境分成四类,难度依次递增:
1. 领域知识推理(Domain Knowledge Reasoning)
模型要读懂虚构法律体系、新型金融工具、冷门专业知识,然后据此判案、做分析。最好处理的一类,平均 ~22%。
2. 规则系统应用(Rule System Application)
给定新游戏规则、自定义编程语言语法、特殊数学形式,要求严格按规则行事。有趣的分化在这里出现:法律条文类的应用率超过 40%(规则结构明确),但数学形式化类只有 ~12%(需要深度推导)。
3. 程序性任务执行(Procedural Task Execution)
给一份操作手册,要求严格按步骤执行,生成合规的伪代码或操作流程。模型经常能认出"禁止的操作",却无法给出完整的合规替代方案——知道"不能这样",但想不出"应该怎样"。
4. 经验发现与仿真(Empirical Discovery & Simulation)
这是最难的类别,平均只有 11.8%。需要从大量实验数据中归纳出物理定律,或在沙盒环境中模拟推演。前三类都是演绎(把给定规则应用出去),这一类是归纳(从数据中发现规律)。两者之间有 ~6% 的系统性差距,且跨运行的方差更大——模型表现极不稳定。
失败模式分析
论文的错误分析揭示了两类主要失败:
上下文忽视(Context Ignored):模型根本没用到文档里的新知识,靠预训练直觉作答。表现好的模型,这类错误相对少一些。
上下文误用(Context Misused):读了,但理解歪了,或者应用时出了偏差。这类错误在所有模型中都高度稳定,超过 60%——即使是最强的模型也普遍存在。
还有一类有趣的现象:格式错误(Format Error)同样居高不下,GPT-5.1 超过 35%,Claude Opus 4.5 超过 40%。这说明模型不只是"没学会",还经常"没按要求做"。
上下文长度也是系统性瓶颈。从 0–4K token 到 32K+ token,所有模型的正确率都出现了断崖式下跌,从 25–35% 跌到 5–10%。这不是偶然——越长的上下文,习得就越难。
这对主流技术方向意味着什么
RAG 的隐含假设可能有问题
RAG 的逻辑链是:检索到相关文档 → 放进上下文 → 模型利用它解答。
CL-bench 质疑了这个链条的中间环节。模型只在 17% 的情况下能有效利用上下文中的新知识。检索做得再好,模型学不会也是白搭。
Agent 的经验循环受限
Agent 的一个常见设计是把历史执行记录放入上下文作为"经验反馈"。但如果模型从新情境中学习的能力本就薄弱,这个循环就像在漏桶里倒水——形式上有了经验,实质上改进有限。这可能是 Agent 频繁重复犯同类错误的深层原因。
更新、更大的模型不等于解决问题
论文里有一个反直觉的数据:GPT-5.2 的整体表现比 GPT-5.1 低 5.6%。原因在于它在长上下文推理和约束遵循上出现了系统性退步。这说明 Context Learning 并不随模型规模或版本迭代自动提升,它可能需要专门的训练信号和评估目标。
为什么这是根本性的差距
从训练范式角度来看,问题根源很清晰:
- 预训练阶段:通过海量数据学到通用知识,这是离线的、一次性的
- 推理阶段:在 context window 内临时使用信息,但无法真正将其内化为新知识
- ICL(Few-shot):本质更接近"模式匹配"——模型认出"这像我见过的某种模式",而非真正学会了新东西
类比一下:LLM 像一个读过所有教科书但没有实际工作经验的毕业生。给他一份新公司的操作手册,他能"读懂每个字",但很难真正按手册操作解决实际问题。
人类的经验积累是参数更新(大脑真的在改变)。LLM 的"上下文学习"只是临时工作记忆(不留痕迹)。这是架构层面的根本差异,不是参数量的问题。
路径展望
论文提出了几个方向,值得关注:
专项训练数据:构建专门针对上下文知识习得的训练集,强迫模型从文档中学习而非依赖预训练记忆。
课程学习:从简单子任务渐进到复杂情境,先让模型掌握基础的上下文理解,再处理需要整合多个知识点的任务。
架构创新:Transformer 的 attention 机制是否天然不适合深度知识习得?显式的记忆结构(类似 MemoryBank、MemGPT 的思路)或许能提供不同的解法。
评估驱动:CL-bench 的 Rubric-based 评估框架本身也是一个贡献——细粒度的反馈信号可以作为 RL 训练的 reward,引导模型学会"完整习得"而非"部分合规"。
小结
CL-bench 揭示的不是"AI 不够聪明",而是"AI 缺少一种特定的智识能力"。
17.2% 这个数字背后,是大量的上下文被忽视、被误读、被部分使用。模型能记住上下文,但很难真正从中学到东西。
这可能正是当前 LLM 在真实专业场景中表现落差的深层原因——不是知识储备不够,而是面对新情境的知识习得能力,还远未到位。
论文链接:arXiv 2602.03587Benchmark 地址:clbench.com
- Author:盛溪
- URL:https://tangly1024.com/article/%E5%BD%93%20AI%20%E9%81%87%E5%88%B0%22%E7%BB%8F%E9%AA%8C%E7%A7%AF%E7%B4%AF%22%EF%BC%9ACL-bench%20%E6%8F%AD%E7%A4%BA%E7%9A%84%E6%A0%B9%E6%9C%AC%E7%93%B6%E9%A2%88
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
.jpg?table=block&id=26f7c1d5-a1e9-80d7-a52b-e71bb7079501&t=26f7c1d5-a1e9-80d7-a52b-e71bb7079501)

