当 AI 遇到"经验积累"：CL-bench 揭示的根本瓶颈

slug

type

Post

status

Published

date

Feb 19, 2026

一个反直觉的结论

如果你问一个人："GPT-5.1 能解竞赛数学题，能写代码，能过各种专业资格考试——它还差什么？"

大多数人可能想不到这个答案：它不太会从经验中学习。

CL-bench 做了一件简单却刺穿幻觉的事情：把 500 份真实世界的"情境文档"交给 10 个顶级大模型，要求它们从中学习新知识，再用来解题。结果，平均正确率只有 17.2%，最强的 GPT-5.1 也只有 23.7%。

这不是在测试谁更聪明。这是在测试一种更基础的能力——从新情境中习得可用知识的能力。

人类经验 vs AI 上下文学习

人类积累经验的过程其实很简单：

CL-bench 定义的 Context Learning 对应了完全一样的路径：

两者的本质是一样的——从未见过的信息中习得可用的知识。

人类在这方面天然擅长。给你一份新公司的操作手册，一周后你能独立上手。给你一套陌生的桌游规则，读完就能开始下棋。

大模型呢？CL-bench 给了我们一个清醒的数字。

能力层次的分解

如果把 LLM 处理上下文的能力分层来看，格局就变得很清晰：

层次	人类表现	当前 LLM	CL-bench 发现
记忆——记住看过的内容	有限但够用	长上下文检索，基本解决	NIAH 等任务接近满分
理解——读懂字面含义	自然具备	阅读理解，表现不错	非核心关注
习得——从经历中提炼规律	人类核心优势	极弱（17.2%）	核心瓶颈
迁移——旧经验用到新场景	举一反三	更弱（归纳发现类 11.8%）	最难的任务类型

关键结论是：LLM 做到了"过目不忘"，但"举一反三"的能力极差。

四类情境，四种挑战

CL-bench 把测试情境分成四类，难度依次递增：

1. 领域知识推理（Domain Knowledge Reasoning） 模型要读懂虚构法律体系、新型金融工具、冷门专业知识，然后据此判案、做分析。最好处理的一类，平均 ~22%。

2. 规则系统应用（Rule System Application） 给定新游戏规则、自定义编程语言语法、特殊数学形式，要求严格按规则行事。有趣的分化在这里出现：法律条文类的应用率超过 40%（规则结构明确），但数学形式化类只有 ~12%（需要深度推导）。

3. 程序性任务执行（Procedural Task Execution） 给一份操作手册，要求严格按步骤执行，生成合规的伪代码或操作流程。模型经常能认出"禁止的操作"，却无法给出完整的合规替代方案——知道"不能这样"，但想不出"应该怎样"。

4. 经验发现与仿真（Empirical Discovery & Simulation） 这是最难的类别，平均只有 11.8%。需要从大量实验数据中归纳出物理定律，或在沙盒环境中模拟推演。前三类都是演绎（把给定规则应用出去），这一类是归纳（从数据中发现规律）。两者之间有 ~6% 的系统性差距，且跨运行的方差更大——模型表现极不稳定。