Lazy loaded image
✍️吴恩达老师口中的Evals是什么意思
Words 302Read Time 1 min
2026-2-10
2026-2-15
slug
吴恩达老师口中的Evals是什么意思
type
Post
status
Published
date
Feb 10, 2026
tags
推荐
文字
summary
EvalsEvaluations(评估) 的缩写 在 AI 开发中,输出是不确定的。你不能要求 AI 每次生成的词都一模一样,所以你需要 Evals
category
AI实战
icon
password

Evals含义

evals
EvalsEvaluations(评估) 的缩写
在 AI 开发中,输出是不确定的。你不能要求 AI 每次生成的词都一模一样,所以你需要 Evals。它是一套专门设计的测试集,包含:
  • 输入(Query):用户问了什么。
  • 参考答案(Golden Answer/Ground Truth):理想情况下 AI 应该回答什么。
  • 评估标准(Metrics):用什么尺度去打分(是像不像?还是事实准不准?)。

Evals 的三种“裁判”

谁来给 AI 的表现打分呢?
  • 确定性逻辑 (Deterministic):比如检查输出是否为合法的 JSON,或者是否包含某个关键词。
  • 人工评估 (Human in the loop):你(Felix)亲自看,打分。虽然准,但太慢、太贵。
  • Model-based Evals (LLM-as-a-Judge)这是现在的核心趋势。 用一个更强的模型(比如 Claude 3.5 Sonnet 或 GPT-4o)来当老师,给你的模型打分。它会根据你设定的准则(比如:“请评估以下回答是否具有攻击性,1-10分”)来评分。
上一篇
claude code创建工作树提升效率
下一篇
如何安装playwright