slug
吴恩达老师口中的Evals是什么意思
type
Post
status
Published
date
Feb 10, 2026
tags
推荐
文字
summary
Evals 是 Evaluations(评估) 的缩写
在 AI 开发中,输出是不确定的。你不能要求 AI 每次生成的词都一模一样,所以你需要 Evals。
category
AI实战
icon
password
Evals含义
evals
Evals 是 Evaluations(评估) 的缩写
在 AI 开发中,输出是不确定的。你不能要求 AI 每次生成的词都一模一样,所以你需要 Evals。它是一套专门设计的测试集,包含:
- 输入(Query):用户问了什么。
- 参考答案(Golden Answer/Ground Truth):理想情况下 AI 应该回答什么。
- 评估标准(Metrics):用什么尺度去打分(是像不像?还是事实准不准?)。
Evals 的三种“裁判”
谁来给 AI 的表现打分呢?
- 确定性逻辑 (Deterministic):比如检查输出是否为合法的 JSON,或者是否包含某个关键词。
- 人工评估 (Human in the loop):你(Felix)亲自看,打分。虽然准,但太慢、太贵。
- Model-based Evals (LLM-as-a-Judge):这是现在的核心趋势。 用一个更强的模型(比如 Claude 3.5 Sonnet 或 GPT-4o)来当老师,给你的模型打分。它会根据你设定的准则(比如:“请评估以下回答是否具有攻击性,1-10分”)来评分。
- Author:盛溪
- URL:https://tangly1024.com/article/%E5%90%B4%E6%81%A9%E8%BE%BE%E8%80%81%E5%B8%88%E5%8F%A3%E4%B8%AD%E7%9A%84Evals%E6%98%AF%E4%BB%80%E4%B9%88%E6%84%8F%E6%80%9D
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
.jpg?table=block&id=26f7c1d5-a1e9-80d7-a52b-e71bb7079501&t=26f7c1d5-a1e9-80d7-a52b-e71bb7079501)

