Appearance
Agent 评估与反思机制
方向定位:聚焦 Agent 输出质量与链路推理的"评估"和"反思"两大机制——从 Self-Refine 反思循环、独立 Critic Agent、评估七大方法(Outcome/Tool Call/PRM/LLM-as-Judge/Trajectory/State/Efficiency),到自动化评测平台的闭环优化实践。不研究 Agent 架构形态本身(→ Agent 架构方向)、不深入工程实现细节(→ Agent 工程实践方向),只研究"如何让 Agent 知道自己做得对不对、并据此改进"。 当前版本:v0.2 首次构建:2026-05-12 最近更新:2026-05-19 来源数:5 篇
方向定位
Agent 评估与反思机制研究的核心问题是:"Agent 输出/链路质量如何被度量、被改进?"。它的边界包括:
- 包含:反思机制(Self-Refine 三步循环、评估/改进 prompt 设计、单 Agent 自反思 vs 多 Agent Critic)、七大评估方法(最终结果/工具调用准确率/PRM/LLM-as-Judge/轨迹对比/状态评估/效率指标)、Pass@k vs Pass^k、自动化评测平台设计、隔夜自优化闭环
- 不包含:Agent 内部架构与多 Agent 协作(→ Agent 架构方向)、记忆系统的优化(→ Agent 记忆方向)、工程实现的全景指南(→ Agent 工程实践方向)
- 与相邻方向的区别:本方向只看"评估和反思"两个机制本身——不讨论 Agent 怎么搭、只讨论"搭好后怎么验证它做得好不好、怎么让它改进"
评估能力是 Agent 工程化的命门——没有评估,所有"做得好"都是错觉;没有反思,Agent 永远只是"一口气完成的"输出机器。
知识图谱
- 反思机制核心三步
- 生成(Generate)→ 评估(Evaluate)→ 改进(Refine)
- Self-Refine 论文(Madaan et al.)
- 反思的两种粒度
- 步骤级反思(每步检查)
- 任务级反思(整体检查)
- 反思的两种实现
- 单 Agent 自反思(成本低,对自身错误不敏感)
- 多 Agent Critic(独立审查员,质量高成本高)
- 链路评估七大方法
- Outcome-based(最终结果)
- Tool Call Accuracy(工具调用准确率)
- PRM(过程奖励模型)
- LLM-as-Judge(LLM 审查轨迹)
- Trajectory Comparison(轨迹对比)
- State-based(状态检查)
- Efficiency(效率指标)
- 评估的两种模式
- Pass@k(能力边界)vs Pass^k(上线质量)
- Transcript(说了什么)vs Outcome(真做到了什么)
- 自动化评测平台
- AI First 设计理念(只允许 AI 操作)
- 三层数据模型(任务/评测集/报告)
- 标准型 vs Rubrics 型评测集
- 隔夜自优化闭环
- Coding Agent + 评测 Agent 协作
- 版本递增分数稳步上升
- 可观测性两层架构
- 人工抽样标注(建基准)
- LLM 自动评估(全量覆盖)
核心概念
概念 1:Self-Refine 三步循环
来自 Madaan et al. 的 Self-Refine 论文——给 LLM 加一个"回头检查"的环节。
生成(Generate)→ 评估(Evaluate)→ 改进(Refine)→ 循环
直到:LLM 回复 PASS 或 达到最大轮次类比:草稿 → 批阅 → 修改 → 再审阅
为什么需要反思:LLM 第一次输出是"一口气完成"的,缺乏自检环节。常见问题三类:
- 逻辑跳跃:推理步骤不完整
- 遗漏细节:任务要求没全覆盖
- 表达含糊:意思到了但说得不清晰
给它"回头检查"的机会,它自己有能力发现并修正——反思机制就是把这个环节工程化。
决策入口:反思 vs 评估机制选型:反思(在线,改当下输出)和评估(离线,度量整体能力)看似都是"让 Agent 知道做得对不对",但适用场景完全不同——选错会导致工程浪费。完整选型决策表见 Agent设计哲学与决策框架 概念 7。
与记忆方向的接口:反思循环跑通之后,PASS / 失分项 / Critic 批注如何回写记忆、何时由情景记忆提炼为语义/程序记忆,详见 Agent记忆系统 方法 3(含"评估反馈如何回写记忆"小节)。本方向只到"评估输出"为止,不重复描述存储模型。
概念 2:评估 Prompt 设计要点
评估 Prompt 模板:
任务:{task}
当前输出:
{current_output}
请评估以上输出:
1. 有没有事实错误或逻辑问题?
2. 有没有遗漏重要内容?
3. 表达是否清晰准确?
如果输出已经足够好,回复「PASS」;
否则指出具体问题并给出改进建议。两个设计要点:
- 给出明确检查维度(事实/逻辑/完整性/表达)——不让 LLM 自由发挥,否则容易流于表面
- PASS 机制必须存在——没有明确出口,LLM 会为了反思而反思,把对的东西改错
概念 3:改进 Prompt 三要素
改进 Prompt 模板:
原始任务:{task}
当前输出:{current_output}
评估意见:{reflection}
请根据评估意见改进输出:三要素缺一不可:
| 缺少的输入 | 导致的问题 |
|---|---|
| 缺原始任务 | 改着改着偏离目标 |
| 缺原始输出 | 不知道在什么基础上改 |
| 缺评估意见 | 不知道改哪里,可能全部重写 |
核心论断:三者都在,LLM 才能有针对性地修改,而不是把内容全部重写一遍。
概念 4:反思的两种粒度对比
| 维度 | 步骤级反思 | 任务级反思 |
|---|---|---|
| 触发时机 | 每个工具调用/推理步骤后立即检查 | 整个任务执行完后做一次整体评估 |
| 核心优势 | 早发现早纠正,错误不会在后续步骤中放大 | 开销小(只多 1 次调用),能发现整体视角的矛盾 |
| 核心缺陷 | 10 步任务可能实际调用 20 次 LLM | 中途出大问题到最后才发现,前面执行全浪费 |
| 适用场景 | 步骤之间强依赖,前一步错了后面全错 | 步骤相对独立,最终整体质量更重要(如生成报告) |
概念 5:单 Agent 自反思 vs 多 Agent Critic
单 Agent 自我反思的局限:评估者和生成者是同一个模型,生成时形成的"内部逻辑"会在评估时沿用,对自己的错误不够敏感,容易"自洽"。
多 Agent Critic 的优势:
- 独立 Critic Agent 唯一职责是找问题,无包袱
- 类似代码 review 比自查发现的问题质量更高
- 代价:系统复杂度和调用成本进一步增加
流程:
执行 Agent 生成输出 → Critic Agent 审查并给出批注
→ 执行 Agent 根据批注修改 → Critic Agent 再次确认适用场景:质量要求极高的场景——生成代码后让独立测试 Agent 验证、生成分析报告后让事实核查 Agent 交叉验证。普通场景用自我反思就够。
概念 6:链路评估七大方法全景
来自波哥的大模型算法岗面试复盘——Agent 推理评估比传统 NLP 难的四个根因:链路很长(5-20 步)、过程不透明(CoT 难度量)、路径不唯一(多条合理路径)、错误会级联(早期失误后续偏离但可能"歪打正着")。
| 方法 | 评估对象 | 是否需要标注 | 适用场景 | 关键局限 |
|---|---|---|---|---|
| 1. 最终结果 | 输出 | 需要标准答案 | 通用 | 无法定位问题、可能歪打正着 |
| 2. 工具调用准确率 | 每步调用 | 需要标准路径 | 路径明确的任务 | 不容忍替代路径 |
| 3. PRM 过程奖励模型 | 每步推理 | 需要逐步标注 | 长链路推理 | 标注成本极高 |
| 4. LLM-as-Judge | 完整轨迹 | 不需要 | 开放式任务 | Judge 有偏差、长轨迹评估能力下降 |
| 5. 轨迹对比 | 多条轨迹 | 可选 | 配合 GRPO 训练 | 采样成本高、排序主观 |
| 6. 状态检查 | 中间状态 | 需定义状态 | 流程型任务 | 泛化成本高 |
| 7. 效率指标 | 资源消耗 | 不需要 | 通用 | 不反映推理质量 |
实际系统中的组合:最终结果 + 中间步骤 + 效率指标——单一方法都有盲区,组合才能覆盖完整质量画像。
概念 7:PRM(过程奖励模型)的训练范式
来自 OpenAI "Let's Verify Step by Step" 论文——证明 PRM 在数学推理中显著优于只看结果的 ORM(Outcome Reward Model)。
训练做法:
- 收集人工标注的逐步推理质量数据(每步标记"正确/中性/错误")
- 训练 PRM 学习给中间步骤打分
- 评估时,PRM 对 Agent 链路每步输出置信度分数
核心价值:能精确定位长链路推理的薄弱环节,把"结果评估"升级为"过程评估"——但标注成本极高。
与训练闭环的关系:PRM 分数可以直接作为 GRPO 等 group-based RL 训练范式的 reward 信号——评估与训练形成闭环。
概念 8:Pass@k vs Pass^k
来自阿里十二维实践——这两个指标不能混用。
| 指标 | 含义 | 用法 |
|---|---|---|
| Pass@k | k 次至少一次正确 | 验证能力边界,开发阶段用 |
| Pass^k | k 次全部正确 | 保证上线质量,每次变更跑回归 |
关键判断:开发阶段要看 Pass@k(能不能做到),上线阶段要看 Pass^k(稳不稳定)。
概念 9:Transcript vs Outcome 必须都覆盖
来自阿里十二维实践——这两个评估维度缺一不可。
- Transcript(说了什么):Agent 说"订票已完成"
- Outcome(真做到了什么):数据库真的生成订单
陷阱:
- 只看 transcript 会漏掉"说了但没做到"
- 只看 outcome 看不出中间步骤走歪
概念 10:评测集的两种类型
来自阿里 Eval 平台实践。
| 类型 | 适用场景 | 关键价值 |
|---|---|---|
| 标准型(Standard) | 有明确成功/失败状态,功能性测试 | 二元判断,自动化容易 |
| Rubrics 型(等级评分) | 无法简单判断对错时,生成不同等级用例 | 把"对/错"升级为多维度等级评估 |
Rubrics 关键价值:OKR 查询场景,不止是"查没查出来",而是从数据准确性、格式规范、响应速度等多维度分级评分。
概念 11:AI First 评测平台设计理念
关键洞察:从入口层面杜绝人干苦力活——平台只暴露 API/Skill 接口给 AI Agent 操作,人无法直接操作 UI,强制所有评测工作由 AI 完成。
传统评测痛点:人收集评测集苦且累、评测执行烧时间、评测同学意愿不强。
AI First 平台三个核心实体:
| 实体 | 说明 | 关系 |
|---|---|---|
| 评测任务 | 明确评测目标 + 验收标准 | 1 个任务 → N 个评测集 |
| 评测集 | 具体评测步骤 + 预期结果 | 绑定到任务 |
| 评测报告 | 基于评测集的结果 + 打分 | 1 个任务 → N 个报告 |
核心论断:不是做不到让人操作,而是故意不让人操作——倒逼全流程 AI 化,比"也支持手动"要彻底得多。
概念 12:Ensemble Aggregator —— 多 Agent 并行 + 综合的去偏范式
核心思想:从"Self-Refine 自评" → "Critic Agent 双角色" → "Ensemble Aggregator 多 Agent" 是评估机制的三级跃迁。Ensemble 让 N 个独立 Agent 从不同视角(保守 / 激进 / 唱反调)分析同一问题,由 Aggregator Agent 综合输出最终判断 + 置信度。
与本方向已有概念的递进关系:
| 评估范式 | 角色数 | 解决的盲区 | 工程成本 |
|---|---|---|---|
| Self-Refine(概念 1) | 1 | 一次性输出未经回顾 | 低(同模型多轮) |
| 多 Agent Critic(概念 5) | 2 | 自我评估的"自洽陷阱" | 中(独立 Critic prompt) |
| Ensemble Aggregator | N+1 | 单视角的系统性偏差 | 高(多次并行 + 综合) |
关键工程取舍:
- 适合:"去偏" > "速度"的场景——高风险决策、fact-checking、要求覆盖多个视角的诊断
- 不适合:实时响应、Token 预算敏感场景——Ensemble 是用 N 倍 Token 换更稳的判断
与其他方向的关联:
- 这是「Agent 架构与协作模式」概念 15「Ensemble」的评估视角——架构方向关心"如何组织 N 个 Agent",本方向关心"如何用 Ensemble 评估输出质量"
- 与「Pass@k vs Pass^k」(概念 8)哲学呼应:都是用"多采样"换稳定性,但 Pass^k 关心全部都对,Ensemble 关心综合更接近真
(来源:FareedKhan-dev/all-agentic-architectures 13_ensemble.ipynb,2026-05-19)
方法论与框架
方法 1:Self-Refine 反思循环工程实施
核心思想: 给 LLM 一个"回头检查"的机会,工程上必须设硬性轮次上限防止死循环。
操作步骤:
- 生成(Generate):LLM 产出初版输出
- 评估(Evaluate):用专门的评估 prompt 找问题(明确维度 + PASS 出口)
- 改进(Refine):用专门的改进 prompt 修正(必须传入任务+输出+评估意见三要素)
- 检查 LLM 回复是否包含 PASS 或达到最大轮次
- 否则回到步骤 2
防死循环(工程必须项):
- 必须设最大轮次,通常 2-3 轮,绝对不能依赖 LLM 自己判断停止
- 原因:LLM 有时陷入"为了改而改"循环,每轮改动微小但实质无进步,系统一直转圈
- 硬性轮次上限是唯一可靠的退出机制
成本意识:3 轮反思 = 至少 3 倍 LLM 调用,延迟和成本线性增加。
方法 2:反思机制的工程权衡决策框架
核心思想: 反思不是越多越好,只在质量要求高的关键节点启用。
值得开反思的场景:
- 输出质量要求高、错误代价大的关键节点(最终报告、重要决策推理)
- 任务复杂、LLM 容易遗漏细节
- 长链路推理,中间错误会级联
不值得开的场景:
- 简单直接的任务(格式转换、简单问答)——纯浪费
- 实时性要求高的场景——一次反思延迟从 1 秒涨到 3 秒
Agent 设计时的应用:明确标注"高质量关键节点"(适合开反思)vs "低敏感节点"(不适合)。
方法 3:链路评估方法的组合选型
核心思想: 单一评估方法都有盲区,组合才能覆盖完整质量画像。
选型决策树:
任务有明确标准答案?
├─ 有 → Outcome + 工具调用准确率
└─ 无 → LLM-as-Judge + 状态检查
↓
长链路 + 中间步骤重要?
├─ 是 → 加 PRM(如果有预算)或 LLM-as-Judge 逐步评估
└─ 否 → 保持简单
↓
始终叠加:效率指标(步数 + Token + 延迟 + 纠错能力)实际系统推荐组合:最终结果 + 中间步骤 + 效率指标。
方法 4:三类评分器选择顺序
来自阿里十二维实践。
| 评分器类型 | 确定性 | 适用场景 |
|---|---|---|
| 代码评分器 | 最高 | 有明确正确答案就优先用 |
| 模型评分器 | 中 | 语义质量、推理过程 |
| 人工评分器 | 低(但权威) | 建立基准、校准自动 judge |
核心顺序:代码评分器 > 模型评分器 > 人工评分器(仅做基准校准)。
方法 5:从零搭评测的关键判断
核心思想: 先解决定义,再收集数据。
关键判断:如果两个领域专家拿同一案例独立判断结论不一致,这个案例的验收标准就还没写清楚——先解决定义,再收集数据。
先修评测再改 Agent:评测分数下降时,先查环境(资源不足/评分器 bug/测试用例脱节),再动 Agent。基于失真信号调 Agent 会越改越坏——这一原则与软件工程"先检查测试用例再检查代码"完全一致。
方法 6:可观测性两层架构
核心思想: 人工标注建基准,LLM 自动评估做全量覆盖。
| 层 | 实现 | 职责 |
|---|---|---|
| 第一层 | 人工抽样标注(错误案例/长对话/负反馈) | 摸清失败模式 |
| 第二层 | LLM 自动评估 | 以第一层标注结果校准,做全量覆盖 |
在线评测采样策略(10%-20% Trace):
- 负反馈:100% 进队列
- 高 token 消耗(Agent 绕圈子):优先审查
- 模型/Prompt 变更后:头 48 小时全量审查
事件流做底座:tool_start/tool_end/turn_end 三个节点 emit 事件,一次发布多路消费(日志/UI/评测/审查)——主循环不需要为下游改代码。
方法 7:隔夜自优化闭环(Coding Agent + 评测 Agent)
核心思想: 把"评测-优化"做成闭环——Coding Agent 读评测报告,理解失分项,针对性修改代码,重新评测验证,形成自动化红绿灯循环。
操作步骤:
- 给 Coding Agent 任务:读取评测平台 Skill 说明
- 对指定功能创建评测任务
- 生成评测集并执行评测(产出 v1 报告)
- 基于评测报告自动优化代码
- 优化后重新评测(产出 v2 报告)
- 至少 N 轮(实践 3 轮,分数 90.7 → 97.4 → 99.1)
两个先决条件(不满足则不能上):
- 系统 UI 规范和基础设施要达标——AI 在 UI 里"迷路"=用户也会迷路,这本身是质量问题的信号
- 系统本身的 AI Coding 含量要高——手工系统"约定大于配置"太多,AI 难以跑通和优化;老系统没有本地开发环境、到处断头路,无法支撑自动化
关键观察:分数稳步上升(90.7 → 97.4 → 99.1)显示递减效应明显——三轮就接近天花板,后续轮次的边际收益急剧下降。适合快速提升到 90+ 而非精细打磨到 100。
案例库
案例 1:Self-Refine 论文核心循环
- 背景:Madaan et al. 提出 Self-Refine 通用框架,让 LLM 自生成、自评估、自改进
- 核心机制:生成 → 评估(找问题)→ 改进(修正)→ 循环至 PASS 或最大轮次
- 结果:在多个任务上无需训练即可提升输出质量
- 启发:反思机制不是模型能力的本质提升,而是把"内在的修正能力"工程化暴露出来
案例 2:OpenAI "Let's Verify Step by Step" PRM 实证
- 背景:在数学推理任务上对比 PRM(过程奖励模型)vs ORM(结果奖励模型)
- 做法:人工标注每步推理的"正确/中性/错误"标签 → 训练 PRM → 用 PRM 给链路打分
- 结果:PRM 显著优于 ORM,能精确定位错误步骤
- 启发:长链路推理任务中,过程评估比结果评估更有价值——但标注成本是最大门槛。
案例 3:钉钉文档 MCP 自动评测
- 背景:阿里 QoderWork 团队对钉钉文档 MCP 做功能评测
- 做法:
- Agent 读取 Skill 说明
- 自动生成 13 个测试用例(用例之间有连贯性:创建文档 → 查询 → 修改 → 删除完整链路)
- 逐个执行 → 提交报告
- 结果:报告 95 分
- 启发:Agent 生成的评测集质量决定优化天花板——AI 生成的评测集如果维度不够或覆盖不全,优化也只能在已覆盖的维度上提升,盲区依然是盲区。
案例 4:绘报 PPT 项目 UI + 内容质量评测
- 背景:阿里绘报(汇报文稿生成工具)需要评测 5 个 PPT 项目
- 关键突破:不仅测 UI 功能,还评测 AI 生成内容的质量(双维度)
- 做法:Agent 连接浏览器,共享登录态,打开系统逐个评测
- 结果:耗时约 20 分钟,报告 85 分
- 启发:评测 AI 生成内容的质量需要 Rubrics 型评测集(多维度等级评分),不能用标准型(二元判断)。
案例 5:阿里隔夜自优化闭环(90.7 → 97.4 → 99.1)
- 背景:用 Cursor + 评测平台做隔夜自动优化
- 流程:发任务 → 生成评测集 → 等系统 AI 跑完 → 评测 → 基于报告自动修改代码 → 再评测,至少三轮
- 结果:v1=90.7 → v2=97.4 → v3=99.1,五个维度稳步提升;每轮约 1 小时,三轮共 3-4 小时,人直接睡觉
- 启发:
- 闭环成立的两个先决条件——UI 规范 + AI Coding 含量高
- 递减效应明显:三轮接近天花板,后续边际收益急剧下降——适合 90+,不适合 100
案例 6:ChatGPT 四层记忆架构(与评测的间接关联)
- 核心要点:ChatGPT 生产级记忆系统并未使用向量数据库或 RAG,靠简洁的分层 + 严格容量上限就能跑通。
- 对评测体系的启发:清晰分层 + 容量上限 + 主动写入策略,可能比技术栈复杂的方案更有效——评测组合的选择同样应遵循"简单可靠 > 花哨算法"。
- 完整四层架构(Session Metadata / User Memory / Conversation Summary / Current Session)的拆解 → 见 Agent记忆系统 案例 4,本方向不重复展开。
案例 7:评测平台的最小可行设计
- 背景:阿里 Eval 平台从零搭建
- 关键组件:
- 工作空间隔离
- Skill 说明文件(让 Agent 知道如何操作平台)
- 任务-评测集-报告三层数据模型
- API 接口(非 UI)作为唯一操作入口
- 启发:"只允许 AI 操作"是个精妙的设计约束——这比"也支持手动"要彻底得多,倒逼全流程 AI 化。
案例 8:RLHF 风格 Self-Improvement Loop(Editor Agent + 优质样本回流)
- 背景:来自《All Agentic Architectures》对 Self-Refine 的工程化延展——把"反思"从单轮升级为跨任务记忆的持续学习
- 做法:
- Writer Agent 产出内容
- Editor Agent 独立 critique,输出修改建议
- Writer 根据 Editor 反馈迭代修订
- 当输出通过验收标准时,该输出被保存到"优质样本库",成为后续任务的 few-shot 范例
- 后续任务从优质样本库召回最相似的范例 → 上下文中插入
- 关键差别(vs 单纯反思):单纯反思是"本次任务内的回顾";RLHF Self-Improvement 是"跨任务的经验积累"——把成功的反思路径变成可复用资产
- 结果:Agent 对重复出现的失败模式逐步免疫——本质是用 in-context learning 代替了模型微调
- 启发:
- 反思机制 + 优质样本回流 = 持续学习的最低成本路线(不用 RLHF 真训练,只用样本回流)
- 与方法 7「隔夜自优化闭环」同构但成本更低——后者改的是模型参数,前者改的是 prompt 样本
- 优质样本库的存储模型、版本化、冲突检测、检索评分属于记忆方向,详见 Agent记忆系统 方法 1(写入流水线)、方法 2(三维评分检索)、方法 7(Skill-MDP 程序性记忆)——本方向只负责产出样本,不规定怎么存。
(来源:FareedKhan-dev/all-agentic-architectures 15_RLHF.ipynb,2026-05-19)
案例 9:Notion "外循环 > 微调"——Agent 产品的评估哲学实证
📌 2026-05-20 新案例(来源:Notion Sarah Sachs & Simon Last / Latent Space 播客)[来源 #6]
- 背景:Notion AI 团队从 2022 年末开始构建 Custom Agents,曾与 Frontier Labs 一起微调模型学会调用 Notion 的函数。Simon Last 之前花了大量时间训练模型。
- 做法转变:后来越来越觉得训练本身只是实现细节,关键是外循环——模型怎样和系统交互、工具有没有 bug、Harness 有没有把失败暴露出来、Eval 有没有覆盖真实工作流。Sarah 补充:Notion 的工具几乎每天都在变,专门微调模型理解这些工具反而拖慢整个产品迭代速度。
- 当前评估体系:三层 Eval 结构——
- 回归测试:保底,确保已有功能不退化
- Launch-quality evals:上线门槛,验证新功能在真实场景的可靠性
- Headroom evals:前瞻性,探测模型能力天花板在哪里、下一步可以解锁什么
- 核心判断:"别太执着于训练。99% 的时候,问题其实出在某个工具的 bug 上,那就把 bug 修掉。"
- 启发:
- 与案例 8(RLHF Self-Improvement)异曲同工——都是用工程化手段替代模型训练,但 Notion 的路径更激进:连 in-context 样本回流都不做,直接聚焦在修工具 + 修 Harness + 分层 Eval
- 对评估体系设计的含义:Eval 的目标不只是度量质量,更是定位问题在模型还是在工具/Harness——如果 99% 的问题在工具 bug,那花大力气做 PRM/反思机制是投错方向
- 三层 Eval 结构(回归/上线门槛/前瞻探测)是本方向可直接复用的分层范式
关键洞察
1. 反思机制的本质是"暴露内在能力",不是新增能力
来自 Self-Refine 论文 + 小红书面试解析共同判断:LLM 第一次输出是"一口气完成"的,缺乏自检环节——但它本身有能力发现并修正问题,反思机制只是把这个环节工程化。这一判断意味着:反思不是模型变强了,而是给模型机会发挥已有能力——这与"系统提示是测试驱动迭代"的判断同构(不要一次性写完整,给模型空间发挥)。
2. 评估和改进必须各自独立的 prompt,三要素缺一不可
改进 prompt 必须同时传入原始任务 + 原始输出 + 评估意见——缺任何一个都会让改进变盲目。这一原则看似平凡但极其重要:很多团队在做反思机制时只传"原始输出 + 评估意见"或只传"原始任务 + 评估意见",结果 LLM 要么偏离目标要么全部重写。三要素都在,才能针对性修改。
3. 单 Agent 自反思有"自洽陷阱",独立 Critic 是质量上限
单 Agent 自我反思时,评估者和生成者是同一个模型,形成的"内部逻辑"导致对自身错误不敏感。类似程序员自测和代码 review 的差距——独立审查员发现的问题质量更高。但 Critic Agent 代价是系统复杂度和调用成本进一步增加。普通场景用自我反思就够,高质量关键节点上独立 Critic——质量与成本的取舍。
4. 防死循环是反思机制的工程必须项
必须设最大轮次,绝对不能依赖 LLM 自己判断停止——LLM 有时陷入"为了改而改"循环,每轮改动微小但实质无进步。硬性轮次上限(通常 2-3 轮)是唯一可靠的退出机制。同时评估 prompt 必须设 PASS 出口——没有明确退出机制,LLM 会把对的东西改错。这两个约束都是工程层面的硬规则,与 LLM 能力无关。
5. Agent 链路评估比传统 NLP 难——因为路径不唯一、错误会级联
链路很长(5-20 步)、过程不透明(CoT 难度量)、路径不唯一(多条合理路径)、错误会级联——这四个特征决定 Agent 评估无法用单一方法覆盖。实际系统必须组合最终结果 + 中间步骤 + 效率指标。最危险的情况是"歪打正着"——早期失误后续偏离但最终碰巧正确,单看 outcome 完全发现不了,必须叠加中间步骤评估。
6. Pass@k 和 Pass^k 不能混用
开发阶段看 Pass@k(能不能做到),上线阶段看 Pass^k(稳不稳定)。这是两个完全不同的指标——很多团队把"Pass@5=85%"作为上线标准,但实际生产是"Pass^5"才是用户体验的真实门槛。指标的语义错配是评测体系最常见的隐性问题。
7. Transcript 与 Outcome 缺一不可
Agent 说"订票已完成"是 transcript,数据库真的生成订单才是 outcome。只看 transcript 会漏掉"说了但没做到"——这是 Agent 输出最危险的失败模式之一(看起来对实际错)。任何 Agent 评测体系都必须双层覆盖:说了什么 + 真做到了什么。
8. 评测系统本身的问题比 Agent 出问题更难发现
阿里十二维实践的核心警示:评测环境资源不足、评分器 bug、测试用例与生产脱节,这些在表现上和模型退化一模一样,但基于失真信号去改 Agent 会越改越坏。当 Agent 表现下降时,先验证评测本身有没有出问题,再动 Agent——这是"先修评测再改 Agent"原则的具体应用。
9. AI First 评测平台的精妙之处:故意不让人操作
阿里 Eval 平台的设计哲学——不是做不到让人操作,而是故意不让人操作,倒逼全流程 AI 化。"也支持手动"是常见的妥协设计,但它会让团队不自觉地回到手工评测的舒适区。强制"只能 AI 操作"是把约束当放大器的典型——与多 Agent 协作的"约束不是限制,而是放大器"理念完全一致。
10. 隔夜自优化闭环的递减效应——适合 90+,不适合 100
阿里实践数据:90.7 → 97.4 → 99.1,三轮接近天花板,后续边际收益急剧下降。这意味着自动化优化闭环适合快速提升到 90+,不适合精细打磨到 100——最后那 1-2 分仍需要人类深度参与。同时闭环成立的两个先决条件(UI 规范 + AI Coding 含量高)非常苛刻——老系统没有本地开发环境、到处断头路,无法支撑自动化。
待探索问题
- PRM 标注成本如何降低:人工逐步标注是 PRM 最大门槛——是否有"LLM-as-Judge 弱标注 + 人工校准"的低成本路径?或者用合成数据训 PRM?
- 多 Agent 协作评估的归因:多个 Agent 协作完成任务时,如何归因哪个 Agent 的推理出了问题?是否需要"调度链路的 PRM"评估调度决策?
- 在线 vs 离线评估的真实差距:生产环境中如何实时监控 Agent 推理质量?哪些 proxy 指标(如延迟、重试率、用户负反馈率)能近似反映链路质量?
- Reward Hacking 现象:Agent 是否会学到"走捷径"完成任务但实际推理质量很差的策略?PRM 训练数据是否需要专门加入 hacking 样本?
- 反思机制的最佳轮次:2-3 轮是经验值——是否有量化方法判断"再加一轮还有没有收益"?基于 PASS 概率的早停策略是否可行?
- 评测集生成的盲区检测:Agent 自动生成的评测集如何检测覆盖率盲区?是否需要"对抗性评测集生成 Agent"专门找盲区?
- 隔夜自优化的边际收益曲线:阿里实践 3 轮收敛——是否所有任务都遵循类似曲线?任务复杂度与收敛轮次的关系是什么?
- PRM 分数作为 GRPO reward 的稳定性:PRM 直接作为 reward 信号是否会被 Agent 通过特定推理模式"骗过"?需要什么样的正则化?
来源索引
| # | 标题 | 来源 | 收录日期 | 贡献章节 |
|---|---|---|---|---|
| 1 | Agent 反思机制:生成-评估-改进循环与工程权衡 | 小红书面试官(微信公众号) | 2026-04-13 | 概念 1-5、方法 1/2、案例 1、洞察 1-4 |
| 2 | Agent 链路推理评估七大方法:PRM、工具调用准确率、LLM-as-Judge 全景 | 大模型算法岗面试复盘(波哥) | 2026-04-14 | 概念 6/7、方法 3、案例 2、洞察 5 |
| 3 | AI 自动化评测优化闭环:Eval 平台三案例与隔夜自优化实践 | 阿里技术公众号 | 2026-04-29 | 概念 10/11、方法 7、案例 3/4/5/7、洞察 9/10 |
| 4 | Agent 工程实践全景(节选评测部分) | 阿里技术 OpenClaw 实践 | 2026-04-28 | 概念 8/9、方法 4/5/6、案例 6、洞察 6/7/8 |
| 5 | All Agentic Architectures(17 种架构 - 反思/评估部分) | FareedKhan-dev/all-agentic-architectures | 2026-05-19 | 概念 12(Ensemble Aggregator)、案例 8(RLHF Self-Improvement Loop) |
| 6 | Notion 团队:为什么真正难的不是做 Agent,而是重做整个工作系统 | Latent Space 播客(Sarah Sachs × Simon Last) | 2026-05-20 | 案例 9("外循环 > 微调"评估哲学实证 + 三层 Eval 结构) |
演进记录
| 日期 | 版本 | 变更摘要 |
|---|---|---|
| 2026-05-12 | v0.1 | 首次构建,由 3 篇核心源文件 + 1 篇节选合成。覆盖 Self-Refine 三步循环、评估/改进 prompt 三要素、单 Agent 自反思 vs 多 Agent Critic、反思两种粒度(步骤级/任务级)、七大评估方法全景(Outcome/Tool Call/PRM/LLM-as-Judge/Trajectory/State/Efficiency)、Pass@k vs Pass^k、Transcript vs Outcome、Rubrics vs Standard 评测集、AI First 评测平台、隔夜自优化闭环等核心概念;纳入 7 个案例(Self-Refine 论文 / OpenAI PRM 实证 / 钉钉文档 MCP / 绘报 PPT / 阿里隔夜优化 90.7→99.1 / ChatGPT 四层记忆 / 评测平台最小可行设计);提炼 10 条跨来源洞察 |
| 2026-05-15 | v0.1.1 | 由 /route-knowledge 横切重构触发:概念 1「Self-Refine 三步循环」追加反思 vs 评估机制选型交叉引用(指向 Agent设计哲学与决策框架 概念 7) |
| 2026-05-19 | v0.2 | 由 /route-knowledge 整合 FareedKhan-dev/all-agentic-architectures 仓库触发:新增概念 12「Ensemble Aggregator」(Self-Refine→Critic→Ensemble 三级跃迁)、案例 8「RLHF 风格 Self-Improvement Loop」(Editor Agent + 优质样本回流的持续学习路线),强化反思机制从单轮到跨任务的工程演进路径 |
| 2026-05-20 | v0.3 | 由 /route-knowledge-pm 路由触发,融入 Notion / Latent Space 播客情报。新增案例 9「Notion 外循环 > 微调」——Agent 产品评估哲学的生产实证(工具 bug 是 99% 的问题根因、三层 Eval 结构:回归/上线门槛/前瞻探测、微调反而拖慢迭代速度)。来源索引 +1(#6) |