| 语法助手(RAG 评估) | WordCraft(Agent 评估) | |
|---|---|---|
| 测试集设计 | 30 题覆盖教材内 / 教材边界 / 超纲三层,"为什么"类问题专测诚实拒绝 | 30 词按 4 类风险覆盖(多义词 / 低频义项 / fallback 来源 / 术语短语)+ 15 样本三类输入 Baseline |
| 核心指标 | 编造率 / 引用率 / 诚实率(先定义目标值,再实测) | 8 项指标定义(JSON 合法率、义项追溯率、例句自然度、认知负荷、low_confidence 有效率、单词成本等) |
| 测试节奏 | Day 1 五题预检暴露问题 → 修复 → Day 2 全量复测 | 冒烟(5)→ 修复验证 → 复测 → canary 哨兵 → Baseline(15)→ 封账 |
| Bad Case 处理 | 逐题记录归因;教材覆盖边界与 RAG 缺陷分开归类 | 失败样本定位根因(Guardrail 穿透)→ 修复必须被验证才进下一阶段 |
| 工程化 | Python 自动化评估流程 | API 批测脚本:失败重试 / 断点续跑 / JSONL+CSV 日志 / 可复现 |







