PROJECT 02 · AI AGENT

WordCraft 词义理解 Agent —— 从 PRD 到封账交付的完整闭环

成人英语词义理解 Agent MVP · AI 产品经理 · 2026.03-2026.06
01 · 定位与 PRD 核心用户定义 · 范围裁剪 · 北极星 · 质量分级(真实摘录)

痛点 —— 查词的真问题不是"查不到"

释义太多:一个词 8-12 条释义,不知道先学哪个
例句太难:例句比单词本身还难,看不懂用法
看完仍不会用:真实句子里认不出是哪个意思

方案 —— 受控词义理解 Agent

先给 3 条最值得学的释义卡片(减负),支持句中语境判断(运用)。为什么要"受控":LLM 直接解释可能编造义项 → 义项只从词库 raw_definition 中选择、不自造,可追溯可评估。
单词句中目标词消歧英语 / AI 术语
核心用户定义(PRD 原文):"有一定英语基础,但经常被多义词卡住的学习者。核心问题不是查不到释义,而是释义太多、例句太难、看完仍不会用。"不做零基础用户、不做词典重度研究型用户。
北极星指标:单词从"见过"到"能用"的转化率,拆 3 个代理指标——查词完成率 / 释义复述率(24h 后能否复述核心义)/ 造句正确率。
MVP 范围裁剪:自由造句练习 + AI 评判反馈主动降级进 V2 Backlog,保留更易验收的"句子-释义匹配"——裁剪有记录、有理由。
quality_flag 质量分级:义项低频、过时或无法生成自然现代表达时标记 low_confidence——允许空例句但必须给 card_notes,用户侧提示"该释义较低频,暂不推荐优先练习"。数据不够时诚实降级,不硬编例句。
三条 User Story 对应三个痛点(真实摘录)+ AC 验收标准
US1(P0)As a 英语学习者,I want to 输入目标单词后优先看到 3 条最值得先学的核心释义卡片,So that 我不用被传统词典的 8-12 条释义淹没。
US2(P0)As a 想真正学会一个词的英语学习者,I want to 点击某条核心释义后看到简单解释、低难度例句和常见搭配,So that 我不只是知道中文翻译,而是知道这个意思通常怎么用。
US3(P0)As a 在真实句子里遇到多义词的英语学习者,I want to 输入句子和目标单词、让系统判断对应哪条释义并给出依据,So that 我能把释义和真实语境连接起来,避免"看懂词典却看不懂句子"。
AC = 验收标准,把每条 US 翻译成可判定的测试条件。如 AC1.1:Given 查词入口页 / When 输入有效单词提交 / Then 必须返回 3 条卡片、默认不展示第 4 条;Failure:少于 3 条且无说明 / 超过 3 条 / 空结果;Test Type 含 LLM-as-Judge 与 Human Review。
02 · 从原型到工作流先设计(Figma 原型),后构建(Dify Agentic Workflow)
低保真原型
五页低保真原型:查词入口 → Top 3 释义卡 → 义项展开 → 句子-释义匹配 → 学习历史(点击放大)
低保真原型交互演示(51 秒)
Agent工作流
真实 Dify Agentic Workflow:任务类型判断 → 任务边界判断(Guardrail)→ 条件分支 → 词库查询 → 释义筛选 → 格式清洗 → 学习卡片生成 / 澄清回复
为什么拆成多节点:Spike 实测单节点一次生成三卡时,money / problem 多次触发 MAX_TOKENS 输出截断 → 拆为「释义筛选 → 格式清洗 → 卡片生成」各司其职,输出可稳定 JSON 解析。
03 · 产品 Demo六个真实输出场景(左右切换,点击放大)
04 · 模型选型与 Token 经济4 模型同一套 Prompt 实测 · 单价由调用日志反推
选型问的不是"哪个最好",而是"怎么分工最优"。机会评估阶段要回答 4 个问题:哪个能稳定产出结构化 JSON?成本/延迟/质量怎么平衡?哪个适合主流程、草稿、Bad Case 重跑?有无爆 token 等生产化风险?
模型成本 / 词平均延迟质量路由角色
Gemini 2.5 Flash$0.001243.58s中高:JSON 稳定、语义例句均衡主流程
Gemini 2.5 Flash Lite$0.000265.99s中低:释义浅、例句生硬,返工率高草稿批量
Gemini 3 Flash Preview$0.005009.59s高:语义最好但成本 4 倍Bad Case 重跑
Gemini 3.1 Flash Lite Preview不稳定13.85sacute/sound 爆 11k+ token不采用
最便宜 ≠ 总成本最低:Lite 单价仅 1/5,但质量不达标导致返工,综合成本反超
测试口径要干净:剔除 Dify 对话记忆带来的上下文污染样本后才计算平均成本;异常值给含 / 排除两种口径
05 · 测试与成果分层验证,先通路后规模 —— 15 样本 Baseline 15/15
能力一:分层测试策略(冒烟 → 哨兵 → 基线)能力二:Bad Case 归因 → 修复 → 验证闭环
测试链:冒烟测试 4/5(5 样本低成本验通路)→ 根因定位(Guardrail 失败后穿透到生成节点)→ 修复 + 单样本验证(新增澄清分支)→ 复测 5/5(重跑原集合防回归)→ canary 哨兵(money 词条单点复测)→ Baseline 15/15 封账交付。全程 Python 批测脚本执行,JSONL 原始结果与 CSV 运行日志留存,可复现。
指标结果为什么看它
总通过率(word 8 + sentence_word 5 + phrase 2)15/15 · 100%端到端链路健康度
句中词义消歧通过率5/5 · 100%核心差异化能力(语境判断)是否成立
义项 raw_definition 可追溯率8/8 · 100%幻觉控制的根基:卡片不是模型编的
回答 JSON 合法率15/15 · 100%可程序化批测与前端集成的前提
同一目标词在不同句子选出不同义项(book=书/预订,school=学校/鱼群),证明 Agent 在利用句子语境消歧,而非按词表顺序机械选择。
06 · 反思
词库部分词条只有 2 条 definitions 时不强行补第 3 张卡——数据有多少说多少,与幻觉控制一脉相承
wordnet_fallback 来源正确标记风险而非隐藏,为 Bad Case 分类预留抓手
模型选型的结论是可解释的路由策略,而不是一个"最好的模型"——成本思维是 AI PM 的必修课