内部支持 runbook
Agent 产品的工单分类与处理流程——"agent 输出错误"、"任务卡死"、"账单飙升"等 SaaS 没有的工单类型。
触发条件
收到客户支持工单。所有工单进入此 runbook。
角色与责任
| 角色 | 主要责任 |
|---|---|
| 一线支持 | 工单分类、标准化处理、SLA 时间内回复 |
| 二线支持 | 一线无法解决的工单升级处理;agent 特有问题排查 |
| CSM | 关键客户的高严重度工单接力;与一线协调避免客户被多人触达 |
| 工程 | 产品 bug / 系统级问题升级处理 |
| 产品 | 工单模式分析,定期 review 排前三类问题驱动产品改进 |
Agent 产品工单分类
跟传统 SaaS 不同,agent 产品的工单需要专属分类。一线支持收到工单后第一步是按下表分类:
| 类别 | 典型工单 | 一线 vs 二线 | SLA |
|---|---|---|---|
| agent 输出错误 | ”agent 给的回答不对”、“标签贴错了” | 二线 | 4 工时 |
| 任务卡死 | ”agent 跑到一半不动”、“任务一直 in_progress” | 二线 | 2 工时 |
| 账单超预期 | ”为什么这个月账单多了 3 倍” | 一线 → 二线 | 24 工时 |
| Cache 命中率下降 | ”我们的成本最近涨了”(深层原因可能是 cache miss) | 二线 | 1 工作日 |
| HITL 介入太频繁 | ”为什么每个任务都要我确认” | 二线 | 1 工作日 |
| Tier 限额相关 | ”为什么我突然不能用了”(撞上限) | 一线 | 4 工时 |
| 集成 / API 问题 | ”BUA 扩展连不上”、“API 401” | 一线 | 4 工时 |
| 账号 / 权限 | ”新员工没访问”、“忘了密码” | 一线 | 4 工时 |
| 功能咨询 | ”agent 能做 X 吗”、“怎么配置 workflow” | 一线 | 4 工时 |
标准处理流程(按类别)
Agent 输出错误
- 收集:工单中要求客户提供任务 ID、原始 prompt、agent 输出、期望输出
- 二线核查:在管理后台调出任务级日志(含 token 用量、tool 调用序列、模型版本)
- 区分:
- 可重现的 prompt 问题——客户提示词不够清晰 → 反馈优化建议 + 推荐 prompt 模板
- 不可重现 / 概率性问题——同样 prompt 多次跑结果分歧 → 升级工程评估 prompt 调优或换模型
- 明显的产品 bug——agent 完全误解任务、走错工具 → 工程立即介入
- 反馈:72 小时内给客户具体定性 + 后续行动
任务卡死
- 立即在管理后台手动 kill 该任务(避免持续消耗 token)
- 二线核查任务级日志,确认卡死位置(哪个 step、哪个 tool 调用、什么错误)
- 区分:
- 超时 / 上游模型 unavailable——常规重试,告知客户已恢复
- HITL 等待——用户没点确认 → 教育客户使用 HITL 流程
- agent 逻辑 bug / 失控循环——工程升级(incident-response 的”硬中断”触发条件)
- 客户工单内退还任务对应的 token 配额
账单超预期
最敏感的工单类型——涉及金钱,客户情绪通常较高。
- 一线先承诺核查——不要在没查日志前承诺退款或解释原因
- 升级二线核查:
- 调出 30 天用量分布(按 tier / 任务类型 / 用户拆分)
- 与上月对比,标记异常增量
- 区分:
- 客户使用量真实上涨——详细解释增长来源(哪个用户、哪个 workflow);客户感觉合理则闭合工单;感觉不合理则引导考虑升级 tier 或限额
- 产品侧 cache 命中率下降导致同样使用量但成本上升——CSM 接力,主动告知客户、说明产品侧 fix 路径、考虑账单调整
- 明确计费 bug——立即退款 + 工程修复 + 全平台扫描其他受影响客户
Cache 命中率下降
- 二线在管理后台查该客户的 cache hit 历史曲线
- 区分:
- 客户侧 prompt 改成动态了——某次集成更新引入变量 prompt → 反馈给客户调整
- 产品侧 prompt 结构变化——发版改了 system prompt → 工程评估是否需要回滚
- 与”账单超预期”经常联动,按那条流程处理
升级判断
一线必须升级到工程的情况:
- 同一类型工单 24 小时内出现 ≥ 3 个不同客户 → 可能是平台级问题,触发 incident-response
- 客户损失明确归因 agent 行为 → 涉及法律责任,升级到工程 + 法务(见 compliance/model-output-liability)
- 数据泄漏 / 合规事件 → 立即升级到工程 + 法务 + IC(不走支持渠道走 incident-response)
关键不要做的事
- 不要让一线解释 agent 内部机制——一线不知道 prompt 设计 / 工具链架构细节,错误解释会成为下一波客户不满的种子;技术解释由二线 / 工程出
- 不要在工单里承诺修复时间——除非工程已确认;推迟兑现损害信任
- 不要把”agent 输出错误”标记为”功能咨询”——前者是质量问题需要追溯,后者是教育问题;分类错会让产品错过质量信号
- 不要给同一客户的同类工单回复模板化答复——客户能看出来”上次也是这个回复”,等于宣告”我们没在解决”
度量指标
每周 review:
- SLA 达成率:按类别拆分,关注哪类工单经常延期
- 一次解决率:工单是否在首次接触后关闭
- 升级率:一线升级到二线 / 工程的比例(合理区间 15-25%;过低说明一线在硬扛超出能力的问题)
- 重复工单率:同客户同问题 30 天内重开比例
- 工单 → 产品 issue 转化率:有多少工单最终触发产品改进 ticket(健康基线 5-10%)
与其他章节的衔接
- 平台级事故的对外沟通:incident-response
- Agent 输出责任归属:compliance/model-output-liability
- 账单异常的 cost 模型基础:economics/cost-model
- Cache 命中率与定价机制:pricing/tier-design
这页有帮助吗? 谢谢反馈。