控制与 ROI
四层成本控制机制(Tier 上限、运行时预算、用户层可见性、全局 kill switch)与监控要点;将人力时间折算为成本-收益基线的方法。
企业采购决策关注两个耦合问题:“开销是否可控” 决定是否采购,“投入是否合理” 决定是否续费。前者对应控制面,后者对应价值面。本章分两部分讨论。
第一部分:成本控制机制
防止账单失控通常采用多层控制机制——以下按粒度由粗至细描述四层。
第一层:Tier 硬性预算上限
每个用户绑定一个 tier,tier 决定三项配置:
| 配置项 | Lite | Pro | Ultra |
|---|---|---|---|
| 默认模型 | Haiku 4.5 | Sonnet 4.6 | Opus 4.7 |
| 单任务 token 上限 | 200K | 800K | 2M |
| 每日 token 上限 | 2M | 20M | 80M |
| 可用工具集 | 核心工具 | + BUA + MCP | + 高级 subagents |
(实际数值以 apps/server/scripts/db-seed.ts 为准;admin 可在 Admin → Tiers 中调整。上表为参考默认值,非合同保证。)
以 token 而非金额作为上限的依据:金额上限会随模型单价漂移——模型涨价时所有 tier 的实际容量被压缩,降价时则突然放宽。Token 是产品语义层的稳定单位,模型升降级时无需重算用户配额。
第二层:运行时流式预算
任务执行过程中,每一步开始前检查累计 token 是否超出 tier 上限。超出后分两档处理:
- 软中断:当前 step 完成后停止,已有进度返回用户,状态标记
terminated_budget——常规路径 - 硬中断:检测到失控循环(同一 tool 连续 N 次相同入参)立即终止——异常路径
具体实现位于 task-orchestrator,详见 architecture 章节的 task-orchestration。
第三层:用户层用量可见性
用户可在 UI 中实时查看:
- 当前任务已用 / 剩余 token
- 按当前模型单价折算的预估金额
- 本日累计 / 本月累计
用量可见性较后台 throttle 更有效——可观察的成本会驱动用户主动减少无效操作。该层并非硬性预算约束,而是行为反馈机制,主要作用于减少不必要的重试与试探性调用。
第四层:全局 kill switch
管理员可一键终止所有运行中的任务与所有 BUA session(详见 BUA 章节)。该机制属于异常兜底,非日常工具——常规运营下 tier + task budget 已足够,kill switch 用于在意外情况下确保可终止性。
监控指标
agent_token_usage Grafana 面板(operations/dashboards)按 tier、用户、任务类型聚合 token 消耗。建议长期跟踪三项指标:
- 每日 input token 曲线——结合产品活跃时段建立基线;关注突变而非绝对值。非活跃时段的尖峰通常对应失控批处理任务
- Cache 命中率——长期低于 50% 表明 prompt 可能被改造为动态内容;动态 prompt 导致 cache 永久 miss,该部分账单按 input 全价计费
- Output / input 比率——突然升高表明模型转向长篇推理而非工具调用,通常源于新增工具描述存在设计偏差
第二部分:ROI 测算
关于”ROI”术语:本节”ROI”采用商业语境的广义口语含义——评估”投入是否合理、多久回本”的成本-收益测算,包括单任务节省、月度节省、回收期、杠杆倍数等多项指标。严格金融定义
ROI = (收益 - 成本) / 成本 × 100%仅为其中单一百分比指标,本节测算范围超出该公式。沿用”ROI”作为章节标题是因其为非工程团队最常用的检索关键词。
基线测算:人力对照模型
最常用的成本-收益模型基于人力对照基线。以下字段表可直接迁移至 Excel:
| 字段 | 含义 | 示例(沿用收件箱整理任务) |
|---|---|---|
| 任务频率 | 每用户每月执行次数 | 20 次 |
| 人工任务时长 | 同任务的人工耗时 | 15 分钟 |
| Agent 单任务成本 | 见 cost-model | $0.19 ≈ ¥1.4 |
| 人工时薪(含社保与福利) | 折算单价 | ¥300 / 小时 |
| 人工单任务成本 | 时薪 × 时长 | ¥300 × 0.25 = ¥75 |
| 单任务节省 | 人工成本 − agent 成本 | ¥73.6 |
| 月节省 / 用户 | 频率 × 单任务节省 | ¥1,472 |
字段在表中全部显式列出,采购方可代入自身业务数据重新计算回收期(月费 ÷ 单用户月节省)。该方法的优势在于结论可被独立验证,无需依赖供应方的总结性话术。
失败成本的纳入
Agent 存在失败概率。完整的成本-收益模型必须纳入失败成本:
- 失败率:合理假设区间 5-15%(按任务类型;高风险任务引入 HITL 后通常压至 < 2%)
- 失败成本 = 已消耗的 agent token(沉没成本)+ 人工兜底重做时间
- 修正后单任务节省 = 单任务节省 × (1 − 失败率) − 失败成本 × 失败率
代入 5% 失败率,单次失败成本 = ¥1.4(沉没)+ ¥75(重做)= ¥76.4:
修正后 = ¥73.6 × 0.95 − ¥76.4 × 0.05
= ¥69.92 − ¥3.82
≈ ¥66 / 任务
杠杆倍数(节省 ÷ 成本)由 ~53× 降至 ~47×,降幅约 10%,整体仍处显著区间。纳入失败率修正的测算可信度高于理想测算——未纳入修正时采购方会自行折扣,且经验上折扣幅度通常大于真实失败率。
不适用 agent 的任务类型
完整的成本-收益报告必须明确列出不建议交由 agent 处理的任务类型,避免采购方将 agent 视为通用解决方案:
- 单步、不重复的任务——修改标题、查询状态等。Agent 启动成本(cache 写入、tool 描述、首步推理)约需 10K+ token,超出节省金额
- 不可逆的对外动作——客户邮件发送、付款执行、公开内容发布等。此类决策不应由 agent 独立完成,至少需引入 HITL 流程
- 不允许传入模型的敏感数据——医疗诊断数据、未脱敏银行信息等。应通过传统流程或专用工具处理,不纳入 agent 范围
缺失该部分内容会导致部署后出现典型误用,根因为任务类型本身不适用 agent 处理,而非 agent 能力不足。
章节总结
回顾 overview 的三条基本规律:
- Input 便宜、cached input 更便宜、output 昂贵、history 成本最高
- 未发生的 token 比节省的 token 价值更高
- 失败成本 ≥ 成功成本
配合本章的成本-收益基线表与不适用任务清单,构成非工程团队在采购决策与内部汇报场景所需的完整材料。