控制与 ROI

四层成本控制机制(Tier 上限、运行时预算、用户层可见性、全局 kill switch)与监控要点;将人力时间折算为成本-收益基线的方法。

企业采购决策关注两个耦合问题:“开销是否可控” 决定是否采购,“投入是否合理” 决定是否续费。前者对应控制面,后者对应价值面。本章分两部分讨论。

第一部分:成本控制机制

防止账单失控通常采用多层控制机制——以下按粒度由粗至细描述四层。

第一层:Tier 硬性预算上限

每个用户绑定一个 tier,tier 决定三项配置:

配置项LiteProUltra
默认模型Haiku 4.5Sonnet 4.6Opus 4.7
单任务 token 上限200K800K2M
每日 token 上限2M20M80M
可用工具集核心工具+ BUA + MCP+ 高级 subagents

(实际数值以 apps/server/scripts/db-seed.ts 为准;admin 可在 Admin → Tiers 中调整。上表为参考默认值,非合同保证。)

以 token 而非金额作为上限的依据:金额上限会随模型单价漂移——模型涨价时所有 tier 的实际容量被压缩,降价时则突然放宽。Token 是产品语义层的稳定单位,模型升降级时无需重算用户配额。

第二层:运行时流式预算

任务执行过程中,每一步开始前检查累计 token 是否超出 tier 上限。超出后分两档处理:

  • 软中断:当前 step 完成后停止,已有进度返回用户,状态标记 terminated_budget——常规路径
  • 硬中断:检测到失控循环(同一 tool 连续 N 次相同入参)立即终止——异常路径

具体实现位于 task-orchestrator,详见 architecture 章节的 task-orchestration

第三层:用户层用量可见性

用户可在 UI 中实时查看:

  • 当前任务已用 / 剩余 token
  • 按当前模型单价折算的预估金额
  • 本日累计 / 本月累计

用量可见性较后台 throttle 更有效——可观察的成本会驱动用户主动减少无效操作。该层并非硬性预算约束,而是行为反馈机制,主要作用于减少不必要的重试与试探性调用。

第四层:全局 kill switch

管理员可一键终止所有运行中的任务与所有 BUA session(详见 BUA 章节)。该机制属于异常兜底,非日常工具——常规运营下 tier + task budget 已足够,kill switch 用于在意外情况下确保可终止性。

监控指标

agent_token_usage Grafana 面板(operations/dashboards)按 tier、用户、任务类型聚合 token 消耗。建议长期跟踪三项指标:

  • 每日 input token 曲线——结合产品活跃时段建立基线;关注突变而非绝对值。非活跃时段的尖峰通常对应失控批处理任务
  • Cache 命中率——长期低于 50% 表明 prompt 可能被改造为动态内容;动态 prompt 导致 cache 永久 miss,该部分账单按 input 全价计费
  • Output / input 比率——突然升高表明模型转向长篇推理而非工具调用,通常源于新增工具描述存在设计偏差

第二部分:ROI 测算

关于”ROI”术语:本节”ROI”采用商业语境的广义口语含义——评估”投入是否合理、多久回本”的成本-收益测算,包括单任务节省、月度节省、回收期、杠杆倍数等多项指标。严格金融定义 ROI = (收益 - 成本) / 成本 × 100% 仅为其中单一百分比指标,本节测算范围超出该公式。沿用”ROI”作为章节标题是因其为非工程团队最常用的检索关键词。

基线测算:人力对照模型

最常用的成本-收益模型基于人力对照基线。以下字段表可直接迁移至 Excel:

字段含义示例(沿用收件箱整理任务)
任务频率每用户每月执行次数20 次
人工任务时长同任务的人工耗时15 分钟
Agent 单任务成本cost-model$0.19 ≈ ¥1.4
人工时薪(含社保与福利)折算单价¥300 / 小时
人工单任务成本时薪 × 时长¥300 × 0.25 = ¥75
单任务节省人工成本 − agent 成本¥73.6
月节省 / 用户频率 × 单任务节省¥1,472

字段在表中全部显式列出,采购方可代入自身业务数据重新计算回收期(月费 ÷ 单用户月节省)。该方法的优势在于结论可被独立验证,无需依赖供应方的总结性话术。

失败成本的纳入

Agent 存在失败概率。完整的成本-收益模型必须纳入失败成本:

  • 失败率:合理假设区间 5-15%(按任务类型;高风险任务引入 HITL 后通常压至 < 2%)
  • 失败成本 = 已消耗的 agent token(沉没成本)+ 人工兜底重做时间
  • 修正后单任务节省 = 单任务节省 × (1 − 失败率) − 失败成本 × 失败率

代入 5% 失败率,单次失败成本 = ¥1.4(沉没)+ ¥75(重做)= ¥76.4:

修正后 = ¥73.6 × 0.95 − ¥76.4 × 0.05
       = ¥69.92 − ¥3.82
       ≈ ¥66 / 任务

杠杆倍数(节省 ÷ 成本)由 ~53× 降至 ~47×,降幅约 10%,整体仍处显著区间。纳入失败率修正的测算可信度高于理想测算——未纳入修正时采购方会自行折扣,且经验上折扣幅度通常大于真实失败率。

不适用 agent 的任务类型

完整的成本-收益报告必须明确列出不建议交由 agent 处理的任务类型,避免采购方将 agent 视为通用解决方案:

  • 单步、不重复的任务——修改标题、查询状态等。Agent 启动成本(cache 写入、tool 描述、首步推理)约需 10K+ token,超出节省金额
  • 不可逆的对外动作——客户邮件发送、付款执行、公开内容发布等。此类决策不应由 agent 独立完成,至少需引入 HITL 流程
  • 不允许传入模型的敏感数据——医疗诊断数据、未脱敏银行信息等。应通过传统流程或专用工具处理,不纳入 agent 范围

缺失该部分内容会导致部署后出现典型误用,根因为任务类型本身不适用 agent 处理,而非 agent 能力不足。

章节总结

回顾 overview 的三条基本规律:

  1. Input 便宜、cached input 更便宜、output 昂贵、history 成本最高
  2. 未发生的 token 比节省的 token 价值更高
  3. 失败成本 ≥ 成功成本

配合本章的成本-收益基线表与不适用任务清单,构成非工程团队在采购决策与内部汇报场景所需的完整材料。

这页有帮助吗?