控制与 ROI

企业采购决策关注两个耦合问题：“开销是否可控” 决定是否采购，“投入是否合理” 决定是否续费。前者对应控制面，后者对应价值面。本章分两部分讨论。

第一部分：成本控制机制

防止账单失控通常采用多层控制机制——以下按粒度由粗至细描述四层。

第一层：Tier 硬性预算上限

每个用户绑定一个 tier，tier 决定三项配置：

配置项	Lite	Pro	Ultra
默认模型	Haiku 4.5	Sonnet 4.6	Opus 4.7
单任务 token 上限	200K	800K	2M
每日 token 上限	2M	20M	80M
可用工具集	核心工具	+ BUA + MCP	+ 高级 subagents

（实际数值以 apps/server/scripts/db-seed.ts 为准；admin 可在 Admin → Tiers 中调整。上表为参考默认值，非合同保证。）

以 token 而非金额作为上限的依据：金额上限会随模型单价漂移——模型涨价时所有 tier 的实际容量被压缩，降价时则突然放宽。Token 是产品语义层的稳定单位，模型升降级时无需重算用户配额。

第二层：运行时流式预算

任务执行过程中，每一步开始前检查累计 token 是否超出 tier 上限。超出后分两档处理：

软中断：当前 step 完成后停止，已有进度返回用户，状态标记 terminated_budget——常规路径
硬中断：检测到失控循环（同一 tool 连续 N 次相同入参）立即终止——异常路径

具体实现位于 task-orchestrator，详见 architecture 章节的 task-orchestration。

第三层：用户层用量可见性

用户可在 UI 中实时查看：

当前任务已用 / 剩余 token
按当前模型单价折算的预估金额
本日累计 / 本月累计

用量可见性较后台 throttle 更有效——可观察的成本会驱动用户主动减少无效操作。该层并非硬性预算约束，而是行为反馈机制，主要作用于减少不必要的重试与试探性调用。

第四层：全局 kill switch

管理员可一键终止所有运行中的任务与所有 BUA session（详见 BUA 章节）。该机制属于异常兜底，非日常工具——常规运营下 tier + task budget 已足够，kill switch 用于在意外情况下确保可终止性。

监控指标

agent_token_usage Grafana 面板（operations/dashboards）按 tier、用户、任务类型聚合 token 消耗。建议长期跟踪三项指标：

每日 input token 曲线——结合产品活跃时段建立基线；关注突变而非绝对值。非活跃时段的尖峰通常对应失控批处理任务
Cache 命中率——长期低于 50% 表明 prompt 可能被改造为动态内容；动态 prompt 导致 cache 永久 miss，该部分账单按 input 全价计费
Output / input 比率——突然升高表明模型转向长篇推理而非工具调用，通常源于新增工具描述存在设计偏差

第二部分：ROI 测算

关于”ROI”术语：本节”ROI”采用商业语境的广义口语含义——评估”投入是否合理、多久回本”的成本-收益测算，包括单任务节省、月度节省、回收期、杠杆倍数等多项指标。严格金融定义 ROI = (收益 - 成本) / 成本 × 100% 仅为其中单一百分比指标，本节测算范围超出该公式。沿用”ROI”作为章节标题是因其为非工程团队最常用的检索关键词。

基线测算：人力对照模型

最常用的成本-收益模型基于人力对照基线。以下字段表可直接迁移至 Excel：

字段	含义	示例（沿用收件箱整理任务）
任务频率	每用户每月执行次数	20 次
人工任务时长	同任务的人工耗时	15 分钟
Agent 单任务成本	见 cost-model	$0.19 ≈ ¥1.4
人工时薪（含社保与福利）	折算单价	¥300 / 小时
人工单任务成本	时薪 × 时长	¥300 × 0.25 = ¥75
单任务节省	人工成本 − agent 成本	¥73.6
月节省 / 用户	频率 × 单任务节省	¥1,472

字段在表中全部显式列出，采购方可代入自身业务数据重新计算回收期（月费 ÷ 单用户月节省）。该方法的优势在于结论可被独立验证，无需依赖供应方的总结性话术。

失败成本的纳入

Agent 存在失败概率。完整的成本-收益模型必须纳入失败成本：

失败率：合理假设区间 5-15%（按任务类型；高风险任务引入 HITL 后通常压至 < 2%）
失败成本 = 已消耗的 agent token（沉没成本）+ 人工兜底重做时间
修正后单任务节省 = 单任务节省 × (1 − 失败率) − 失败成本 × 失败率

代入 5% 失败率，单次失败成本 = ¥1.4（沉没）+ ¥75（重做）= ¥76.4：

修正后 = ¥73.6 × 0.95 − ¥76.4 × 0.05
       = ¥69.92 − ¥3.82
       ≈ ¥66 / 任务

杠杆倍数（节省 ÷ 成本）由 ~53× 降至 ~47×，降幅约 10%，整体仍处显著区间。纳入失败率修正的测算可信度高于理想测算——未纳入修正时采购方会自行折扣，且经验上折扣幅度通常大于真实失败率。

不适用 agent 的任务类型

完整的成本-收益报告必须明确列出不建议交由 agent 处理的任务类型，避免采购方将 agent 视为通用解决方案：

单步、不重复的任务——修改标题、查询状态等。Agent 启动成本（cache 写入、tool 描述、首步推理）约需 10K+ token，超出节省金额
不可逆的对外动作——客户邮件发送、付款执行、公开内容发布等。此类决策不应由 agent 独立完成，至少需引入 HITL 流程
不允许传入模型的敏感数据——医疗诊断数据、未脱敏银行信息等。应通过传统流程或专用工具处理，不纳入 agent 范围

缺失该部分内容会导致部署后出现典型误用，根因为任务类型本身不适用 agent 处理，而非 agent 能力不足。

章节总结

回顾 overview 的三条基本规律：

Input 便宜、cached input 更便宜、output 昂贵、history 成本最高
未发生的 token 比节省的 token 价值更高
失败成本 ≥ 成功成本

配合本章的成本-收益基线表与不适用任务清单，构成非工程团队在采购决策与内部汇报场景所需的完整材料。