Skip to content

Token 计费与降本工程

方向定位:聚焦 Token 作为大模型资源计量单位的工程实践——回答"各模态怎么计费、隐性消耗藏在哪、怎么系统性降本"。包括非对称计费公式、四类消耗场景(显性 I/O / 上下文滚雪球 / 思维链 / 系统预设与 Function Calling)、文字图片音频视频四模态计算公式、四模态降本杠杆、低成本环境完善+高成本环境执行的工作流分割、8 段式结构化提示框架。不涉及 Tokenizer 底层机制(→ Token 原理与 Tokenizer 机制)、不涉及 RAG Chunk 设计(→ RAG 文档处理与 Chunk 工程)。 当前版本:v0.1.5 首次构建:2026-05-15 最近更新:2026-05-20 文件名日期同步:2026-05-20 来源数:6 篇(笔记 24、31 + OMC 案例研究 + 商业策略 + Claude Agent SDK 配置教程 + Anthropic CU 最佳实践 2026-05-13)

相关方向

方向定位

本方向研究的核心问题是:"大模型一次调用到底花了多少 Token,怎么花得更少?"。它的边界包括:

  • 包含:非对称计费公式、四类消耗场景(显性 I/O / 上下文滚雪球 / 思维链 / 系统预设与 Function Calling)、文字/图片/音频/视频四模态 Token 计算方法、各模态降本策略、结构化提示降低 Token 成本的工作流、8 段式提示框架
  • 不包含:Tokenizer 算法与底层机制(→ Token 原理与 Tokenizer 机制)、RAG Chunk 边界设计(→ RAG 文档处理与 Chunk 工程)、纯 Prompt 写作技巧(→ 待建 Prompt Engineering 方向,如有)
  • 与相邻方向的区别:本方向只回答"多少钱、怎么省",不回答"Token 是什么、怎么算出来"

理解 Token 计费逻辑是大模型工程降本的前提——不懂计费就解释不了为什么"几条对话就用掉一年额度",不懂降本就只能在"用不起"和"砍功能"之间二选一。

叙述结构

本文沿四阶段递进展开:计费机制(怎么算钱)→ 消耗场景(钱花在哪)→ 响应时间百分位与延迟治理(快不快)→ 隐形成本(哪些是看不见的坑)→ 降本杠杆(怎么系统性地省)。每一阶段都先讲机制、再列方法、再补案例。

知识图谱

  • 核心计费公式(非对称)
    • 输入单价 ≠ 输出单价
    • 公式 = 输入 Token × 输入单价 + 输出 Token × 输出单价 + 特殊 Token 费用
    • 特殊 Token:图片/音频/视频/工具调用单独算
  • 四类 Token 消耗场景
    • 显性消耗:对话 I/O(用户感知)
    • 隐性消耗:上下文滚雪球(每轮带历史,不感知)
    • 思维链消耗:慢思考是快思考的 5~20 倍
    • 系统预设与 Function Calling:开场即扣费
  • 四模态计算公式
    • 文字:词表收录与否决定 1 Token / 2 Token
    • 图片:低清固定 85;高清按 512×512 切块 ×170+85
    • 音频:时长(秒)× 每秒预设 Token
    • 视频:画面帧 + 音频两部分相加
  • 四模态降本杠杆
    • 文字:去礼貌、开新对话、缓存 System Prompt
    • 图片:裁剪局部、低清模式、预压缩到 768px
    • 音频:去静音、先转文字、紧凑流
    • 视频:降采样率、截关键帧、音画分离
  • 结构化提示工作流
    • 低成本环境(ChatGPT/Gemini)完善提示
    • 高成本环境(Figma Make/v0/Lovable)执行
    • 8 段式提示框架:角色/目的/输入/指令/输出/约束/备用/语气
    • 触发条件→指令对(第 4 段的关键创新)
  • 隐性成本的产品认知
    • Token 成本从隐性变显性(Figma 2026.3 起收费)
    • 设计师角色扩展:从设计界面 → 设计生成界面的提示
    • 结构化提示成为核心工作流技能

一、计费机制:Token 到底怎么算钱

1.1 非对称计费公式

来自笔记 24。大模型的核心计费公式是:

费用 = 输入 Token 数 × 输入单价
     + 输出 Token 数 × 输出单价
     + 特殊 Token 费用(图片/音频/视频/工具调用等)

关键认知:输入单价 ≠ 输出单价。这不是计费策略问题,而是计算成本本质不同——

  • 输入:模型只需做一次前向计算把输入转成内部状态
  • 输出:每生成一个 Token 都要跑一次完整前向计算(自回归机制)

所以输出 Token 通常贵 3-5 倍。估算成本时切忌混用单价,是工程中最常见的计算错误之一。

1.2 四模态 Token 计算公式

来自笔记 24。

英文文本

  • 核心词汇表:约 3 万~10 万词条(含完整单词、词根、前后缀、单字母)
  • 拆分规则:先按空格/标点拆,再对长词按词根/后缀拆
  • 参考值:1000 Token ≈ 750 英文单词
  • 注意:大小写敏感,apple = 1 Token,APPLE 可能被拆成 3 Token

中文文本

  • 底层机制:UTF-8 编码,1 个汉字 = 3 字节(生僻字 = 4 字节)
  • 流程:汉字 → UTF-8 字节 → 查词表
    • 词表有收录 → 1 Token(包括高频词组如"人工智能"整体 = 1 Token)
    • 词表无收录 → 3 字节组合被切成 2 个碎片 = 2 Token
  • 中文标点若未收录同样占 2 Token
  • 国内模型通常收录更多中文高频词,Token 效率更高

图片(低分辨率模式):无论原图尺寸,统一缩放后固定计费 85 Token,适合粗粒度识别任务。

图片(高分辨率模式,默认):三步计算

  • 第一步:等比例缩放——约束:短边 ≤ 768px,长边 ≤ 2048px
  • 第二步:切块——将缩放后图片切成 512×512 的方块;不满 512px 的边按完整块计
  • 第三步:计费——总 Token = 块数 × 170 + 85(基础费)

音频

  • 原理:将连续模拟信号切成时间切片(20~50ms/片,依模型而定)
  • 计费换算为秒:总 Token = 音频时长(秒)× 每秒预设 Token 数
  • 示例:20ms = 1 Token → 1 秒 = 50 Token

视频:视频 = 画面帧 + 音频,公式:

总 Token = 时长(s) × 视觉采样率(帧/s) × 每帧 Token
        + 时长(s) × 每秒音频 Token
  • 默认采样:1 帧/秒(非 30/60 帧播放帧率)
  • 每帧 Token:高清模式 ≈ 260 Token,低清模式 ≈ 65 Token

案例:图片高清模式 Token 计算实例

来自笔记 24。

原图尺寸缩放后块数Token
150×150150×1501×1=11×170+85 = 255
1024×1024768×7682×2=44×170+85 = 765
1920×10801356×7683×2=66×170+85 = 1105

关键启示:1920×1080 比 1024×1024 仅增加 41% 像素,Token 数却增加 44%(从 765 → 1105)。如果裁掉一条边让图片变成方形,可以从 6 块降到 4 块,省 30%+ Token。裁剪是图片场景最直接的降本杠杆

Computer Use 截图模态消耗(Anthropic 官方 2026-05-13):CU Agent 每步生成一张截图,每张消耗约 1,000-1,800 token(取决于分辨率)。200K context window 在不做任何管理的情况下,100 步之内即可填满——这使 CU 成为图片模态 token 消耗最密集的场景。API 内部分辨率限制:4.6 family 最大长边 1568px / 最大总像素 1.15MP;Opus 4.7 升级至最大长边 2576px / 最大总像素 3.75MP。超限图片会被 API 静默降采样,导致坐标空间错位、点击偏移——这是 CU 场景特有的图片计费陷阱。

二、消耗场景:Token 究竟花在了哪里

2.1 四类 Token 消耗场景

来自笔记 24。大模型成本远不止"用户输入+模型输出"这么简单。实际有四类消耗:

1. 显性消耗:对话 I/O——用户感知最强、也最容易被高估的部分。每条 Prompt 按 Token 计费,每段回复按 Token 计费,成本与内容长度正比。

2. 隐性消耗:上下文滚雪球——大模型本身没有记忆。"有记忆感"是因为每次请求都会把完整历史对话打包一起发送给模型。

  • 对话轮次增加 → 每次输入 Token 数线性/指数增长
  • 即使每轮只问一句话,也可能消耗上万 Token
  • 这是用户感知最弱、最容易"超支"的部分

3. 思维链消耗:慢思考的代价——

模式逻辑Token 消耗
快思考(快速模式)预测下一个 Token,直觉式回答基准
慢思考(思考模式)引入 CoT:自我纠错 + 多路径尝试 + 逻辑验证快思考的 5~20 倍

思维链 Token 按输出单价计费,属于"隐形输出"。原则:简单问题用快思考,复杂推理才用慢思考,避免"用大炮打蚊子"。

4. 系统预设与功能调用

  • System Prompt:对话开始前就已消耗,定义 AI 角色和回答风格——开场即扣费
  • Function Calling:以"联网查资料并总结"为例的三段消耗:① AI 思考"需要联网"→ 输出 Token;② 联网搜索返回 20000 字 → 作为输入 Token 喂给模型;③ AI 生成总结 → 输出 Token
  • 联网内容会滚入后续上下文,不开新对话则持续叠加

案例:Function Calling 三段计费拆解

来自笔记 24。"AI 联网查资料并总结"看似一次操作,实际计费三段:

  1. AI 思考"需要联网"→ 输出 Token(决策型)
  2. 联网搜索返回 20000 字内容 → 作为输入 Token 喂给模型(消耗最大段)
  3. AI 生成总结 → 输出 Token(输出型)

关键认知:搜索返回内容会滚入后续上下文,不开新对话就持续叠加。多次联网搜索后再问问题,可能比直接搜索贵 3-5 倍

三、响应时间百分位与延迟治理

Token 成本回答"贵不贵",响应时间百分位回答"快不快"——两条曲线共同构成 AI 系统的效能基线。前一节讨论的慢思考(§2.1)会同时推高 Token 账单与延迟尾部,二者必须放在同一张仪表盘里看。

3.1 P50 / P95 / P99 的定义与价值

百分位数(Percentile) 用于衡量系统性能,表示有多少比例的请求响应时间低于某个值。

  • P50(中位数):50% 的请求低于此值,代表典型用户体验
  • P95:95% 的请求低于此值,反映大多数用户体验
  • P99:99% 的请求低于此值,用于发现长尾问题

为什么不用平均值:平均值易被极端值影响,无法准确反映用户体验。例:99 个请求 10ms、1 个请求 1000ms,平均值 = 19.9ms 看似良好,实际有用户遭遇 1 秒延迟。

SLA 设定:通常使用 "P95 < 200ms" 而非平均值,更能保证用户体验。三档百分位的关键价值:P50 看中位用户体验、P95 确保大部分用户满意、P99 识别系统瓶颈与异常。

3.2 LLM 应用的两条独立延迟曲线

LLM 应用的响应时间不是单一数字,至少要拆成两条独立曲线分别监控:

  • 首 Token 延迟(TTFT, Time-To-First-Token):用户感知"系统是否在响应"的关键指标,直接决定流式输出的体感。一般用 P95 卡 SLA(如 P95 TTFT < 1.5s),P99 用于发现冷启动、上下文过长或排队拥堵导致的尾部异常。
  • 整体响应时间(端到端完成时间):受输出 Token 数量、思维链长度、Function Calling 轮次影响极大,离散度远高于传统接口。

流式输出场景的体感拆解:TTFT 决定体感、整体时长决定耐心。把两者分别画百分位曲线,能快速定位"是模型本身慢"还是"前置编排/检索/工具调用慢"。

3.3 慢思考为何推高 P99:与 §2.1 思维链消耗的耦合

慢思考模式(→ §2.1 四类 Token 消耗场景中的"思维链消耗")会把 P99 推高一个数量级——CoT 自我纠错 + 多路径尝试 + 逻辑验证带来的 5~20 倍 Token 增长,几乎同比例反映在端到端延迟尾部上。

实践纪律:必须按"快思考 / 慢思考"分桶看 P50/P95/P99,混在一起看会失真——慢思考样本会把整体 P99 拉到一个对快思考请求毫无意义的数字上。产品分级(免费档强制快思考、高价档放开慢思考)的依据除了成本(→「关键洞察 3」),也包含延迟尾部可控这条工程理由。

四、隐形成本:那些不显眼但要命的消耗

4.1 Token 成本的"隐形成本"陷阱

来自笔记 31。对话式 AI 设计工具承诺的"提问、迭代、完善、重复"流程看似直观,但会在不知不觉中带来偏差、模糊和不断飙升的 Token 计数。

典型模式:临时随意提示——"用户点击第三步最后一个选项时,应该自动进入第四步""第四步顶部要加一个按钮和复选框""不对,还是没出来,再试一次"——每次微调看似轻松快捷,累积起来消耗惊人。

Figma Make 真实案例:作者本以为几十条提示,实际 147 条,仅完成流程 1/3,相当于 Figma Professional 6-7 个月额度。问题根源不是工具,而是提示风格

案例:Figma Make 项目 Token 消耗失控

来自笔记 31。

背景:作者试图在 Figma Make 中重新创建一个 Figma 原型。

数据

  • 提示日志:147 条(本以为也就几十条)
  • 完成进度:仅完成流程 1/3
  • Token 消耗:相当于 Figma Professional 账号 6-7 个月的提示额度
  • 输出效果:确实不错,但 Token 消耗速度远超预期

结论:"让这项工作成本高昂的是我的提示风格,而不是工具。"——这是 AI 工具按量计费时代最具代表性的"使用方式 > 工具选择"案例。

案例:Figma 计费政策变化(2026.3 起收费)

来自笔记 31。

时间线

  • 过去:Figma 没有对超额使用收费
  • 2026 年 3 月:Figma 宣布开始执行收费政策

影响:Token 成本从隐性变显性,结构化提示的价值凸显。这是行业趋势——AI 工具厂商最终都会把 Token 成本透传给用户,使用方式优化从"加分项"变成"必修课"。

五、降本杠杆:从模态到提示再到 Harness

5.1 四模态降本杠杆

来自笔记 24。降本本质 = 在完成任务前提下,给模型更少、更精准的信息

文字降本

策略说明
去礼貌用语"请"、"谢谢"、情绪化表达对 AI 无意义,纯结构性指令即可
及时开新对话话题切换时立即新建,避免历史上下文滚雪球
缓存技术(开发者)对固定 System Prompt 启用 Prompt Caching

图片降本

策略说明
裁剪局部只需分析图片某区域时先裁剪,减少切块数
低细节模式(开发者)API 调用时强制 detail: low,约等于固定 85 Token
预处理压缩上传前将长边压缩至 768px 以内,避免额外切块费

音频降本

策略说明
去除静音空白段照常计费,预处理去掉空白可直接缩短时长
先转文字再传音频转文字后传 AI,文字成本约为音频的 1/10(不需要情感分析时首选)
紧凑音频流讲座/课程类录音采用更紧凑的音频流降低处理量

视频降本

策略说明
降低采样率讲座/课程类每 5 秒采 1 帧,成本直降 70~80%
手动截关键帧不传完整视频,手动截取关键帧组图传入,成本可降 90%+
音画分离仅需总结内容时,先分离音频转文字再传文字,大幅节省视频处理费

核心总结:文字控长度、图片压尺寸、音频去静音、视频降采样——四模态共同的降本逻辑都是"给模型更少、更精准的信息"。

Computer Use 截图降本三层策略(Anthropic 官方 2026-05-13):CU Agent 是图片模态消耗最密集的场景(每步一张截图 ≈ 1,000-1,800 token),需要专用的三层降本架构:

策略机制效果
L1 预降采样截图发送 API 前预缩放至 1280×720(4.6 family)或 1080p(Opus 4.7)避免 API 静默降采样导致的坐标失配 + 控制每张 token 数单张 ≈ 1,000 token,vs 4K 原图可能 1,800+
L2 Cache-aware 滚动缓冲保留最近 3 张截图原图,每 25 张批量替换旧截图为 [Image omitted] 占位符批量修剪保持 message prefix 字节一致,prompt cache 命中率不降稳态下 context 内仅 3 张原图
L3 LLM-based Compaction输入 token 达 ~150K 时触发服务端摘要(beta compact-2026-01-12),用 8 段结构化 prompt 保留用户指令/任务模板/约束/进度/当前状态/下一步回收上下文空间同时保留任务续航能力长任务 context 始终 < 200K

三层叠加的默认参数组合:1 个 cache breakpoint 在 system prompt + 3 个 breakpoint 在最近 tool_result 上,每轮前移并清理旧 breakpoint。这是 Anthropic 推荐的 CU 长任务成本控制标准配置。

5.2 服务端 task_budget:API 侧 Token 预算

2026-05-19 charrli 源码解析。客户端的四模态降本主要是"输入侧裁剪";某顶级工业级 Agent 还在服务端引入了 task_budget 这条与客户端估算并行的硬限制通道:

维度客户端预算估算服务端 task_budget
位置Agent 内部本地计算API 请求参数,由服务端强制执行
时机每轮请求前估算 input + 预留 output整个 task 生命周期累计 token 上限
失败方式触发本地压缩/截断服务端直接返回 budget exhausted 错误
作用防止单次请求超 context window防止失控 Agent 烧爆账户预算

关键工程细节

  • task_budget 是 task 级而非请求级——多轮工具调用共享同一 budget
  • Auto Compact 后客户端必须手动计算 remaining 并传递:服务端不知道客户端做过压缩,如果客户端不主动重置/调整 task_budget 传值,压缩后的剩余空间会被错误计算
  • 客户端估算偏差是必然存在的(tokenizer 差异、工具结果不可预测)——task_budget 是兜底的"安全网",让 Agent 在估算错误时仍然不会失控烧钱

为什么需要两条预算通道并存

  • 仅客户端估算 → 估算错误时 Agent 可以无限循环烧钱
  • 仅服务端 budget → 客户端无法在请求前主动压缩,会浪费一次失败请求的成本
  • 两者并行 → 客户端优先主动压缩降本,服务端兜底防失控

适用场景

  • 长程任务 Agent(DeepResearch / Coding Agent / 多 Agent 编排)
  • 多租户平台(每个用户/团队不同 budget)
  • 与「Harness 失效模式与反馈机制」框架 8 max_output_tokens 三层恢复机制配合:output 上限是单次请求级别,task_budget 是整个任务级别,两层共同构成预算控制网

(来源:技术教科书:顶级开发团队设计的 Harness 工程项目源码什么样,作者 charrli,2026-05-19)

5.3 8 段式结构化提示框架

来自笔记 31。这是降低对话式 AI 工具 Token 浪费的核心方法论:

模块作用减少浪费的方式
1. 角色与人物设定为模型提供明确的专业视角消除语气偏差和不一致的建议
2. 目的与目标状态说明业务成果以及"好"的标准防止范围偏差和反复澄清
3. 输入模型所需的所有材料、约束条件和上下文避免无休止的"忘了提……"之类的后续补充
4. 指令/逻辑步骤将目标转化为带有触发条件的可操作步骤消除模型的猜测,并梳理思考顺序
5. 输出要求指定可交付成果、保真度和格式一次就得到正确的格式
6. 约束条件模型不能更改的硬性边界避免模型随意发挥时重新生成内容
7. 备用逻辑告诉模型在某些内容缺失时应做何假设防止停滞和矛盾的重写
8. 语气指导定义沟通风格和重点避免对布局没问题但表述不佳的情况进行重写

第 4 段的关键创新——触发条件→指令对:将目标拆成"当 X 发生时,就做 Y"的格式,比简单步骤列表更精确,能消除模型的猜测并梳理思考顺序。

第 7 段的容错设计——备用逻辑:告诉模型在某些内容缺失时应做何假设,防止停滞和矛盾的重写。这是提示工程中容易被忽略但非常重要的一环。

5.4 低成本完善 + 高成本执行的工作流分割

来自笔记 31。这是结构化提示降低 Token 成本的核心工作流:

核心思路:在低成本环境(ChatGPT/Gemini,按订阅或低单价计费)完善结构化提示,再放入按用量计费的高成本工具(Figma Make/v0/Lovable)执行。

为什么有效

  • 低成本环境迭代成本几乎为零,可以反复打磨
  • 高成本工具一次到位避免几十次 Token 浪费
  • 表述明确、减少模糊、尽早定义约束、结构化指令,让模型清晰知道该做什么、怎么做

Figma 官方建议

  • 在第一条提示里就尽可能塞足细节(任务、上下文、关键设计元素、预期行为和约束条件)
  • 在将提示粘贴到 Make 之前,使用 AI 助手优化提示
  • Figma Make 运行在 Anthropic Claude Sonnet 4 上,适用于 Anthropic 模型的结构化提示原则直接适用

实际效果对比

维度对话式提示结构化提示
提示数量几十到上百条寥寥几次
迭代次数频繁来回修正少量微调
Token 消耗大幅降低
结果质量受偏差和模糊影响初稿就接近预期

5.5 通用提示设计器(Prompt Designer GPT)工作流程

来自笔记 31。

工具定位:定制 GPT,可在 ChatGPT、Gemini 上使用,核心是让 8 段式框架自动化。

工作方式

  1. 输入粗略想法(如"重新设计加购页面提升转化率")
  2. GPT 像快速访谈一样,只追问你没提供的关键信息
  3. 一旦有足够上下文,自动将想法扩展为完整、优化的 8 部分提示
  4. 格式正是 Figma Make 等工具实际需要的

适用工具:Figma Make、v0(Vercel)、Lovable 或任何其他按用量计费的 AI 设计工具。

价值:起到工作流程自动化作用,减少通常会消耗 Token 的几十次来回修正,更快摆脱"从零开始"的空白状态。

案例:8 段式提示完整示范——加购弹窗重设计

来自笔记 31。这是 8 段式框架的完整范例,覆盖一个真实业务场景:

目的:打造一个重新设计的加购弹窗(支持桌面与移动端响应式),通过优化染发测评后展示订阅套餐的方式,提升 D2C 美妆订阅流程的升级转化率。

角色 + 上下文:你是一名资深产品设计师,正在优化个性化染发测评后的关键加购环节。用户本应进入结算流程,却看到三个订阅层级(标准/增强/高级),因价值模糊、布局拥挤、层级不清、价格感知突兀导致大量流失。

输入(部分):

  • 现有设计系统、产品视觉、福利明细和定价
  • 业务目标:在不使结账转化率降低超过 7% 的情况下,提高追加销售转化率
  • 用户行为:用户预期进入结账流程却被不清晰的追加销售价值主张打断;与计划选项卡互动但忽略大多数辅助内容;由于之前的折扣,对价格敏感度较高

指令(触发条件 → 指令对,节选)

  • 用户完成测验 → 重新设计追加销售介绍,保持结账势头同时清晰说明展示升级原因
  • 看到三个订阅选项 → 用突出价值差异而不过度堆砌细节的结构,取代选项卡式布局
  • 价格在用户理解价值之前过早出现 → 重新构建价格展示方式,让用户首先理解价值驱动因素
  • 桌面和移动体验必须保持一致 → 使用自动布局和一致的间距设计响应式框架

约束条件:不得重复使用或部分修改原始布局;关键升级细节无需滚动即可查看;不得重新解释福利内容或定价;不得添加或删除订阅层级;必须使用现有设计系统样式并包含产品图像。

备用逻辑:若任何图片或输入无法解析,默认原布局为杂乱、标签式、文字过多、价值层级模糊、价格突兀。

语气指导:保持中立、以用户为中心、注重转化的语气,优先考虑清晰度、信任度和决策的简洁性。

复盘:与"重新设计一下加购页面"这种一句话提示相比,这种 8 段式提示能让模型一次到位生成接近预期的初稿,省下几十次"再调一下"的 Token 浪费。

5.6 Harness 框架级降本:OMC 三组件拆解

来自 oh-my-claudecode 案例研究(28.3k Stars / 2.6k Forks 的 Claude Code 多智能体编排框架)。OMC 宣称通过 Harness 层工程化能节省 30-50% token 消耗,其降本组合可视为本方向"给模型更少、更精准的信息"元规则的 Agent 框架级范例:

降本组件机制与本方向元规则的对应
专业化分工19 个专业 Agent 分入 5 条泳道,每个 Agent 只携带本职工作所需上下文"更少、更精准"——通过角色拆分把每个 Agent 的 context 缩到最小
Context Resets 内置化子 Agent 上下文逼近阈值(40%)时自动生成 JSON 交接文档,启动全新干净 Agent 加载继续规避"上下文滚雪球"——把多轮叠加从隐性消耗变成结构化压缩
两层 Skill 按需注入用户级 + 项目级 YAML Skill 仅在 trigger 命中时注入目标 Agent不预加载全部能力描述——按需调度替代默认拼接

重要声明:30-50% 节省是 OMC 项目方自述数据,未经第三方独立测量验证——在大模型 Token 计费场景下,任何降本声明都应注明:

  • 测量基线(对比的是单 Agent 朴素运行 vs OMC 编排模式)
  • 任务类型(OMC 主要场景是 macOS 上的长编码任务)
  • 模型版本(基于 Anthropic Claude Sonnet)

对本方向的工程启示

  1. 三类消耗场景的 Agent 级对应:OMC 把"上下文滚雪球"(→ context resets)+ "系统预设"(→ Skill 按需注入)+ "思维链消耗"(→ 专业化角色减少无关推理)这三类消耗对应到三个工程组件——这是从单次调用降本走向 Agent 框架级降本的范例
  2. Harness 即降本基础设施:当 Token 成本从隐性变显性(参考 Figma 2026.3 收费案例),Harness 层的工程化能力就是降本能力——这印证了"Token 成本意识是 AI 产品设计的新维度"
  3. 降本声明的可验证性是后续待探索问题:30-50% 是范围声明而非可复算数字——未来 Agent 框架的降本指标需要建立标准测量协议(基线模式、任务集、模型版本三件套)才能横向比较

5.7 商业层兜底:豆包"C 端免费 / B 端变现"的成本经济学

来自 [商业策略/02-doubao-free-model-bytedance-revenue-2026-04-02.md]。AI 产品的 Token 成本要不要透传给用户,决定权很大程度上不在工程能力,在母公司输血能力——豆包是典型反例。

豆包成本与字节利润对比

维度数据
豆包日运营成本几百万/天(服务器/带宽/算力)
豆包年研发+算力+推广15-20 亿元/年
字节 2024 日均利润6.6 亿元
字节 2024 全年净利润2409 亿元

判断框架——AI 产品能否长期免费

条件豆包大多数 AI 创业公司
母公司成熟业务输血✅ 广告+电商+直播兜底❌ 纯烧 VC
AI 成本占母公司利润比极低(几百万 vs 6.6 亿)全部成本
数据飞轮✅ 用户量大、留存高用户增长慢
B 端变现路径✅ 火山引擎 + 硬件授权 + 生态联动只有 C 端

对本方向的启示:当母公司有"输血+造血"能力时,C 端免费的真实成本结构能让 Token 计费变成"内部记账"——这与"Token 成本从隐性变显性"的行业趋势形成有趣对照。判断一款 AI 产品能否长期不向用户透传 Token 成本,看这四个条件就够了

5.8 模型后端可替换:API 兼容层降本

来自 Claude Agent SDK 快速上手与 DeepSeek 配置教程(2026-05-20)。前述降本杠杆(§5.1-§5.7)聚焦于"给模型更少、更精准的信息"——输入侧裁剪、预算兜底、提示结构化、Harness 编排、商业层输血。但还有一个维度被忽略:不改代码,只改模型后端,让同一套 Agent 代码跑在更便宜的模型上

核心机制:Claude Agent SDK 支持通过环境变量将请求路由到任意兼容 Anthropic API 协议的模型端点。代码零修改,只需切换环境变量即可在不同成本档位的模型间切换。

关键环境变量配置

环境变量作用DeepSeek 配置示例
ANTHROPIC_BASE_URL指定 API 端点地址,替换默认的 Anthropic 端点https://api.deepseek.com/anthropic
ANTHROPIC_AUTH_TOKEN目标模型厂商的 API 密钥DeepSeek API Key
ANTHROPIC_MODEL主 Agent 使用的模型deepseek-v4-pro
ANTHROPIC_DEFAULT_HAIKU_MODEL轻量任务使用的模型(对应 Haiku 档位)deepseek-v4-flash
CLAUDE_CODE_SUBAGENT_MODEL子 Agent 使用的模型deepseek-v4-flash

分层模型策略——成本最优的任务-模型匹配

任务复杂度模型档位示例配置成本特征
高复杂度(主 Agent 推理、架构决策)旗舰模型deepseek-v4-pro单价较高但任务成功率有保障
低复杂度(子 Agent 执行、文件读写、格式化)轻量模型deepseek-v4-flash单价极低,适合高频简单任务

这是"慢思考 vs 快思考"分级逻辑(→ 洞察 3)在 Agent 架构层的自然延伸:不同复杂度的子任务由不同成本档位的模型承接,而非所有任务统一使用最贵的旗舰模型

国内厂商 API 兼容层成熟度

厂商兼容接口说明
DeepSeekAnthropic API 兼容端点已上线,支持 /anthropic 路径直接兼容
阿里云(通义)Anthropic API 兼容接口通过 DashScope 提供兼容层
MiniMaxAnthropic API 兼容接口已推出兼容模式

国内主流模型厂商已形成"兼容层即渠道"的竞争格局——通过提供 Anthropic/OpenAI 兼容接口,降低开发者迁移成本,争夺存量 Agent 生态的调用量。

PM 决策框架——何时适合替换模型后端

场景是否适合替换判断依据
内部工具 / 研发辅助 Agent✅ 适合对输出质量容忍度高,成本敏感度高
批量数据处理 / 格式转换✅ 适合任务简单、确定性强,不依赖模型推理能力
面向用户的核心产品功能⚠️ 谨慎需 A/B 测试验证替换模型的任务成功率
强依赖 Claude 原生能力的场景(Artifacts、Computer Use 等)❌ 不适合兼容层无法覆盖 Claude 独有的能力边界
合规/安全敏感场景⚠️ 谨慎需评估替换模型的安全对齐水平

风险提示

  • 兼容层质量未经大规模验证:Anthropic API 兼容接口是各厂商自行实现的"方言翻译层",边缘 Case(如复杂工具调用嵌套、长上下文处理)的行为一致性尚未被充分测试
  • 模型能力差异影响 Agent 任务成功率:模型切换不等于能力等价——替换后端后,Agent 的推理质量、指令遵循度、工具调用准确率都可能出现退化
  • 厂商锁定风险反转:从"锁定在 Claude"变成"锁定在兼容层协议"——如果 Anthropic API 协议发生不兼容变更,所有依赖兼容层的部署都需要同步适配

与本方向其他降本杠杆的关系:模型后端可替换是与输入侧优化(§5.1-§5.5)、Harness 编排优化(§5.6)、预算机制(§5.2)正交的独立降本维度——前者降的是"每次调用的 Token 数",后者降的是"每个 Token 的单价"。两个维度可以叠加使用。

5.9 Thinking effort 对 Computer Use 成本的影响

来自 Anthropic 官方 CU 最佳实践(2026-05-13)。CU 任务与代码/数学任务有本质区别——主要是感知和机械操作而非深度逻辑推理,因此思考力度(thinking effort)对成本/质量的影响曲线与常规任务不同。

Opus 4.7 CU 场景 effort 推荐

场景Thinking effort理由
默认推荐high接近 max 的任务成功率,输出 token 仅为 max 的约一半
高吞吐 / 成本敏感lowtoken 消耗远低于 medium,质量介于 Opus 4.6 high 和 max 之间
简单定义明确的工作流建议用 Sonnet 4.6延迟最低,短任务 UI 一致性高时足够
复杂一次性任务max必须首次成功时使用

4.6 family CU 场景 effort 推荐

场景Thinking effort理由
默认推荐medium最佳准确率-成本比;与 high 在重试后收敛到相同成功率,token 仅为一半
高吞吐 / 成本敏感lowtoken 实际 < 关闭思考(更少错误→更少重试),准确率 ≈ 关闭思考
简单工作流 / 最快关闭思考延迟最低但准确率最低
复杂一次性任务high仅当不支持重试时使用;有重试则 medium 最终效果等价
max不推荐无精度收益,token 成本进一步上升——UI 任务不需要极深推理

关键 PM 决策数据:Opus 4.7 low effort 在 OSWorld 基准上得分 ≈ Sonnet 4.6 max effort,但 token 消耗仅为后者的 ~1/10。如果当前产品用 Sonnet 4.6 high/max 做 CU,切换 Opus 4.7 low/high 可能是更优成本效益选择。

模型选型矩阵(CU 场景):Sonnet 4.6 机械点击精度最高、对重度降采样最鲁棒、成本最低——推荐默认起步;Opus 4.7 推理更强、分辨率预算更大(3.75MP)、low effort 即强——推荐高难度/高分辨率场景;Haiku 4.5——延迟优先时使用。

关键洞察

洞察 1:上下文滚雪球是最大的"沉默杀手"

来自笔记 24。Token 浪费排行榜上,上下文滚雪球几乎稳居第一。原因是它完全无感——用户感觉只是"多聊了几句",实际每轮请求都把全部历史重发了一遍。实践建议:把"开新对话"作为产品引导的默认行为,而不是高级技巧。Claude 等工具自带的"长对话压缩"也是同样思路。

洞察 2:Token 成本意识是 AI 产品设计的新维度

来自笔记 31。在设计 AI 产品时,不仅要考虑功能和体验,还要考虑用户的 Token 消耗模式。引导用户采用结构化提示可以同时降低成本和提升满意度——这是 AI 产品独有的"降本即提质"机会。

推论:AI 产品的"用户教育"成本远高于传统 SaaS,因为用户的使用方式直接决定他们的实际付费金额。Figma 主动建议用户在第一条提示塞足细节,本质是在保护用户的钱包。

洞察 3:慢思考 5-20 倍成本是产品分级的天然依据

来自笔记 24。慢思考 Token 是快思考的 5~20 倍,这意味着同一个用户问题在两种模式下的成本差异是数量级的。产品启示:免费/低价档位强制快思考,高价档位放开慢思考——这是几乎所有 AI 产品最终走向的分级模型。慢思考也直接推高延迟尾部(→ §3.3 慢思考为何推高 P99),P99 监控可以捕捉慢思考触发引起的长尾。

洞察 4:设计师角色从"设计界面"扩展到"设计生成界面的提示"

来自笔记 31。在 AI 工具不断成熟、Token 管控越来越严的趋势下,越早适应这种转变的团队,跑得越快、成本越低。本质上,正在从设计界面 → 设计生成界面的提示。

对从业者的启示:结构化提示正成为一项核心工作流程技能,而不是一种专门技术。提示工程不是额外负担,而是新的核心能力。

洞察 5:"给模型更少、更精准的信息"是所有降本策略的元规则

来自笔记 24/31 综合。文字控长度、图片压尺寸、音频去静音、视频降采样、提示用结构化——所有降本策略可以归约到同一句话:"在完成任务的前提下,给模型更少、更精准的信息"。这条元规则比记住每个具体策略更重要——它能在面对新的模态、新的工具时给出方向。

洞察 6:Token 成本"从隐性变显性"是行业必然趋势

来自笔记 31。Figma 2026.3 开始收费、ChatGPT 推出按量额度、各大 IDE-Agent 把 Token 消耗暴露给用户——所有 AI 产品最终都会把 Token 成本透传到用户侧。对 PM 的提醒:在产品策略上为这一天做准备:① 提供 Token 消耗可视化;② 内置提示优化助手;③ 分级订阅与按量计费组合。Token 显性化让"降本工程"和"工程纪律"绑得更紧(→ AI 研发效能与 SDLC 工程纪律)——团队的提示风格直接决定账单。

洞察 7:8 段式框架的通用性远超设计场景

来自笔记 31 的延伸思考。8 段式框架的核心逻辑("表述明确、减少模糊、尽早定义约束、结构化指令")适用于任何需要结构化提示的场景:代码生成(GitHub Copilot/Cursor)、内容创作(Jasper/Copy.ai)、数据分析(Julius/Hex)。触发条件→指令对备用逻辑这两个设计是该框架的"创新点",值得在所有提示设计场景中复用。

洞察 8:杰文斯悖论作用于 Token 经济——单价降反而总账涨

来自 [商业策略/13-Token经济产业链全景-2026-04-14.md]。Token 降本不是终点,反而是更大支出的起点——杰文斯悖论在 Token 经济上得到验证:

  • 推理成本:技术进步使推理成本下降 280 倍
  • 总体支出:使用需求激增,导致总体支出反而增加 2.4 倍
  • 类比:汽车油耗变低后,人们驾车次数反而增多,最终石油消耗总量不降反升

对本方向的反向启示:单次调用的"降本"工程做得越成功,越可能触发用户增加调用频次、扩展使用场景,最终公司总 Token 账单不降反升。这意味着:

  1. 降本不是终极目标——降本释放出的预算很可能被新场景吸收
  2. 总账控制需要工程之外的机制——产品策略(分级订阅、按量计费)和用户教育需要同步设计
  3. 行业层面的提价是结构性必然:2026 年起 AWS(+15%)、谷歌云、网宿、Ucloud 先后涨价,行业从"价格战"转向"价值战"——摩根士丹利测算阿里云每 10% 涨价能带来 4 个百分点利润率提升

与"Token 成本从隐性变显性"洞察的呼应:杰文斯悖论是因,定价权回归是果——只有当总账上涨成为客观事实,云厂商才有底气把成本透传给用户。

洞察 9:模型后端可替换性是 Agent 时代的新降本维度——不改代码只改环境变量

来自 Claude Agent SDK 配置教程。前八条洞察聚焦于"减少 Token 数"或"优化使用方式",但 Agent SDK 的环境变量可替换机制揭示了一个正交维度:不减少 Token 数,而是降低每个 Token 的单价。通过 API 兼容层将请求路由到低成本模型后端,代码零修改,只需切换环境变量。

核心判断:当 Agent 框架普遍支持模型后端可替换时,"选择哪个模型"从一次性的架构决策变成了运行时可调的运维参数——这让 PM 可以按任务复杂度、成本敏感度、质量要求动态匹配模型档位,而不是所有场景统一用最贵的模型。

与洞察 5 的关系:"给模型更少、更精准的信息"(洞察 5)降的是量,"给更便宜的模型处理"降的是价——量×价 = 总成本,两条降本路径独立且可叠加。

待探索问题

  1. 国内主流模型(Qwen/DeepSeek/智谱)对中文常用术语的 Token 收录差异有多大?能否量化对比同一段文本的 Token 数?
  2. Prompt Caching 在不同厂商的实现差异——是否真能把固定 System Prompt 的边际成本降到接近零?
  3. 多轮对话场景下,"压缩历史 vs 开新对话"哪种更划算?是否有定量决策模型?
  4. 图片低清固定 85 Token 的精度损失边界在哪?哪些任务可以放心用低清,哪些必须用高清?
  5. 视频"音画分离"策略在哪些任务上会损失关键信息?是否存在"自动选择策略"的判别框架?
  6. 8 段式框架在代码 Agent(Cursor/Claude Code)场景的适配度如何?需要哪些字段调整?
  7. Token 消耗可视化能否成为 AI 产品的标配 UX 组件?参考实现是什么?
  8. DeepSeek 等国产模型在 Claude Agent SDK 中作为后端时,Agent 任务成功率与 Claude 原生模型相比差异有多大?是否存在可量化的"质量-成本"权衡曲线?
  9. CU Agent 服务端 Compaction(compact-2026-01-12 beta)进入 GA 后,客户端 LLM-based Compaction 是否会被完全替代?两者长期共存还是服务端收敛?

来源索引

编号标题日期类型
S01Token 计费全模态拆解:文字、图片、音频、视频计算公式与降本策略2026-04-13笔记整理(原 24,公众号文章)
S02对话式 AI 的 Token 隐形成本:8 段式结构化提示框架2026-04-17笔记整理(原 31,TCC 翻译情报局)
S03[商业策略/13] Token 经济产业链全景:五环架构、杰文斯悖论与定价权回归2026-04-14商业视角延伸:贡献"为什么单价 -280× 总支出 +2.4×"的总账逻辑、MaaS 层定位、Token 经济产业链五环架构
S04[商业策略/02] AI 产品免费策略的商业逻辑:豆包与字节的"C 端免费、B 端变现"模型2026-04-02案例(豆包成本经济学)、AI 产品长期免费的判断框架
S05Claude Agent SDK 快速上手与 DeepSeek 配置教程2026-05-20公众号文章:环境变量切换模型后端、分层模型策略、国内厂商 API 兼容层成熟度
S06Best practices for computer and browser use with Claude2026-05-13Anthropic 官方博客:CU 截图 token 消耗实测、三层降本架构(预降采样/Cache-aware 滚动缓冲/LLM-based Compaction)、Thinking effort 对 CU 成本的影响、模型选型矩阵

演进记录

  • 2026-05-15 v0.1 — 首次构建,由 /route-knowledge 路由分析触发。从 Token 与模型/ 目录下原始笔记 24、31 抽取,搭建 Token 计费与降本工程方向骨架,纳入 4 个核心概念、4 个框架、5 个案例、7 条洞察、7 个待探索问题。来源数:2。
  • 2026-05-18 v0.1.1 — 由 /route-knowledge 路由分析触发,纳入 oh-my-claudecode 案例研究。新增案例(OMC 声称 30-50% Token 节省的三组件拆解:专业化分工 + Context Resets 内置化 + 两层 Skill 按需注入,对应"上下文滚雪球 / 系统预设 / 思维链消耗"三类消耗的 Agent 框架级降本机制;声明 30-50% 节省为框架方自述未独立验证)。来源数 2 → 3。文件名日期 2026-05-15 → 2026-05-18。
  • 2026-05-19 v0.1.2 — 叙述结构整理:将原"核心概念 / 方法论与框架 / 案例库"三段式重排为"计费机制 → 消耗场景 → 隐形成本 → 降本杠杆"四阶段,使内容沿同一逻辑链推进;新增"叙述结构"说明段、与「响应时间指标」「AI 研发效能与 SDLC 工程纪律」的交叉引用。
  • 2026-05-20 v0.1.3 — 整体平移合并《响应时间指标-P50-P95-P99.md》全文为新章节「三、响应时间百分位与延迟治理」(含 P50/P95/P99 定义、TTFT、流式输出双曲线监控、慢思考推高 P99 与 §2.1 思维链消耗的耦合),原"三、隐形成本"顺延为"四"、"四、降本杠杆"顺延为"五";移除已并入的兄弟方向交叉链接,原文件随即删除。
  • 2026-05-20 v0.1.4 — 由 /route-knowledge-pm 路由触发,新增 §5.8"模型后端可替换:API 兼容层降本"——Claude Agent SDK 环境变量切换模型后端、分层模型策略、国内兼容层成熟度、PM 决策框架与风险提示;新增洞察 9(模型后端可替换性是 Agent 时代的新降本维度)和 1 条待探索问题(国产模型作为 Agent 后端的质量-成本权衡曲线)。来源数 4 → 5。
  • 2026-05-20 v0.1.5 — 由 /route-knowledge-pm 路由触发(Anthropic CU 最佳实践博客 2026-05-13)。§1.2 新增 CU 截图 token 消耗实测数据(1,000-1,800 token/张、100 步填满 200K window)和 API 内部分辨率限制;§5.1 新增 CU 三层降本策略表(预降采样/Cache-aware 滚动缓冲/LLM-based Compaction);新增 §5.9 Thinking effort 对 CU 成本的影响(Opus 4.7 + 4.6 family effort 推荐矩阵 + CU 模型选型矩阵);新增 1 条待探索问题(服务端 Compaction beta GA 后的客户端替代性)。来源数 5 → 6。

MIT License