Appearance
术语表 · AI 技术认知
本文件聚合 技术认知/05-AI与Agent/ 主题下的高频术语精简卡片,便于快速查询。深度内容请跳转到对应原文。
QPS(Queries Per Second)
定义:每秒查询数,衡量服务的请求处理能力。计算公式:总请求数 / 时间窗口(秒)。
与相邻术语区分:
- RPS(Requests Per Second):业内常与 QPS 混用,几乎同义
- TPS(Transactions Per Second):每秒事务数,含完整业务流程,量级通常 < QPS
- Token throughput:LLM 场景下真正的成本单位。1 个请求可能消耗 200~5000 token,QPS 看不到这个差异
典型量级(RAG 链路,2026-05 时点参考):
| 链路段 | 单实例 QPS |
|---|---|
| embedding(CPU 节点) | 几千 |
| 向量召回(Faiss/Milvus 单机) | 几百~千 |
| rerank(GPU 单卡) | 几十 |
| LLM 生成(GPU 单卡) | 个位数 |
常见误用:把入口 nginx RPS 当 LLM 限流单位 → 长 query 把 GPU 队列堆爆。LLM 限流应按 token 维度,不按 QPS。
本仓库相关文档:
RPS(Requests Per Second)
定义:每秒请求数,衡量服务在入口侧每秒接收/处理的 HTTP 请求数量。计算公式:总请求数 / 时间窗口(秒)。
与相邻术语区分:
- QPS(Queries Per Second):在 Web/API 场景下与 RPS 几乎同义;在数据库语境里 QPS 更偏"查询请求",RPS 更偏"网关层 HTTP 请求",但工程实践中常互换
- TPS(Transactions Per Second):每秒事务数,1 笔 transaction 可能包含多个 RPS(如下单 = 鉴权 + 库存 + 支付多个请求)
- Token throughput:LLM 后端真正的成本单位,与 RPS 不可线性换算——1 个 RPS 可能对应 200~5000 token
典型应用位置:
| 位置 | 作用 |
|---|---|
| 网关 / nginx 限流 | 按 RPS 挡爬虫、DDoS、异常突发流量 |
| 负载均衡器容量规划 | 估算单实例能承接的入口压力 |
| SLA 监控 | 业务侧通用流量指标,便于跨服务横向对比 |
常见误用:
- 用入口 RPS 给 LLM 限流:入口 1 个 RPS 到 LLM 可能烧 5000 token,按 RPS 配阈值要么太严(拒掉便宜请求)要么太松(GPU 队列爆)→ LLM 必须按 token 限流,不按 RPS
- RPS 与 QPS 混着用但语义不一致:跨团队对齐时先约定单位,避免一边按"数据库 query"算、一边按"HTTP request"算
本仓库相关文档:
TPS(Transactions Per Second)
定义:每秒事务数,衡量系统每秒能够完成的"完整业务事务"数量。一笔 transaction 通常对应一个有完整业务语义、可成功/失败判定的端到端流程。
与相邻术语区分:
- QPS / RPS:单位是"请求",1 笔 transaction 可能由多个 QPS/RPS 组成(如下单事务 = 鉴权 + 库存 + 支付 + 通知 共 4 次请求)
- 量级关系:通常
TPS < QPS < 单接口 RPS,TPS 是更"重"的指标 - LLM 场景下的 TPS(Tokens Per Second):完全不同的概念!这里的 TPS 是 token 生成速率,单位 token/秒,用于度量 LLM 推理速度,不要与"事务"TPS 混淆
典型应用场景:
| 场景 | TPS 含义 |
|---|---|
| 数据库 / 交易系统 | 每秒提交的事务数(含 commit / rollback) |
| 支付 / 电商 | 每秒成交订单数 |
| 银行核心 | 每秒清算笔数(行业 SLA 核心指标) |
| 性能压测(JMeter/Locust) | 每秒完成的"业务流程数",区别于单接口 RPS |
常见误用:
- TPS 与 QPS/RPS 混报:例如压测报告里写"QPS 1000",实际是统计的端到端事务,应该叫 TPS——单位错了会让团队误判扩容方向
- LLM 场景下的歧义:在 LLM 推理上下文里说 TPS 时,绝大多数指的是 Tokens Per Second(推理吞吐),与传统事务 TPS 含义完全不同,跨团队沟通时务必明示单位
- 用 TPS 给 LLM 限流:LLM 推理本身没有"事务"概念,限流应按 token 维度,TPS(事务)和 RPS 都不合适
本仓库相关文档:
TPM(Tokens Per Minute)
定义:每分钟 token 数,LLM API 服务的核心限流单位之一。统计窗口为 1 分钟内所有调用消耗的 token 总量(通常 input + output 合并计算)。
与相邻术语区分:
- RPM(Requests Per Minute):同一限流体系的孪生指标,统计调用次数而非 token 量。LLM API 通常 TPM + RPM 双闸口同时配
- TPS(Tokens Per Second):分钟 vs 秒的时间窗口差异,60 秒粒度更平滑、便于配额;秒级粒度更适合推理速度度量
- QPS / RPS:单位是"请求数 / 秒",不反映 token 实际成本——这是为什么 LLM 限流要切到 TPM 而非 QPS 的根本原因
典型限流配置(行业惯例参考,2026-05 时点):
| 维度 | 示例配额 |
|---|---|
| 个人开发者 Tier 1 | 30K~50K TPM / 500 RPM |
| 企业账号 Tier 4+ | 数百万 TPM / 数千~数万 RPM |
| 计算公式 | input_tokens + max_output_tokens 累加扣额 |
| 重置周期 | 滚动 60 秒窗口(非整点重置) |
典型应用位置:
- LLM Gateway 前置限流(自研 / Portkey / LiteLLM)
- 按
user_id × model维度配置二维配额(不同模型 TPM 上限不同) - 配合 Redis 令牌桶实现,超额返回 429
常见误用:
- 只配 RPM 不配 TPM:短 query 还行,遇到长 context 单请求烧 8000 token,几次就把 GPU 队列堆爆
- input 和 output token 分开算:实际计费 / 限流通常合并扣,output 用预估值(如
max_tokens=800)先扣,请求完成后按真实值结算 - 窗口边界对齐错误:把"每分钟"理解为整点重置而非滚动窗口,导致突发流量在分钟切换时连续打满两次配额
本仓库相关文档:
RPM(Requests Per Minute)
定义:每分钟请求数,LLM API 服务限流体系中与 TPM 配对使用的次数维度阈值。统计窗口为 1 分钟内的调用次数总数。
与相邻术语区分:
- TPM(Tokens Per Minute):同一限流体系的成本维度阈值,两者通常双闸口同配——任一打满即拒
- RPS(Requests Per Second):秒级粒度版本,量级关系约为
RPM ≈ RPS × 60,但 LLM API 普遍用分钟粒度(容忍突发更友好) - QPS:业务侧通用流量指标,与 RPM 单位可换算但语境不同(QPS 是入口/数据库侧,RPM 是 LLM API 配额侧)
为什么 LLM 同时需要 TPM 和 RPM:
| 仅配 TPM | 仅配 RPM | TPM + RPM 双闸口 |
|---|---|---|
| 大量短请求虽不烧 token,但会打爆调度/连接 | 长 context 请求虽次数少,但 GPU 队列直接爆 | 短请求被 RPM 挡、长请求被 TPM 挡,两边都覆盖 |
典型配置组合:
- 个人 Tier 1:
30K TPM + 500 RPM - 企业 Tier:
数百万 TPM + 数千 RPM - 双闸口比例经验值:
TPM / RPM ≈ 60~200(平均单请求 60~200 token,太高则可能存在恶意大 context 流量)
常见误用:
- 只用 RPM 限流不配 TPM:见 TPM 卡片的同名误用,是 LLM 限流最高频的踩坑
- RPM 和 QPS 混算:例如把 "1000 QPS" 当成 "1000 RPM"——前者是后者的 60 倍,配额会差两个量级
- 不区分 model 维度:Sonnet 和 Haiku 用同一份 RPM 配额,导致便宜模型挤占贵模型的预算 / 反之亦然
本仓库相关文档:
P99(99th Percentile Latency)
定义:百分位延迟指标,"P99 = N ms" 表示 99% 的请求延迟 ≤ N ms,只有最慢的 1% 请求超过这个值。把所有请求按延迟升序排列,取第 99 个百分位的那个值。
与相邻百分位区分:
| 指标 | 含义 | 关注点 |
|---|---|---|
| P50(中位数) | 50% 请求 ≤ 该值 | 典型用户体验,反映"大多数情况" |
| P95 | 95% 请求 ≤ 该值 | 普通 SLA 阈值,覆盖大部分场景 |
| P99 | 99% 请求 ≤ 该值 | 长尾用户体验,反映"最差 1%" |
| P999(P99.9) | 99.9% 请求 ≤ 该值 | 极端长尾,金融 / 高频交易场景关注 |
| Avg(平均值) | 总延迟 / 总请求数 | 不要单独看,会被极端值或大批短请求拉偏 |
为什么必须看 P99 而不是平均延迟:
- 平均延迟 = 200ms 看似良好,但可能 P99 = 5s——意味着每 100 个用户就有 1 个等 5 秒,体验直接崩
- 大型服务每秒数千请求时,P99 的 1% 是几十个真实用户在受影响
- 长尾问题(GC 暂停、缓存击穿、慢查询、batch 等队友)只在 P99/P999 暴露
典型应用场景:
| 场景 | 关注百分位 |
|---|---|
| C 端 Web/App | P95(普通 SLA) + P99(用户感知红线) |
| LLM 推理服务 | P99 必须盯——continuous batching 会拉长尾 |
| 金融 / 支付 | P999 + 最大值(监管要求) |
| 离线批处理 | 看 Avg / 吞吐即可,P99 不敏感 |
经验阈值判断:
P99 / P50 < 3 倍:分布健康P99 / P50 = 3~5 倍:有长尾,需关注P99 / P50 > 5 倍:长尾严重,必须排查(在 LLM 场景常是 continuous batching 把短请求拖累了)
常见误用:
- 只看平均延迟做 SLA:平均值掩盖长尾,真实用户体验在 P99
- P99 当瞬时值看:百分位指标必须配统计窗口(如 1 分钟、5 分钟滚动),单点 P99 没意义
- 优化 P99 时砍掉慢请求样本:把超时请求直接丢弃统计,P99 数值好看了但实际用户体验更差,属于自欺欺人
本仓库相关文档:
- 技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程 §3 响应时间百分位与延迟治理
- 技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程(continuous batching 的 P99 长尾分析)
本体论(Ontology,业务语义层)
定义:把企业的"业务对象 + 关系 + 状态 + 动作 + 规则"显式建模为一张可被 AI 与人共同理解的语义网络,让 AI 不再面对一堆零散文档与字段,而是面对一个结构化的世界模型。源头是哲学/知识表示领域,在 AI 工程语境下特指 Palantir Foundry / AIP 的 Ontology 层——把"客户 / 订单 / 产线 / 合同"等业务实体一次性建好,所有上层 Agent、报表、决策都基于同一份本体推理。
Palantir Ontology 的七类核心组件:
| # | 组件 | 作用 |
|---|---|---|
| 1 | 对象类型(Object Type) | 客户、订单、设备等业务实体 |
| 2 | 链接类型(Link Type) | 对象之间的关系(客户—订单—产品) |
| 3 | 属性(Property) | 每个对象的字段 |
| 4 | 动作类型(Action Type) | 可被触发的业务操作(创建/审批/调度) |
| 5 | 函数(Function) | 业务规则与计算逻辑 |
| 6 | 状态机(State Machine) | 对象生命周期阶段 |
| 7 | 反馈回路(Feedback Loop) | 结果回流校准本体 |
与相邻术语区分:
- 知识图谱(Knowledge Graph):知识图谱关注"事实存储与查询"(三元组),本体论关注"业务运行结构"——本体可以驱动动作,知识图谱通常只能被查询
- 数据中台:数据中台解决"数据可用",本体论解决"业务可被 AI 理解";数据中台是底料,本体论是骨架
- 领域模型(Domain Model):DDD 中的领域模型是软件工程内部概念,本体论是跨系统、跨 AI/人/工具的共享语义层
- 业务操作系统:本体论是骨架,业务操作系统是骨架 + 执行层(动作/规则/反馈)的完整产品形态
为什么 AI 时代本体论重新升值:
- LLM 擅长生成内容,但对企业内部对象与关系一无所知——必须靠本体喂结构
- 没有本体的 AI 应用 = 把 LLM 套在一堆字段上,每个场景都要重新对齐语义
- 有本体的 AI 应用 = 一次建模,所有 Agent / 报表 / 工作流复用同一份"世界观"
常见误用 / 踩坑:
- 把本体论当 ER 图升级版:本体论的核心是"动作 + 状态 + 规则 + 反馈",只画对象关系等于只搭了骨架的一半
- 以为买 Foundry 就有本体:本体是"建出来的",不是"装出来的"——核心工作是业务建模师与 SME 一起把领域知识结构化
- 本体颗粒度过细:把每个字段都建成对象,最后本体本身比业务还复杂;正确做法是从结果倒推,只建影响决策的关键对象
- 本体一次性建完不迭代:本体应随业务演化,配套"反馈回路"持续修正
本仓库相关文档:
- [商业策略/07-Palantir 根本竞争力-本体建模与组织操作系统]
- [商业策略/11-本体论落地中国-Palantir 门徒四大阵营与本土化改造路径]
- [商业策略/12-Palantir 难以被 Anthropic 取代-平台工具嵌套关系与决策基础设施护城河]
- 产品方法论/AI 产品设计与架构方法论(七层业务操作系统)
- 技术趋势/AI 在企业与垂直领域的落地(语义层约束 AI 的工程范式)
MaaS(Model-as-a-Service,模型即服务)
定义:把大模型推理能力封装成 API / SDK 形式按调用量计费的云服务模式,类比 IaaS / PaaS / SaaS——客户不拥有模型权重,不维护算力,只为"调用一次推理"付费。代表厂商:OpenAI / Anthropic / 阿里云百炼 / 火山方舟 / 字节豆包 API。
与 IaaS / PaaS / SaaS 的层级关系:
| 层级 | 卖什么 | 计费单位 | 代表 |
|---|---|---|---|
| IaaS | 算力 / 网络 / 存储 | 实例·小时 / GB | AWS EC2、阿里云 ECS |
| PaaS | 运行时 / 数据库 / 中间件 | 实例·小时 / 请求数 | RDS、K8s 托管 |
| SaaS | 完整业务应用 | 席位·月 | Salesforce、钉钉 |
| MaaS | 大模型推理能力 | Token(input + output) | OpenAI API、Anthropic API、豆包 API |
Token 经济产业链中的定位(五环架构):
- 算力层(GPU / CPO 光模块)→ 卖算力
- 基座模型层(OpenAI / Anthropic 等)→ 卖训练成果
- MaaS 层(API 服务)→ 卖推理调用,token 是计量单位
- 应用层(Agent / Copilot / 垂直产品)→ 卖业务价值
- 数据/知识层(向量库 / Ontology)→ 卖企业适配能力
与相邻术语区分:
- LLM API:LLM API 是 MaaS 的实现形态,MaaS 是更广义的商业模式(涵盖 LLM + 多模态 + 嵌入 + 重排等)
- 私有化部署:MaaS 是"调云端 API",私有化部署是"模型权重下沉到客户机房"——两者是数据主权场景下的对立选择
- AIaaS / Agent-as-a-Service:AIaaS 更广义,包括视觉/语音等传统 AI 服务;Agent-as-a-Service 是 MaaS 之上的更高层封装(含规划/工具/记忆)
典型商业特征:
- 边际成本不趋零:每次调用都消耗 GPU 算力,与传统 SaaS 完全不同
- 定价权回归基座厂商:上层应用议价能力弱,价格战由基座层主导(豆包 0.0008 元/千 token 案例)
- 杰文斯悖论:单价下降反而拉升总支出(见杰文斯悖论卡片)
常见误用 / 踩坑:
- 把 MaaS 当 SaaS 估值:MaaS 边际成本不趋零,毛利结构与 SaaS 差异巨大,按 SaaS PSR 估值会严重高估
- 应用层定价照搬订阅制:底层 MaaS 按 token 计费,上层若按席位订阅,重度用户会把毛利吃光——必须设置用量上限或按效果分成
- 多模型混用不分账:Sonnet 和 Haiku 都走同一份预算,无法追踪哪个场景烧了多少 token
本仓库相关文档:
- [商业策略/13-Token 经济产业链全景-五环架构杰文斯悖论与定价权回归]
- [商业策略/02-豆包免费模式与字节营收]
- 技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程
杰文斯悖论(Jevons Paradox)
定义:技术效率提升 / 单位成本下降时,总消耗量不降反升的反直觉现象。19 世纪经济学家 William Stanley Jevons 研究蒸汽机效率提升后煤炭消耗反而暴涨,提出该悖论。在 AI 时代特指:单 token 推理成本暴跌 → 调用次数与上下文长度爆炸式增长 → 企业总 AI 支出反而大幅上升。
AI 时代的典型量化:
| 维度 | 变化 | 来源 |
|---|---|---|
| 单 token 推理成本 | 2023→2026 累计下降 约 280× | 行业普遍数据 |
| 企业 AI 总支出 | 同期上升 约 2.4× | 同期对比 |
| 单次调用平均 token 量 | 上下文从 4K→200K,单次消耗 数十倍 | 长上下文普及 |
| 调用频率 | Agent 化后单任务调用 数十~数百次 | Agent 范式 |
为什么会出现悖论:
- 场景下沉:单价高时只有高价值场景用得起,单价低后客服 / 摘要 / 翻译 / 代码补全全部接入
- 使用范式升级:从"一问一答"升级到"Agent 多轮 + 工具调用 + 反思",单任务 token 量翻数十倍
- 上下文膨胀:长上下文窗口(128K / 1M)普及,单次调用塞入大量参考资料
- 能力上瘾:用过就回不去,团队对 AI 的依赖与日俱增
与相邻概念区分:
- 规模效应(Scale Effect):规模效应是"单位成本下降",杰文斯悖论是"单位成本下降导致总成本上升"——前者是因,后者是连锁反应
- 回弹效应(Rebound Effect):杰文斯悖论是回弹效应的极端形式——常规回弹效应只是"部分抵消节约",杰文斯悖论是"完全反转"
- 诱导需求(Induced Demand):交通领域的"扩路反堵",与杰文斯悖论同源逻辑
对 AI PM / CFO 的启示:
- 不要用单价下降做预算预测:基座厂商每年降价 50%,CFO 按线性外推预算会严重低估实际支出
- 必须按 token 维度而非席位维度计费:用户人数稳定,但人均消耗 token 会指数级增长
- 降本工程的真正价值在于压住总支出曲线:不是省单价,而是控总量(缓存 / 路由小模型 / 工作流分层)
常见误用 / 踩坑:
- 以为降价 = 省钱:模型降价时不做用量管控,结果总账单不降反升
- 把杰文斯悖论当负面:对基座厂商和云厂商是正面(市场扩大),对企业客户是预算挑战——视角不同结论相反
- 只用单价压供应商:忽略 token 用量优化,相当于只看油价不看油耗
本仓库相关文档:
- [商业策略/13-Token 经济产业链全景-五环架构杰文斯悖论与定价权回归]
- 技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程(四类隐性消耗 + 四模态降本杠杆)