术语表 · AI 技术认知

本文件聚合 技术认知/05-AI与Agent/ 主题下的高频术语精简卡片，便于快速查询。深度内容请跳转到对应原文。

QPS（Queries Per Second）

定义：每秒查询数，衡量服务的请求处理能力。计算公式：总请求数 / 时间窗口（秒）。

与相邻术语区分：

RPS（Requests Per Second）：业内常与 QPS 混用，几乎同义
TPS（Transactions Per Second）：每秒事务数，含完整业务流程，量级通常 < QPS
Token throughput：LLM 场景下真正的成本单位。1 个请求可能消耗 200~5000 token，QPS 看不到这个差异

典型量级（RAG 链路，2026-05 时点参考）：

链路段	单实例 QPS
embedding（CPU 节点）	几千
向量召回（Faiss/Milvus 单机）	几百~千
rerank（GPU 单卡）	几十
LLM 生成（GPU 单卡）	个位数

常见误用：把入口 nginx RPS 当 LLM 限流单位 → 长 query 把 GPU 队列堆爆。LLM 限流应按 token 维度，不按 QPS。

本仓库相关文档：

技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程

RPS（Requests Per Second）

定义：每秒请求数，衡量服务在入口侧每秒接收/处理的 HTTP 请求数量。计算公式：总请求数 / 时间窗口（秒）。

与相邻术语区分：

QPS（Queries Per Second）：在 Web/API 场景下与 RPS 几乎同义；在数据库语境里 QPS 更偏"查询请求"，RPS 更偏"网关层 HTTP 请求"，但工程实践中常互换
TPS（Transactions Per Second）：每秒事务数，1 笔 transaction 可能包含多个 RPS（如下单 = 鉴权 + 库存 + 支付多个请求）
Token throughput：LLM 后端真正的成本单位，与 RPS 不可线性换算——1 个 RPS 可能对应 200~5000 token

典型应用位置：

位置	作用
网关 / nginx 限流	按 RPS 挡爬虫、DDoS、异常突发流量
负载均衡器容量规划	估算单实例能承接的入口压力
SLA 监控	业务侧通用流量指标，便于跨服务横向对比

常见误用：

用入口 RPS 给 LLM 限流：入口 1 个 RPS 到 LLM 可能烧 5000 token，按 RPS 配阈值要么太严（拒掉便宜请求）要么太松（GPU 队列爆）→ LLM 必须按 token 限流，不按 RPS
RPS 与 QPS 混着用但语义不一致：跨团队对齐时先约定单位，避免一边按"数据库 query"算、一边按"HTTP request"算

本仓库相关文档：

技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程

TPS（Transactions Per Second）

定义：每秒事务数，衡量系统每秒能够完成的"完整业务事务"数量。一笔 transaction 通常对应一个有完整业务语义、可成功/失败判定的端到端流程。

与相邻术语区分：

QPS / RPS：单位是"请求"，1 笔 transaction 可能由多个 QPS/RPS 组成（如下单事务 = 鉴权 + 库存 + 支付 + 通知共 4 次请求）
量级关系：通常 TPS < QPS < 单接口 RPS，TPS 是更"重"的指标
LLM 场景下的 TPS（Tokens Per Second）：完全不同的概念！这里的 TPS 是 token 生成速率，单位 token/秒，用于度量 LLM 推理速度，不要与"事务"TPS 混淆

典型应用场景：

场景	TPS 含义
数据库 / 交易系统	每秒提交的事务数（含 commit / rollback）
支付 / 电商	每秒成交订单数
银行核心	每秒清算笔数（行业 SLA 核心指标）
性能压测（JMeter/Locust）	每秒完成的"业务流程数"，区别于单接口 RPS

常见误用：

TPS 与 QPS/RPS 混报：例如压测报告里写"QPS 1000"，实际是统计的端到端事务，应该叫 TPS——单位错了会让团队误判扩容方向
LLM 场景下的歧义：在 LLM 推理上下文里说 TPS 时，绝大多数指的是 Tokens Per Second（推理吞吐），与传统事务 TPS 含义完全不同，跨团队沟通时务必明示单位
用 TPS 给 LLM 限流：LLM 推理本身没有"事务"概念，限流应按 token 维度，TPS（事务）和 RPS 都不合适

本仓库相关文档：

技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程

TPM（Tokens Per Minute）

定义：每分钟 token 数，LLM API 服务的核心限流单位之一。统计窗口为 1 分钟内所有调用消耗的 token 总量（通常 input + output 合并计算）。

与相邻术语区分：

RPM（Requests Per Minute）：同一限流体系的孪生指标，统计调用次数而非 token 量。LLM API 通常 TPM + RPM 双闸口同时配
TPS（Tokens Per Second）：分钟 vs 秒的时间窗口差异，60 秒粒度更平滑、便于配额；秒级粒度更适合推理速度度量
QPS / RPS：单位是"请求数 / 秒"，不反映 token 实际成本——这是为什么 LLM 限流要切到 TPM 而非 QPS 的根本原因

典型限流配置（行业惯例参考，2026-05 时点）：

维度	示例配额
个人开发者 Tier 1	30K~50K TPM / 500 RPM
企业账号 Tier 4+	数百万 TPM / 数千~数万 RPM
计算公式	`input_tokens + max_output_tokens` 累加扣额
重置周期	滚动 60 秒窗口（非整点重置）

典型应用位置：

LLM Gateway 前置限流（自研 / Portkey / LiteLLM）
按 user_id × model 维度配置二维配额（不同模型 TPM 上限不同）
配合 Redis 令牌桶实现，超额返回 429

常见误用：

只配 RPM 不配 TPM：短 query 还行，遇到长 context 单请求烧 8000 token，几次就把 GPU 队列堆爆
input 和 output token 分开算：实际计费 / 限流通常合并扣，output 用预估值（如 max_tokens=800）先扣，请求完成后按真实值结算
窗口边界对齐错误：把"每分钟"理解为整点重置而非滚动窗口，导致突发流量在分钟切换时连续打满两次配额

本仓库相关文档：

技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程

RPM（Requests Per Minute）

定义：每分钟请求数，LLM API 服务限流体系中与 TPM 配对使用的次数维度阈值。统计窗口为 1 分钟内的调用次数总数。

与相邻术语区分：

TPM（Tokens Per Minute）：同一限流体系的成本维度阈值，两者通常双闸口同配——任一打满即拒
RPS（Requests Per Second）：秒级粒度版本，量级关系约为 RPM ≈ RPS × 60，但 LLM API 普遍用分钟粒度（容忍突发更友好）
QPS：业务侧通用流量指标，与 RPM 单位可换算但语境不同（QPS 是入口/数据库侧，RPM 是 LLM API 配额侧）

为什么 LLM 同时需要 TPM 和 RPM：

仅配 TPM	仅配 RPM	TPM + RPM 双闸口
大量短请求虽不烧 token，但会打爆调度/连接	长 context 请求虽次数少，但 GPU 队列直接爆	短请求被 RPM 挡、长请求被 TPM 挡，两边都覆盖

典型配置组合：

个人 Tier 1：30K TPM + 500 RPM
企业 Tier：数百万 TPM + 数千 RPM
双闸口比例经验值：TPM / RPM ≈ 60~200（平均单请求 60~200 token，太高则可能存在恶意大 context 流量）

常见误用：

只用 RPM 限流不配 TPM：见 TPM 卡片的同名误用，是 LLM 限流最高频的踩坑
RPM 和 QPS 混算：例如把 "1000 QPS" 当成 "1000 RPM"——前者是后者的 60 倍，配额会差两个量级
不区分 model 维度：Sonnet 和 Haiku 用同一份 RPM 配额，导致便宜模型挤占贵模型的预算 / 反之亦然

本仓库相关文档：

技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程

P99（99th Percentile Latency）

定义：百分位延迟指标，"P99 = N ms" 表示 99% 的请求延迟 ≤ N ms，只有最慢的 1% 请求超过这个值。把所有请求按延迟升序排列，取第 99 个百分位的那个值。

与相邻百分位区分：

指标	含义	关注点
P50（中位数）	50% 请求 ≤ 该值	典型用户体验，反映"大多数情况"
P95	95% 请求 ≤ 该值	普通 SLA 阈值，覆盖大部分场景
P99	99% 请求 ≤ 该值	长尾用户体验，反映"最差 1%"
P999（P99.9）	99.9% 请求 ≤ 该值	极端长尾，金融 / 高频交易场景关注
Avg（平均值）	总延迟 / 总请求数	不要单独看，会被极端值或大批短请求拉偏

为什么必须看 P99 而不是平均延迟：

平均延迟 = 200ms 看似良好，但可能 P99 = 5s——意味着每 100 个用户就有 1 个等 5 秒，体验直接崩
大型服务每秒数千请求时，P99 的 1% 是几十个真实用户在受影响
长尾问题（GC 暂停、缓存击穿、慢查询、batch 等队友）只在 P99/P999 暴露

典型应用场景：

场景	关注百分位
C 端 Web/App	P95（普通 SLA） + P99（用户感知红线）
LLM 推理服务	P99 必须盯——continuous batching 会拉长尾
金融 / 支付	P999 + 最大值（监管要求）
离线批处理	看 Avg / 吞吐即可，P99 不敏感

经验阈值判断：

P99 / P50 < 3 倍：分布健康
P99 / P50 = 3~5 倍：有长尾，需关注
P99 / P50 > 5 倍：长尾严重，必须排查（在 LLM 场景常是 continuous batching 把短请求拖累了）

常见误用：

只看平均延迟做 SLA：平均值掩盖长尾，真实用户体验在 P99
P99 当瞬时值看：百分位指标必须配统计窗口（如 1 分钟、5 分钟滚动），单点 P99 没意义
优化 P99 时砍掉慢请求样本：把超时请求直接丢弃统计，P99 数值好看了但实际用户体验更差，属于自欺欺人

本仓库相关文档：

技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程 §3 响应时间百分位与延迟治理
技术认知/05-AI与Agent/03-RAG系统/RAG服务化与企业级工程（continuous batching 的 P99 长尾分析）

本体论（Ontology，业务语义层）

定义：把企业的"业务对象 + 关系 + 状态 + 动作 + 规则"显式建模为一张可被 AI 与人共同理解的语义网络，让 AI 不再面对一堆零散文档与字段，而是面对一个结构化的世界模型。源头是哲学/知识表示领域，在 AI 工程语境下特指 Palantir Foundry / AIP 的 Ontology 层——把"客户 / 订单 / 产线 / 合同"等业务实体一次性建好，所有上层 Agent、报表、决策都基于同一份本体推理。

Palantir Ontology 的七类核心组件：

#	组件	作用
1	对象类型（Object Type）	客户、订单、设备等业务实体
2	链接类型（Link Type）	对象之间的关系（客户—订单—产品）
3	属性（Property）	每个对象的字段
4	动作类型（Action Type）	可被触发的业务操作（创建/审批/调度）
5	函数（Function）	业务规则与计算逻辑
6	状态机（State Machine）	对象生命周期阶段
7	反馈回路（Feedback Loop）	结果回流校准本体

与相邻术语区分：

知识图谱（Knowledge Graph）：知识图谱关注"事实存储与查询"（三元组），本体论关注"业务运行结构"——本体可以驱动动作，知识图谱通常只能被查询
数据中台：数据中台解决"数据可用"，本体论解决"业务可被 AI 理解"；数据中台是底料，本体论是骨架
领域模型（Domain Model）：DDD 中的领域模型是软件工程内部概念，本体论是跨系统、跨 AI/人/工具的共享语义层
业务操作系统：本体论是骨架，业务操作系统是骨架 + 执行层（动作/规则/反馈）的完整产品形态

为什么 AI 时代本体论重新升值：

LLM 擅长生成内容，但对企业内部对象与关系一无所知——必须靠本体喂结构
没有本体的 AI 应用 = 把 LLM 套在一堆字段上，每个场景都要重新对齐语义
有本体的 AI 应用 = 一次建模，所有 Agent / 报表 / 工作流复用同一份"世界观"

常见误用 / 踩坑：

把本体论当 ER 图升级版：本体论的核心是"动作 + 状态 + 规则 + 反馈"，只画对象关系等于只搭了骨架的一半
以为买 Foundry 就有本体：本体是"建出来的"，不是"装出来的"——核心工作是业务建模师与 SME 一起把领域知识结构化
本体颗粒度过细：把每个字段都建成对象，最后本体本身比业务还复杂；正确做法是从结果倒推，只建影响决策的关键对象
本体一次性建完不迭代：本体应随业务演化，配套"反馈回路"持续修正

本仓库相关文档：

[商业策略/07-Palantir 根本竞争力-本体建模与组织操作系统]
[商业策略/11-本体论落地中国-Palantir 门徒四大阵营与本土化改造路径]
[商业策略/12-Palantir 难以被 Anthropic 取代-平台工具嵌套关系与决策基础设施护城河]
产品方法论/AI 产品设计与架构方法论（七层业务操作系统）
技术趋势/AI 在企业与垂直领域的落地（语义层约束 AI 的工程范式）

MaaS（Model-as-a-Service，模型即服务）

定义：把大模型推理能力封装成 API / SDK 形式按调用量计费的云服务模式，类比 IaaS / PaaS / SaaS——客户不拥有模型权重，不维护算力，只为"调用一次推理"付费。代表厂商：OpenAI / Anthropic / 阿里云百炼 / 火山方舟 / 字节豆包 API。

与 IaaS / PaaS / SaaS 的层级关系：

层级	卖什么	计费单位	代表
IaaS	算力 / 网络 / 存储	实例·小时 / GB	AWS EC2、阿里云 ECS
PaaS	运行时 / 数据库 / 中间件	实例·小时 / 请求数	RDS、K8s 托管
SaaS	完整业务应用	席位·月	Salesforce、钉钉
MaaS	大模型推理能力	Token（input + output）	OpenAI API、Anthropic API、豆包 API

Token 经济产业链中的定位（五环架构）：

算力层（GPU / CPO 光模块）→ 卖算力
基座模型层（OpenAI / Anthropic 等）→ 卖训练成果
MaaS 层（API 服务）→ 卖推理调用，token 是计量单位
应用层（Agent / Copilot / 垂直产品）→ 卖业务价值
数据/知识层（向量库 / Ontology）→ 卖企业适配能力

与相邻术语区分：

LLM API：LLM API 是 MaaS 的实现形态，MaaS 是更广义的商业模式（涵盖 LLM + 多模态 + 嵌入 + 重排等）
私有化部署：MaaS 是"调云端 API"，私有化部署是"模型权重下沉到客户机房"——两者是数据主权场景下的对立选择
AIaaS / Agent-as-a-Service：AIaaS 更广义，包括视觉/语音等传统 AI 服务；Agent-as-a-Service 是 MaaS 之上的更高层封装（含规划/工具/记忆）

典型商业特征：

边际成本不趋零：每次调用都消耗 GPU 算力，与传统 SaaS 完全不同
定价权回归基座厂商：上层应用议价能力弱，价格战由基座层主导（豆包 0.0008 元/千 token 案例）
杰文斯悖论：单价下降反而拉升总支出（见杰文斯悖论卡片）

常见误用 / 踩坑：

把 MaaS 当 SaaS 估值：MaaS 边际成本不趋零，毛利结构与 SaaS 差异巨大，按 SaaS PSR 估值会严重高估
应用层定价照搬订阅制：底层 MaaS 按 token 计费，上层若按席位订阅，重度用户会把毛利吃光——必须设置用量上限或按效果分成
多模型混用不分账：Sonnet 和 Haiku 都走同一份预算，无法追踪哪个场景烧了多少 token

本仓库相关文档：

[商业策略/13-Token 经济产业链全景-五环架构杰文斯悖论与定价权回归]
[商业策略/02-豆包免费模式与字节营收]
技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程

杰文斯悖论（Jevons Paradox）

定义：技术效率提升 / 单位成本下降时，总消耗量不降反升的反直觉现象。19 世纪经济学家 William Stanley Jevons 研究蒸汽机效率提升后煤炭消耗反而暴涨，提出该悖论。在 AI 时代特指：单 token 推理成本暴跌 → 调用次数与上下文长度爆炸式增长 → 企业总 AI 支出反而大幅上升。

AI 时代的典型量化：

维度	变化	来源
单 token 推理成本	2023→2026 累计下降约 280×	行业普遍数据
企业 AI 总支出	同期上升约 2.4×	同期对比
单次调用平均 token 量	上下文从 4K→200K，单次消耗数十倍	长上下文普及
调用频率	Agent 化后单任务调用数十~数百次	Agent 范式

为什么会出现悖论：

场景下沉：单价高时只有高价值场景用得起，单价低后客服 / 摘要 / 翻译 / 代码补全全部接入
使用范式升级：从"一问一答"升级到"Agent 多轮 + 工具调用 + 反思"，单任务 token 量翻数十倍
上下文膨胀：长上下文窗口（128K / 1M）普及，单次调用塞入大量参考资料
能力上瘾：用过就回不去，团队对 AI 的依赖与日俱增

与相邻概念区分：

规模效应（Scale Effect）：规模效应是"单位成本下降"，杰文斯悖论是"单位成本下降导致总成本上升"——前者是因，后者是连锁反应
回弹效应（Rebound Effect）：杰文斯悖论是回弹效应的极端形式——常规回弹效应只是"部分抵消节约"，杰文斯悖论是"完全反转"
诱导需求（Induced Demand）：交通领域的"扩路反堵"，与杰文斯悖论同源逻辑

对 AI PM / CFO 的启示：

不要用单价下降做预算预测：基座厂商每年降价 50%，CFO 按线性外推预算会严重低估实际支出
必须按 token 维度而非席位维度计费：用户人数稳定，但人均消耗 token 会指数级增长
降本工程的真正价值在于压住总支出曲线：不是省单价，而是控总量（缓存 / 路由小模型 / 工作流分层）

常见误用 / 踩坑：

以为降价 = 省钱：模型降价时不做用量管控，结果总账单不降反升
把杰文斯悖论当负面：对基座厂商和云厂商是正面（市场扩大），对企业客户是预算挑战——视角不同结论相反
只用单价压供应商：忽略 token 用量优化，相当于只看油价不看油耗

本仓库相关文档：

[商业策略/13-Token 经济产业链全景-五环架构杰文斯悖论与定价权回归]
技术认知/05-AI与Agent/04-成本与效能/Token 计费与降本工程（四类隐性消耗 + 四模态降本杠杆）

claude-code

hermes

术语表 · AI 技术认知

QPS（Queries Per Second）

RPS（Requests Per Second）

TPS（Transactions Per Second）

TPM（Tokens Per Minute）

RPM（Requests Per Minute）

P99（99th Percentile Latency）

本体论（Ontology，业务语义层）

MaaS（Model-as-a-Service，模型即服务）

杰文斯悖论（Jevons Paradox）

术语表 · AI 技术认知 ​

QPS（Queries Per Second） ​

RPS（Requests Per Second） ​

TPS（Transactions Per Second） ​

TPM（Tokens Per Minute） ​

RPM（Requests Per Minute） ​

P99（99th Percentile Latency） ​

本体论（Ontology，业务语义层） ​

MaaS（Model-as-a-Service，模型即服务） ​

杰文斯悖论（Jevons Paradox） ​

术语表 · AI 技术认知

QPS（Queries Per Second）

RPS（Requests Per Second）

TPS（Transactions Per Second）

TPM（Tokens Per Minute）

RPM（Requests Per Minute）

P99（99th Percentile Latency）

本体论（Ontology，业务语义层）

MaaS（Model-as-a-Service，模型即服务）

杰文斯悖论（Jevons Paradox）