Appearance
TL;DR
AI PM 与传统 PM 的差距不在"会不会用 ChatGPT",而在底层思维模型。本文用三套互补框架搭建完整能力地图:60 个核心概念构成技术底座,三域乘法模型(技术理解力 × 产品设计力 × 商业落地力,任一为零则总分为零)描述横向能力域,五维 L1-L5 分级(AI 技术理解力 / Prompt 工程 / 数据思维 / AI 产品设计力 / 商业落地力)提供可自测的成长坐标。
贯穿全篇的共识:LLM 本质是文字接龙机 → 推出概率推理、知识截止、输出不稳定三个硬约束 → 这三条决定了 AI PM 的所有产品决策。能力升级遵循 Prompt → RAG → 微调 的成本递增顺序(决策路径正确可省 90% 不必要成本);指标必须是业务指标 + 模型效果指标双套;AI 产品不是 AI 功能,要设计完整用户旅程而不是套个对话框。
一、底层认知:从"文字接龙机"推导一切
LLM 本质是文字接龙机器——给一段话,预测下一个最可能的词,循环往复。这一机制带来三个无法绕过的硬约束:
| 约束 | 含义 | 产品影响 |
|---|---|---|
| 概率推理 | 不是在思考,是在算概率 | 严密逻辑推理场景经常出错,不是偶尔,是经常 |
| 知识截止 | 训练数据有时间点 | 之后的事不知道,问了只会编 |
| 输出不稳定 | 在多个高概率词之间随机选择 | 同一输入每次输出可能不同 |
第一性原则:做 AI 产品的第一步不是想 AI 能做什么,而是想清楚 AI 做不了什么,把做不了的部分用规则、人工、兜底策略补上。想反了,项目必翻。
二、能力框架:三域乘法 × 五维分级
2.1 三域乘法模型(横向能力域)
AI PM 三大能力域之间是乘法关系,而非加法——任意一项为零,整体战斗力归零:
AI 技术理解力 × 产品设计力 × 商业落地力 = AI PM 综合战斗力| 能力域 | 核心问题 | 关键技能(共 10 个) |
|---|---|---|
| AI 技术理解力 | 听不听得懂工程师、判不判断得了 AI 能做什么 | ① Prompt 工程与模型选型 ② 数据思维与指标体系 ③ AI 评估与效果度量 |
| 产品设计力 | 能不能把 AI 转化为用户愿意用的产品 | ④ 需求定义与假设验证 ⑤ 人机交互设计 ⑥ AI MVP 设计 ⑦ 用户体验与信任设计 |
| 商业落地力 | 产品能不能活下去 | ⑧ AI 商业化与定价策略 ⑨ 跨角色协作与沟通 ⑩ AI 伦理与合规意识 |
2.2 五维 L1-L5 分级(纵向自测维度)
把三域细化为五个可量化维度,每个维度分 5 个等级:
| 维度 | L1 入门 | L3 应用(合格线) | L5 专家 |
|---|---|---|---|
| AI 技术理解力 | 知道术语但说不清用法 | 能参与技术方案评审,知道什么场景该 RAG/微调/Agent | 在某细分领域有深度积累,能指导算法团队 |
| Prompt 工程能力 | 会写基础 prompt 但不稳定 | 能设计可复用模板,有版本管理和评测意识 | 建立团队规范,有自己的方法论 |
| 数据思维 | 知道要看数据但不知看啥 | 能设计数据采集方案和看板,用数据驱动决策 | 建立团队的数据体系,有行业影响力 |
| AI 产品设计力 | 把 AI 当聊天框 | 能处理不确定性交互,设计 AI/用户协作流程 | 有自己的方法论,能指导团队 |
| 商业落地力 | 只关注功能不关注价值 | 能推动 demo 到生产,能用业务语言讲价值 | 有多个商业化成功案例,能设计商业模式 |
2.3 段位与成长路径
| 总分 | 段位 | 突破策略 |
|---|---|---|
| 5-10 | 新手村 | 先搞清楚 AI 能做什么、不能做什么 + 调几次 API + 找前辈聊一次 |
| 11-16 | 入门 | 选一个维度死磕到 L3,不要五维平均发力,一定要有实战项目 |
| 17-20 | 合格 AI PM | 向垂直领域深度走(行业 know-how 没法自动化) |
| 21-25 | 资深 | 构建方法论体系、关注 AI Safety 合规、做别人想不到的事 |
2.4 三域与五维的映射
三域(横向) 五维(纵向,可自测)
────────── ──────────────────
技术理解力 ─────────┬─ ① AI 技术理解力
├─ ② Prompt 工程能力
└─ ③ 数据思维(跨域)
产品设计力 ──────────── ④ AI 产品设计力
商业落地力 ──────────── ⑤ 商业落地力三、60 个核心概念的产品决策骨架
60 概念图解的真正价值不是术语字典,而是为 AI PM 提供"工作场景 → 核心原理 → 操作步骤"的三层决策骨架。下面按 PM 实际用得到的顺序重组。
3.1 基础原理层(PM 的硬常识)
| 概念 | PM 必懂的关键决策点 |
|---|---|
| LLM | 文字接龙机器 → 三个硬约束 → 第一性原则(先想做不了什么) |
| Token | 月成本 = 单次消耗 × 调用量 × 单价,必须写进 PRD |
| Hallucination | 行业经验值 10%-30%,无法根治。三条防范路径:RAG 接地 / 输出校验 / 信任度设计 |
| Transformer | 平方复杂度 → 上下文窗口越大越贵(非线性),长文档优先 RAG 而非塞窗口 |
| Attention(中间迷失) | 关键信息放 Prompt 头尾,不要塞中间 |
3.2 提示工程层(性价比最高的技能)
| 概念 | PM 决策要点 |
|---|---|
| 好 Prompt 四要素 | 角色设定 / 任务描述 / 输出约束 / 上下文信息 |
| System Prompt | 像写岗位 JD 一样写,决定角色一致性 + 行为边界 + 输出质量 |
| Few-shot | 2-5 个示例最优,质量比数量重要十倍 |
| CoT 思维链 | 简单问答不需要,多步推理才需要(Token 翻 3-5 倍) |
| Temperature | 在 PRD 里明确写取值和原因;Temperature=0 不代表不出错 |
核心结论:至少一半的 AI 效果问题最后都是优化 Prompt 解决的。不是换模型,不是加数据,就是把指令写得更精确,零成本立刻见效。
3.3 知识系统层(RAG 是基础设施)
核心结论:RAG 效果不好,80% 的问题不在模型,在检索。
| 概念 | PM 决策要点 |
|---|---|
| RAG | 开卷考试,四步流程:切段 → Embedding → 向量库 → 检索拼 Prompt |
| Embedding | 关注:中文支持度 + 向量维度 + 数据库选型 |
| 向量数据库 | 小验证用 Chroma,生产用 Milvus/Pinecone |
| 上下文窗口 | 窗口大不等于效果好,128K 中真正留给业务的少;正确做法:分块 + 检索 + 精排 |
3.4 模型训练层(决策路径就是省钱关键)
核心决策路径:
Prompt Engineering → 效果不够 → 加 RAG → RAG 到顶了 → 再上微调,能省 90% 不必要的成本。
| 概念 | PM 决策要点 |
|---|---|
| 预训练 | 1 亿美元门槛,绝大部分公司不可能自训,只能用别人的基座 |
| SFT | 几千条高质量问答对就显著改善,数据质量决定一切 |
| RLHF | 决定模型"性格",开源模型做产品时 PM 必须参与(定义偏好标准) |
| LoRA | 调风格/格式用 LoRA,补知识用 RAG,搞混就是花冤枉钱 |
| 知识蒸馏 | 研发用强模型,上线蒸馏到小模型,成本降一个数量级。⚠️ 注意法律风险 |
| 量化 | INT4 让私有化部署硬件成本从百万级降到万级 |
3.5 Agent 系统层(范式转移核心)
Agent vs 聊天机器人的本质区别:不是更聪明,而是能动手干活。Agent 核心能力三件套——① 规划 ② 工具调用 ③ 观察调整。
| 概念 | PM 决策要点 |
|---|---|
| Function Calling | Agent 的"手",把意图转成 API 调用 |
| MCP | 工具调用的协议层 |
| 多轮对话/上下文管理 | Agent 的"记忆" |
| 流式输出 | 用户感知的体验关键 |
四、AI PM 五大思维转换(区别于传统 PM)
4.1 从单套指标到双套指标
| 传统 PM | AI PM | |
|---|---|---|
| 指标体系 | 用户行为数据(DAU/留存/转化) | 业务指标 + 模型效果指标 |
| 用户行为侧 | DAU、留存、转化率 | 同左 + AI 输出采纳率 |
| 模型效果侧 | (无) | 准确率、召回率、误判率 |
反直觉案例:AI 推荐准确率从 85% 提到 92%,用户点击率反而下降 3%——推荐太准导致内容越来越窄,用户失去探索新鲜感。模型指标好不等于业务指标好。
4.1.1 B 端 AI 客服系统四类指标体系(落地范例)
来自沃丰科技 B 端 AI 客服产品的实践 [来源:商业策略/05],是双套指标在 SaaS / 客服场景的标准落地:
| 类别 | 指标 | PM 自检要点 |
|---|---|---|
| 效率指标 | 首次响应时间 / 平均处理时长 / 工单积压量 | 看的是"快不快" |
| 质量指标 | 一次性解决率(FCR)/ 客户满意度(CSAT)/ NPS | 看的是"好不好" |
| AI 指标 | 机器人解决率 / 转人工率 / 意图识别准确率 | 看的是"AI 顶不顶用" |
| 商业指标 | 客服人效比 / 单次服务成本 | 看的是"省不省钱" |
B 端 vs C 端的根本差异:B 端强调 ROI / 客户成功 / 续约率,而非 C 端的 DAU / 留存——这一点直接接入 5.4 节订阅制四大价值特征 [来源:商业策略/05]。
4.1.2 AI 客服能力演进三阶段(行业范式判读)
从规则引擎 → NLP 意图识别 → 大模型 Agent 是 B 端 AI 客服十年演化的标准坐标系 [来源:商业策略/05]:
| 阶段 | 核心技术 | 能力边界 | 当前位置 |
|---|---|---|---|
| L1:规则引擎 | 关键词匹配 / 决策树 | 只能"回答常见问题",无法处理变体 | 2010 年代主流,仍在小型客服系统使用 |
| L2:NLP 意图识别 | 分类模型 + 槽位提取 | 能识别"意图",但无法跨意图推理 | 2018-2024 主流 |
| L3:大模型 Agent | LLM + Function Calling + RAG | 从"回答问题"走向"执行任务"(查单 / 退款 / 改地址) | 2025+ 范式转移核心 |
PM 判读关键:当前主流厂商(沃丰 Udesk / 智齿 / 网易七鱼)仍在 L2 → L3 过渡。判断一款 AI 客服产品的代际位置,不看"是否接入 GPT",而看"AI 能不能改变业务对象状态(写订单 / 触发退款 / 升级工单)"——这与 4.3 节"AI 产品 ≠ AI 功能"是同一判断标尺。
4.2 从"拿着锤子找钉子"到反向逻辑
AI 产品最常见的错误是先有 AI 能力再到处找场景套。正确顺序是先找痛点,再用三个问题判断是否适合用 AI:
- 有没有大量可用数据?(无数据 AI 就是瞎猜)
- 答案有没有明确的好坏标准?(无法定义好坏就无法评估对错)
- 用户能不能容忍 AI 犯错?(容错率为 0 的场景,产品设计难度指数级上升)
📌 2026-05-20 新证据(来源:Notion Sarah Sachs / Latent Space 播客):Notion 把反向逻辑进一步升级为**"别逆着模型能力游泳"的两步判断框架——① 先尽快判断,自己到底是在对抗模型当前的极限**,还是只是没给模型对的信息、对的工具和对的基础设施;② 一旦确认方向对了(河流方向对了),就要提前搭产品,不然等模型真的准备好了你反而没准备好。这是三个问题之外的第四个判断维度:时机是否成熟——不是"AI 能不能做",而是"AI 现在做得够好吗,如果不够,卡在模型还是卡在我的工具/数据/基础设施?"
4.3 AI 产品 ≠ AI 功能
- L1(错误):给用户一个对话框让他描述需求 → 用户不知道怎么描述
- L4(正确):用户选几个条件 → AI 理解意图 → 推荐列表带匹配度分数和理由 → 用户标记满意/不满意 → 系统越来越准
处理 AI 不确定性的三大关键:
- 可解释性:让用户理解 AI 输出依据,哪怕一句话
- 错误退路:一键撤回、人工介入通道、AI 内容标注
- 预期管理:告知 AI 擅长什么/不擅长什么
4.4 从"完美一次推全"到 MVP + 灰度
核心决策:哪些环节用 AI 能力,哪些环节用规则兜底。
- AI 客服案例:80% 日常问题 AI 回答,退款/投诉/账号安全等高风险场景必须无条件转人工
- 灰度发布策略:先灰度 5% 用户,监控 Bad Case 率、用户投诉率、核心指标变化,确认没问题再逐步放量
📌 2026-05-20 新案例(来源:Notion Sarah Sachs & Simon Last / Latent Space 播客):Notion 的 Custom Agents 从 2022 年末到 2026 年重做了四五次才真正能用。每次看到"快成了"的曙光,但距可用/可靠/可交付后台任务始终差一口气。原因不是团队不聪明,而是三个前置条件没同时到位:成熟的 tool calling 标准、足够长的上下文窗口、模型对多轮工具使用的稳定性。直到近一年模型推理能力、工具调用能力和产品侧权限设计同时成熟,才从 demo 变成产品。启发:MVP 不只是"做小做快"——当底层能力还没到位时,正确的 MVP 策略是持续原型验证 + 等待基础设施成熟,而不是硬推一个半成品。
4.6 从写文档到定义问题——PM 执行层与判断层的分野
📌 2026-05-20 新证据(来源:姚顺宇访谈)
姚顺宇提出一个对 PM 岗位有手术刀般精度的切分:你是在写文档,还是在定义问题?你是在整理别人已经说清楚的东西,还是在把没人说清楚的东西变成判断标准?
| PM 工作 | 类型 | AI 可替代性 |
|---|---|---|
| 按模板写 PRD | 可验收执行 | 高——有输入、输出、格式要求,可快速验收 |
| 整理用户访谈 | 可验收执行 | 高——模板化摘要 + 标签提取 |
| 生成竞品分析 | 可验收执行 | 高——结构化信息搜集 + 对比矩阵 |
| 做数据初筛 | 可验收执行 | 高——SQL/看板/趋势识别 |
| 判断用户到底卡在哪里 | 判断层 | 低——需要解读行为背后的心理和场景 |
| 定义成功指标 | 判断层 | 低——需要权衡业务目标 vs 技术约束 vs 资源 |
| 产品方向取舍 | 判断层 | 低——反馈信号「晚、脏、主观」,难自动验收 |
核心判据(任务可评价性三指标):
- 验收速度——做完以后多久知道对错。PRD 交给工程师后很快能判断是否可执行;但产品方向对不对可能要数月。
- 纠错成本——错了以后能不能快速重来。竞品分析写错了重来成本低;产品方向错了需要季度级修正。
- 责任位置——你是在执行标准,还是在制定标准。写 PRD 是执行已有模板和规范;定义「用什么指标衡量这个功能成功」是制定标准。
对 AI PM 能力模型的映射:前四项思维转换(双套指标、反向逻辑、产品≠功能、MVP+灰度)都是 PM 判断层的能力——AI 进入后它们的重要性不降反升,因为纯执行被接管后,PM 的价值必须锚定在这些判断上。能力自测应增加一条:你的日常工作中,执行层 vs 判断层的时间分配是多少?如果执行层超过 70%,你正在被 AI 推向压缩区。
4.5 从功能价值到业务价值(商业落地)
| 沟通对象 | 错误表达 | 正确表达 |
|---|---|---|
| 工程师 | 推荐更准一点 | Top 5 中用户点击率从 15% 提到 25% |
| 工程师 | AI 回答太慢了 | P99 延迟从 3 秒降到 1.5 秒 |
| 客户 | 标签准确率 92% | 选号时间从 3 天缩短到 2 小时 |
算法工程师 → 业务方的翻译:离线 AUC 0.85 → 误判率 5%,日均 10 万条意味着每天 5000 条误判,必须人工复核。
五、商业化与合规底线
5.1 三种主流定价模式
AI 产品边际成本不趋零(每次调用都消耗算力),定价模式与传统 SaaS 不同:
- 按调用次数收费:每次 API 调用定价,适合 B2B
- 按效果收费:AI 提升了多少转化率/省了多少人力,按效果分成
- 订阅制 + 用量上限:月费固定,限制调用次数或 token 数
5.2 合规四条红线(2026 准入项)
- 数据授权:用户数据用于模型训练是否获得明确授权?
- 内容标注:AI 生成内容是否有标注,用户能否分辨?
- 算法公平性:推荐算法有无歧视性偏见?有无公平性审计?
- 深度伪造防范:防伪造内容机制是否到位?
法规参考:国内有个人信息保护法、AI 生成内容标注要求、算法推荐备案;欧洲 EU AI Act 已执行,高风险 AI 系统必须通过合规审计。
5.3 个保合规审计:2026 准入新动作(延伸阅读)
2025.5.1《个保合规审计管理办法》+《审计指引》落地,2025.12.31 GB/T 46903—2025《数据安全技术 个人信息保护合规审计要求》成为推荐性国标——AI PM 在 2026 年必须把"个保合规审计"列入产品发布前置项,不再只是法务的事:
- 触发条件:定期审计(未成年人产品每年)+ 专项审计(出险后由监管指定第三方机构)
- 产品侧 4 大设计项:用户权利入口(查阅/复制/删除/撤回同意)不能埋深、审计日志关键节点必埋点、PIA 高风险场景必做、共享/导出/出境留证据链
- 与等保的关系:两套独立体系——过等保 ≠ 个保合规,SaaS/AI 客服/CRM 须分别覆盖
延伸阅读:
- [商业策略/15-个人信息保护合规审计-法定义务与法规体系]
- 术语表/网络安全 · 个保合规审计卡片
5.4 订阅制四大价值特征:从收费方式到价值交付(AI PM 能力升级)
订阅制不是"按月按年收费"的计费方式,而是一套价值交付方式。AI 产品的续费率持续下滑时,问题往往不在价格,而在四大底层价值特征是否成立 [来源:商业策略/06]:
| 价值特征 | AI 产品 PM 的自检 | 量化抓手 |
|---|---|---|
| 持续交付(Continuous Delivery) | 每月有用户能记得的能力升级吗?还是只在版本号上 +0.1? | 每月发布的"用户感知功能数" |
| 价值递增(Value Compounding) | 用户用 6 个月后迁移成本高于第 1 个月吗?数据飞轮/工作流嵌入存在吗? | 客户数据沉淀量 / 工作流嵌入深度 |
| 关系深化(Relationship Deepening) | 我有客户成功流程吗?还是只有客服 ticketing? | 季度业务复盘覆盖率 / NPS / CSAT |
| 风险分担(Risk Sharing) | 出问题时谁负责?SLA 承诺是不是工程师都不知道? | SLA 达标率 / 故障兜底机制 |
对 AI PM 能力模型的扩展(在 2.1 节"商业落地力"之上增加一项):
- L1:知道订阅制不等于按月收费
- L3:能为产品设计"续费量化指标框架"——把四大特征落到可看板的指标
- L5:能反向用四大特征推导产品 roadmap(不再是"做哪些功能",而是"哪些功能能让续费率提升 X%")
与 5.1 节三种定价模式的接合: 无论选哪种定价模式,四大特征都必须成立——否则按调用次数会被砍预算、按效果分成会被反悔、订阅制 + 用量上限会续费率下滑。定价是壳,价值交付是芯。
延伸阅读:
- [商业策略/06-安全订阅制困境-从收费到价值交付重构]
六、2026 能力价值再分配
正在贬值
- 基础 Prompt 技巧(会被工具和模板标准化)
- 通用 AI 产品知识(门槛越来越低)
- 纯技术导向思维(不懂业务的 AI PM 越来越难混)
正在升值(未来 6 个月重点投资)
| 能力 | 怎么学 | 优先级 |
|---|---|---|
| Agent 工作流设计 | 用 Coze/Dify/LangGraph 搭 3 个以上 Agent 处理真实业务(不要只做 demo) | 最高优先级 |
| AI 效果评测 | 建一个 100 case 评测数据集,跑一次完整评测流程 | 最被低估 |
| 垂直行业理解 | 选一个行业深扎,读行业报告 + 一线访谈 + 搞清钱怎么赚的 | 最高壁垒 |
七、个人成长行动清单
立即可做(本周)
- 用 3 个不同大模型 API 跑同一任务,对比输出质量、速度、费用
- 找一个常用 AI 产品深度使用一周,每天记录 3 个 Bad Case
- 自测五维能力当前段位(L1-L5),识别最弱的 1 个维度
短期投资(1-3 个月)
- 选一个维度死磕到 L3(不要五维平均发力)
- 为某个 AI 功能建立 prompt 评测体系(50 个测试用例对比版本)
- 设计一个 3 步以上的 prompt pipeline 处理真实业务
长期沉淀(半年起)
- 选一个垂直行业深扎,成为该领域的 AI PM 专家
- 输出方法论:写文章、做分享、带新人
- 关注 AI Safety 合规 + Agent 工作流 + AI 效果评测三大升值能力
八、决策原则金句
说自己"懂 AI"就像说"会编程"一样模糊——你是会写 Hello World 还是能设计分布式系统?
AI PM 和传统 PM 的能力差距不在工具层面,而在思维模型的底层。
做 AI 产品的第一步不是想 AI 能做什么,而是想清楚 AI 做不了什么。
AI PM 最常见的错误是拿着锤子找钉子——先有 AI 能力,然后到处找场景套。
核心变化不是技术变了,是你理解了"AI 产品不是 AI 功能"。
客户不关心"标签准确率 92%",关心"选号时间从 3 天缩短到 2 小时"。
通用的 AI PM 到处都是,懂行业的 AI PM 凤毛麟角。
AI 技术会越来越标准化,prompt 技巧会越来越自动化,但行业 know-how 没法自动化。