Skip to content

核心论点

不要用职业名判断 AI 风险,用任务结构。

AI 改造工作的顺序不按职业声望排队,而是按反馈清晰度入侵——哪里能定义任务、观察过程、验收结果、低成本纠错,哪里就会先被推快。程序员先站到第一排,不是因为写代码低端,而是代码世界有测试、编译、日志和版本记录,环境会主动告诉模型哪里错了。

本文沉淀一套从姚顺宇「任务可评价性」推导的个人/团队 AI 风险自检工具。


一、为什么职业名是无效的风险判据

同样叫程序员,有人每天按 spec 改局部函数、跑测试、提代码;也有人理解业务目标、拆系统边界、对整个系统结果负责。同样叫产品经理,有人按模板写 PRD;也有人判断用户到底卡在哪里、定义指标、承担版本取舍。

这两组人被同一个职业名盖住了。问"程序员会不会被替代",就像问"车会不会坏"——卡车、赛车、自行车都被塞进一个词,答案当然混。

AI 不认识岗位头衔。它只看任务能不能被定义、执行、验收,失败后能不能继续修。


二、任务可评价性三指标

把可验证性原则从二分法(可验证 vs 不可验证)细化为三维连续光谱:

指标含义如何判断极高值举例极低值举例
验收速度做完以后多久知道对错结果反馈是秒级/天级/月级/年级?代码编译测试(秒级)产品方向判断(季度/年级)
纠错成本错了以后能不能快速重来失败后回滚/重做的代价有多大?代码回滚(秒级)品牌战略失误(年级修复)
责任位置你是在执行标准,还是在制定标准标准是别人定的还是你定的?按接口 spec 写实现定义什么叫"好产品"

风险公式:前两个越高 + 第三个越低 = 你的工作越接近「代码世界」的结构 = AI 越容易练 = 风险越近。


三、五问自检

用五个问题审视你的工作(或团队中某个角色的工作),判断 AI 风险暴露程度:

问题 1:你的结果能否自动验收?

代码能跑测试,表格能对账,数据能校验,格式能检查,交付物能被明确打分——这类任务更容易被 AI 练习。

自检标尺:结果好坏是机器能判断的(自动验收)、还是人才能判断的(主观评价)、还是要等很久才知道的(延迟反馈)?

问题 2:任务能否拆成小闭环?

一个大目标如果能被拆成很多小任务,每个任务都有输入、输出和完成标准,就更容易被分配给 AI Worker 并行执行。

自检标尺:你的工作能不能被拆成 10 个独立子任务,每个子任务有明确的"完成"定义?

问题 3:上下文是否结构化?

文档、代码、数据、历史记录、接口、约束都清楚,AI 就更容易接手。如果上下文全在某个人脑子里,模型很难稳定工作——但这不代表安全,只代表组织还没把上下文整理出来。

自检标尺:如果你明天消失,接手的人(或 AI)能不能从现有文档和系统中获取足够上下文完成你的工作?

问题 4:失败能否低成本纠错?

失败以后能重跑、回滚、复盘、再试,AI 就会进步得更快。如果失败一次成本很高、反馈很慢,风险会晚一点暴露——但终会暴露。

自检标尺:你最近一次工作失败,从发现到修复/重来花了多久?成本有多大?

问题 5:你是否拥有标准设定和取舍责任?

这是唯一一个"是"意味着安全的问题。你是定义成功标准的人,还是按别人定义的标准执行的人?

自检标尺:如果结果不好,是你来判断"问题出在哪里、接下来怎么调整",还是别人来判断?

综合判读

问题 1-4 答案问题 5 答案风险判断
大多是"是""否"高风险区——你的工作正在被改造成 AI 喜欢的形状
大多是"是""是"放大区——AI 会放大你的产出,你反而更值钱
大多是"否""否"暂缓区——AI 暂时进不来,但可能只是因为组织还没把上下文结构化
大多是"否""是"安全区——核心判断权 + 模糊反馈 = 短期内最不可替代

四、代码世界为什么是第一排

程序员先被 AI 改写工作方式,不是因为写代码低端——恰恰相反,软件工程复杂到一定程度,才给了 AI 足够多的可学习信号。代码世界像一座提前铺好的练习场:

  • 有题目:明确的 issue、需求、bug report
  • 有上下文:仓库、文件、提交历史、接口定义
  • 有工具:编译器、类型检查、linter、测试框架
  • 有错误提示:编译报错、测试失败、日志异常
  • 有回滚:版本控制、分支管理
  • 有复盘:code review、commit 历史、讨论记录

这个结构出现在哪里,AI 就在哪里有了练习场。运营里有像代码的部分,研究里有像代码的部分,设计里有像代码的部分,产品里也有像代码的部分。

所谓"像代码",重点不在产出物是不是代码,而在任务结构:输入清楚,输出清楚,验收清楚,失败可以重跑,迭代成本很低。


五、产品经理不是安全,只是反馈更脏

PM 工作里有大量可验收执行层,都会被 AI 改造:

PM 执行任务为什么会被改造
按模板写 PRD有输入、输出、格式要求
整理用户访谈模板化摘要 + 标签提取
生成竞品分析结构化信息搜集 + 对比矩阵
数据初筛SQL/看板/趋势识别
写埋点方案格式化 + 事件定义
生成原型说明模板化 + 交互规则

PM 难被完整训练的部分是:把模糊目标变成可验证的问题、标准和取舍

产品反馈信号的三个特征——(需要时间显现)、(混进太多变量)、主观(用户心理、审美、组织目标都会进入判断)——使得完整产品判断是 AI 最后才能稳定练的。

但外围执行层不受保护。


六、AI 提效的真实产物:工作密度压缩

AI 提效先改变的是尝试成本。尝试成本一降,高竞争环境不会把省出来的时间留给你,而是把更多尝试塞进同一天。

维度AI 之前AI 之后
方案数量一个方案两天一个下午三个方案
Bug 处理费劲修,先忍模型快速定位,更多边角问题被拉进待办
实验成本每个实验都要人力实验成本低,判断成本上升
工作重心手写实现定义任务、组织上下文、审查结果、比较方案、承担验收

AI 未必先让人失业。它可能先让同一份工作变得更密。


七、价值迁移方向:从执行到反馈责任

被压缩的是纯执行,不是所有人的价值。

人的价值正在往两端迁移:

  • 上游:定义任务、组织上下文、设定边界
  • 下游:审查结果、设计验收、承担取舍

中间那段纯执行,会被越来越多的 AI Worker 接走。

下一阶段稀缺的不只是会写代码或懂产品的人,而是能管理 AI Worker 的人——能定义目标、分配任务、提供上下文、识别失败、更新标准、最后承担结果。


八、对 PM 工作的映射

本文框架PM 工作场景
验收速度 × 纠错成本评估哪些 PM 任务优先引入 AI 协作——优先选反馈快、错了能重来的任务
责任位置PM 应主动把精力从执行层转向判断层——从写 PRD 转向定义成功标准
五问自检用于审视团队中每个角色的任务结构,识别可验收执行层占比
工作密度压缩团队 OKR/绩效设计需考虑:AI 工具越好用,工作不是变少而是变密
管理 AI WorkerPM 的核心竞争力从"写文档"转向"定义验收标准"——给 AI "做得好一点"它只能猜,给它明确的指标/边界/失败判据它才能进入真正的协作

九、决策原则金句

不要把职业名当护身符,也不要把某个工具当灾难本身。

AI 改造工作的顺序,更像是在寻找反馈最清楚的地方。

你是在写文档,还是在定义问题?你是在整理别人已经说清楚的东西,还是在把没人说清楚的东西变成判断标准?

程序员只是第一排。问题是:你的工作有没有正在被改造成 AI 喜欢的形状?

无法验收,就是 AI 协作里的 P0 问题。


来源

#标题来源收录日期
1别躲在岗位后:从姚顺宇判断看 AI 为什么不按职业排危险榜张小珺/姚顺宇访谈转译(公众号文章)2026-05-20

原始访谈:张小珺 / Yao Shunyu 访谈《Let Me Go a Little Crazy! Training Models at Anthropic & Gemini》

关联方向

MIT License