AI 系统安全攻防体系

方向定位：AI 系统自身的攻击面（训练-推理两阶段四类经典攻击 + LLM 五类威胁）、三层防御框架（攻防安全/模型安全/架构安全）、护栏产品形态（SDK / 代理）、红队评估方法论（4 决策模型 + PyRIT 自动化 + OWASP/NIST/CSA 三层风险分类 + 5 动作交付清单）当前版本：v0.1 首次构建：2026-05-18 最近更新：2026-05-18 文件名日期同步：2026-05-18 来源数：3 篇

方向定位

本方向聚焦"AI 系统自身被攻击与防御"，区别于姐妹方向《AI 重塑网络安全》（聚焦 AI 如何改变网安行业格局——AI 漏洞挖掘智能体、Agentic SOC、CISO 认知重构）。本方向回答三个问题：

AI 系统会被怎样攻击——从机器学习经典四类（闪避/药饵/后门/模型窃取）演进到 LLM 五类（内容合规/数据泄露/提示注入/模型滥用/算力耗尽）
AI 系统应该怎样防御——华为白皮书提出的攻防安全/模型安全/架构安全三层框架，以及大模型护栏产品的 SDK 集成 vs 代理流量两种部署形态
AI 系统的安全保证应该怎样交付——从 OpenAI 4 决策模型、Anthropic×Firefox 2 周 22 个 CVE 的产能拐点，到 OWASP Top 10 for LLM + NIST AI 600-1 + CSA Agentic 12 类的三层风险对齐方法

读者对象为 AI 产品经理、AI 安全工程师、红队评估服务的乙方。目标是建立"攻击坐标 + 防御坐标 + 评估坐标"的三轴视图。

知识图谱

攻击面分类
- 经典四类攻击（华为白皮书）
  - 闪避攻击（推理阶段）
  - 药饵攻击（训练阶段）
  - 后门攻击（训练阶段）
  - 模型窃取攻击（推理阶段）
- LLM 五类威胁（护栏视角）
  - 内容合规风险
  - 数据泄露风险
  - 提示词攻击
  - 模型滥用
  - 算力消耗攻击
- 与机器学习经典对比
  - 训练-推理两阶段 → LLM 多了"上下文运行时"第三阶段
防御体系
- 三层防御框架（华为白皮书）
  - 攻防安全：已知攻击的全生命周期防御
  - 模型安全：可检测/可验证/可解释三大特性
  - 架构安全：隔离/检测/熔断/冗余
- 大模型安全护栏产品
  - 部署模式：SDK 集成 vs 代理流量
  - 检测项目：内容合规 / PII / 提示词攻击
  - 防护动作：拦截 / 脱敏 / 审计
安全评估（AI 红队）
- 行业方法论拼图
  - OpenAI 4 决策模型（Scope/Membership/Model access/Final report）
  - Microsoft PyRIT 6 件套（Datasets/Attacks/Converters/Targets/Scoring/Memory）
  - Mozilla 0Din 两阶段提交流程
  - OWASP GenAI Red Teaming Guide + Top 10 for LLM
  - NIST AI 600-1（12 类风险 + GV/MP/MS/MG 四 Function）
  - CSA Agentic AI Red Teaming Guide（12 类 Agent 威胁）
  - Google SAIF（6 大要素工程框架）
- 关键差异：Model access 作为新维度
- 产能拐点：Anthropic × Firefox 数据卡

核心概念

闪避攻击（Evasion Attack）：推理阶段对输入叠加人类难以察觉的微小扰动生成对抗样本，使模型产生错误判断。学术里程碑：Szegedy（2013）首提对抗样本；CW 攻击实现扰动极小且成功率 100%。物理案例：路标涂改让自动驾驶把"禁止通行"识别为"限速 45"[来源 #1]。
药饵攻击（Poisoning Attack）：训练数据中注入精心设计的样本污染训练集。Jagielski（2018）医疗案例：注入 8% 恶意数据可导致 50% 患者用药建议偏差超 75%[来源 #1]。
后门攻击（Backdoor Attack）：训练阶段植入隐蔽触发条件，正常输入下模型表现正常，只有特定触发图案存在时才激活预设错误判断。Gu 等（2017）证明无需源代码即可利用，常规测试难发现[来源 #1]。
模型窃取攻击（Model Stealing Attack）：通过大量调用 AIaaS 接口分析输入输出对，逆向推测模型参数和训练数据。Tramèr（2016）证明窃取后还可进一步构建对抗样本辅助黑盒攻击[来源 #1]。
大模型安全护栏（AI Guardrails）：部署在 AI 应用输入输出两侧的独立检测代理层，核心价值在于防止提示词攻击、内容违规、敏感数据泄露三类威胁。本质是检测层，与业务模型解耦，确保防御能力的稳定性和可审计性[来源 #2]。

概念枢纽提示：本文档作为"AI 系统自身安全"的主入口，提示注入（Prompt Injection / LLM01） 的基础定义与防御原则在此节统一讲解；姐妹方向《Agent 安全工程》的"意图流劫持"、《具身智能安全》的"物理环境提示注入 / 目标定义权劫持"均是该基础概念在 Agent 场景与具身场景下的特化形态，直接引用本节。

Model access（红队评估的决定性变量）：AI 红队相对 Web 渗透多出的核心维度，直接决定能用哪种测试方法——黑盒 API 只能 prompt 探测，白盒可看 system prompt / fine-tune 数据 / fallback 策略。必须单列在合同附件[来源 #3]。
可解释性（模型安全核心杠杆）：通过 LIME 等方法让模型推理过程可审计，既满足 GDPR 反算法歧视要求，又是发现数据偏见和后门攻击的重要手段。三阶段推进：建模前数据可解释 → 构建可解释模型 → 模型解释分析[来源 #1]。
熔断机制（架构安全核心设计）：关键操作设置"确定性阈值"，低于阈值时回落至规则判断或人工处理。自动驾驶刹车、医疗用药建议是经典场景；任何高风险 AI 决策场景都适用[来源 #1]。

方法论与框架

框架一：华为三层防御框架

层	解决问题	典型手段
攻防安全	已知攻击的针对性对抗	对抗训练、模型剪枝、差分隐私、模型水印
模型安全	模型自身的健壮性和可信度	可检测性（前馈+后馈双重过滤）、可验证性（形式化）、可解释性（LIME）
架构安全	业务场景的容错与降级	隔离、检测、熔断、冗余

三层不能互相替代——只有攻防防御无法应对未知攻击，只有架构熔断会让可用性大幅下降，必须组合使用[来源 #1]。

框架二：四类攻击 × 三阶段防御矩阵

攻击类型	数据收集阶段	模型训练阶段	模型使用阶段
闪避攻击	对抗样本预生成	网络蒸馏 / 对抗训练 / DNN 验证	对抗样本检测 / 输入重构
药饵攻击	回归分析检测异常值	训练数据过滤	集成分析
后门攻击	—	模型剪枝	输入预处理过滤触发输入
模型窃取	差分隐私 / 模型水印	PATE 隐私聚合教师模型	—

防御必须从数据收集 → 训练 → 使用三阶段全链路覆盖[来源 #1]。

框架三：护栏产品的两种部署模式

模式	工作流	优点	适用场景
SDK 集成	应用通过 SDK 调用护栏，输入输出双向检测	灵活、可精确控制检测时机、支持深度定制	自研 AI 应用、有特殊定制需求
代理流量	用户请求经代理服务器自动检测后转发，输出经代理再次检测	零代码改动、即插即用、集中管理	使用第三方 API 的企业、快速上线

这是经典的"灵活性 vs 简单性"取舍，对应 API 网关、WAF 等中间件产品的相同选择[来源 #2]。

框架四：护栏的三类检测项目

检测项	检测范围	防护动作
内容合规	涉政敏感、色情低俗、暴力恐怖、偏见歧视、不良价值观、虚假信息	拦截 / 代替回答
敏感内容（PII）	身份证、护照、手机号、邮箱、住址、银行卡、健康信息、生物特征	脱敏 / 拦截警告 / 审计记录
提示词攻击	越狱（"忽略之前指令"）、角色扮演诱导、指令注入、间接注入	拦截

对应 AI 产品合规的三个维度：内容合规（监管）、数据安全（隐私/等保）、攻击防御（运营）[来源 #2]。

框架五：AI 红队 5 动作交付清单（按上手难度排序）

优先级	动作	落地点	来源参考
P0	Scope 多写一项 Model access	合同阶段	OpenAI 4 决策模型
P0	每条 finding 配最小可复现 case（不是 prompt 截图）	报告章节	Anthropic × Mozilla
P0	风险分类对齐 OWASP Top 10 for LLM + NIST 600-1（Agent 系统加 CSA 12 类）	报告章节	OWASP / NIST / CSA
P1	报告分两阶段：先 abstract，客户认 scope 再交技术细节	一周内能跑通	Mozilla 0Din
P2	工具自动化扩覆盖（PyRIT），但人工判断决定 finding	工程化能力	Microsoft AIRT

不要自造方法论，把 8 家头部公司的公开拼图拼成自家交付套件[来源 #3]。

框架六：OWASP Top 10 for LLM（风险分类标尺）

编号	风险
LLM01	Prompt Injection
LLM02	Insecure Output Handling
LLM03	Training Data Poisoning
LLM04	Model Denial of Service
LLM05	Supply Chain Vulnerabilities
LLM06	Sensitive Information Disclosure
LLM07	Insecure Plugin Design
LLM08	Excessive Agency
LLM09	Overreliance
LLM10	Model Theft

报告里每条 finding 直接标注 LLM01-10 类别，客户和复测方都能秒懂。OWASP Top 10 for LLM 之于 AI 红队，相当于 OWASP Top 10 之于 Web 渗透[来源 #3]。

注：Agent 系统的 MCP 协议级风险（工具投毒、影子 MCP、意图流劫持等）使用 OWASP MCP Top 10（独立于 LLM Top 10），详见姐妹方向《Agent 安全工程》框架一与决策规则；具身智能的六层攻击面对应分类见《具身智能安全》框架一。

框架七：NIST AI 600-1 四 RMF Function

每条 finding 标注对应 NIST AI 600-1 的 GV-x.x（Govern 治理）/ MP-x.x（Map 映射）/ MS-x.x（Measure 测量）/ MG-x.x（Manage 管理）——客户合规和审计团队立刻看懂说的是 RMF 哪一块。7 个 Trustworthy AI 特性：Safe / Explainable / Fair / Accountable / Privacy Enhanced / Secure / Valid and Reliable[来源 #3]。

框架八：Microsoft PyRIT 乐高架构

PyRIT = Python Risk Identification Tool，6 件套组件：

组件	作用	关键能力
Datasets	基础数据	prompts、jailbreak 模板、攻击策略
Attacks	编排层	single-turn（Role Play / Skeleton Key）、multi-turn（Crescendo / Tree of Attacks）
Converters	prompt 转换	文本改写、文档转换、图片叠加，可堆叠组合
Targets	攻击目标	通常是 LLM
Scoring Engine	评估攻击结果	自动评分
Memory	会话状态	追踪对话和分数，存 SQLite 或 Azure SQL

每个组件都有 NoOp 版本方便调试；一个攻击的 prompt 可以喂给另一个攻击；一个场景下的攻击可以挂多个 targets[来源 #3]。

框架九：SaaS 数据生死局——大模型虹吸的三大防御手段

垂直 SaaS 接入通用大模型存在一个"经验内化"隐蔽风险：即便原始数据被"用完即焚"，大模型已通过接口调用学会了"老中医看病经验"（行业成本规律、提成返点逻辑等隐藏知识），十年护城河可能几次调用就被悄无声息蒸发 [来源 #5]。

防御手段	做法	切断的攻击路径	代价	适用场景
业务黑盒	SaaS 内部完成敏感计算，只向 LLM 输出脱敏结论	阻止 LLM "调取资料 → 分析算账 → 经验内化"三步走	LLM 在此场景只是传话筒	业务逻辑高度专有、数据极敏感的核心模块
私有化部署（算力下乡）	百亿级轻量小模型 + 客户本地服务器	"网线一拔"物理隔离	模型能力弱于公有云大模型、运维成本高	金融/医疗/政务/制造（合规极严）
数据水印（防伪追踪）	输出数据流中嵌入肉眼不可见的专属标记	不阻止泄露，但可作为"被用于训练"的法律证据	被动防御、损失已造成	必须开放数据接口的场景，最后法律保障

与三层防御框架（华为）的映射：

业务黑盒 ↔ 架构安全的"隔离" + 模型安全的"可检测"
私有化部署 ↔ 攻防安全（差分隐私的物理终极形态）
数据水印 ↔ 模型水印（Model Watermarking）的数据流版本

三方博弈格局（不会自动消解）： 大厂要数据入口、SaaS 要护城河、甲方要绝对安全——三方利益结构性冲突，没有人会主动让步。SaaS 厂商交出数据换流量是死路一条。这一格局意味着"AI 时代企服竞争力的核心标准从功能全不全转向数据绝对不外流"[来源 #5]。

框架十：个人信息保护合规审计三套体系区分

个保法 + 等保 + PIA（隐私影响评估）是 AI 产品发布前最常被混淆的合规体系。GB/T 46903—2025（《个人信息保护合规审计要求》）于 2026 年起强制实施，使 AI 红队报告必须能映射到合规审计标尺 [来源 #4]。

体系	触发条件	审计对象	周期
等保 2.0	信息系统按级别（一至五级）定期测评	系统层（网络/主机/应用）	二级两年/三级一年
个保合规审计	处理个人信息满 1000 万人需每两年一次；重大事件/监管要求触发"专项审计"	数据层（收集/使用/共享/跨境）	定期 + 专项
PIA（隐私影响评估）	处理敏感个人信息、自动化决策、向境外提供、委托处理等高风险场景	单一处理活动	一次性/重大变更时

触发"专项审计"的常见情形：

监管部门责令（事件后审查）
个人信息泄露事件影响超过 100 万人
处理活动有"较大风险"（自动化决策、跨境传输等）

对 AI 产品发布的前置项（合规检查清单）：

数据来源是否合法（个保法授权 / 等保资质 / 合同条款）
训练数据是否包含敏感个人信息（人脸/声纹/医疗/金融），如有，是否完成 PIA
自动化决策是否提供"拒绝纯自动化决策"的入口（个保法第 24 条）
跨境数据传输是否完成安全评估或个人信息保护认证
处理量超 1000 万人时，是否预约了两年一次的个保合规审计

与本方向的接合面： 红队评估报告应同时映射到 OWASP Top 10 for LLM + NIST AI 600-1 + GB/T 46903 三套坐标——前两者面向技术风险，后者面向合规问责。出海产品再加 GDPR / CCPA 维度 [来源 #4]。

框架十一：Anthropic Responsible Scaling Policy（RSP）与 ASL-3 阈值

RSP 是 Anthropic 公开发布的"能力分级 → 安全门"治理框架——以能力红线（capability threshold）触发对应安全级别（AI Safety Level, ASL）的部署条件，把"宪法式高级原则"与"硬性禁令"在工程层结合 [来源 #6]。

ASL 级别	触发条件	部署门槛	当前状态（2026-01）
ASL-2	当前主流前沿模型（无显著 CBRN uplift）	标准安全实践	Claude Sonnet/Opus 3.x 系列默认
ASL-3	模型在 CBRN（化学/生物/放射/核）或自主性维度跨越红线	强制部署生物武器分类器、强化访问控制、内部权限分层	Claude Opus 4.x 已触发
ASL-4	在 ASL-3 基础上进一步具备"自主进行 AI 研究"等能力	待定，需要更深的可解释性 + 治理审查	尚未触发
ASL-5	接近 powerful AI 定义（"datacenter 里的国家"）	待定	假设性

与三层防御框架（华为）的映射：

ASL-3 的"生物武器分类器" ↔ 攻防安全的"已知攻击全生命周期防御"（CBRN 是已识别的最高优先级攻击类别）
ASL-3 的"内部权限分层" ↔ 架构安全的"隔离"
ASL 分级本身 ↔ 模型安全的"可验证"——容量提升必须伴随治理升级，而非默认放行

关键工程动作（ASL-3 部署清单）：

生物武器分类器：在推理 pipeline 中前置 CBRN 内容检测，触发后拒答 + 审计；Anthropic 在 mid-2025 实测此分类器约占 5% 的推理成本 [来源 #6]
uplift 测量：通过红队 + 双盲对照实验测量"用 LLM 辅助 vs 不用 LLM"在生物武器获取链路上的能力提升倍数；Anthropic 当前测量到的范围是 2-3 倍 uplift（接近 RSP 红线触发阈值） [来源 #6]
访问控制升级：研究员对模型权重的访问采用"知其然不知其所以然"原则——多人多步骤审计 + 离线权重不出库
公开承诺机制：每次跨越 ASL 阈值，公司必须公开发布更新的 RSP（含触发证据 + 部署条件 + 撤销路径），形成行业可观测的治理基线

与"宪法 hard-line vs 高级原则"的关系： Anthropic 宪法在大部分场景给"高级原则"（如"避免有害行为"），让模型在情境中自行权衡——但 CBRN 是少数被列为 hard-line（硬性禁令） 的类别，无论上下文如何都不允许 uplift。RSP 是这条 hard-line 的"工程化外壳" [来源 #6]。

案例库

案例 A：药饵攻击的医疗后果（Jagielski, 2018）

背景：药饵攻击的学术验证，三种攻击方法：最优坡度法、全局最优法、统计优化法
做法：在医疗用药 AI 的训练数据中注入精心设计的恶意样本
结果：注入 8% 恶意数据，导致 50% 患者的用药建议偏差超过 75%
启发：在 RAG 场景中外部知识库被污染效果类似——RAG 系统需要建立数据来源可信度评估和知识库审计机制，这是当前 RAG 工程的盲区[来源 #1]

案例 B：CW 闪避攻击 + 物理对抗样本

CW 攻击：扰动极小（人眼不可见）且成功率 100%
物理攻击：通过特殊涂改将"禁止通行"路标让自动驾驶系统识别为"限速 45"
启发：感知层的对抗样本不仅是分类误差问题，而是会击穿整个高风险业务链路（自动驾驶 → 路标识别 → 速度决策）[来源 #1]

案例 C：Anthropic × Mozilla Firefox 红队数据卡（产能拐点）

维度	数字
模型	Claude Opus 4.6
启动时间	2025 年末
周期	2 周
扫描代码	近 6000 个 C++ 文件
提交报告	112 份独特报告
最终 CVE	22 个安全相关 + 90 个其他 bug
高危 CVE	14 个
修复版本	Firefox 148
首发时间	启动后 20 分钟内识别出第一个漏洞
崩溃输入	2 周内 50+ 独特崩溃输入
复现	每条 finding 附最小复现 case

启发：客户以后不会再接受"两周看 200 个文件"的交付承诺，AI 辅助审计的标准产能已经换档。Mozilla 自家博客同步致谢——双方数据对得上，不是单边 PR[来源 #3]。

案例 D：Microsoft PyRIT 在 Copilot 评估中的实战

背景：Microsoft AIRT 需要在 Copilot、Phi-3 等产品发布前完成红队评估，纯人工无法覆盖
做法：用 PyRIT 自动生成几千条对抗 prompt → Scoring Engine 自动评分 → 人工审查阳性结果
结果：100+ 次红队行动覆盖多个产品；"几小时拿到的结果传统人工方式要几周"
启发：PyRIT 已经把评估流水线乐高化，国内厂商不应再造底层框架，只需加自家 datasets 和 scoring rules[来源 #3]

案例 E：Mozilla 0Din 两阶段提交流程

第一阶段：High-level abstract（风险类别 + 受影响模型）→ Mozilla 在 3 工作日内回 scope 评估和 bounty 范围
第二阶段：完整技术细节（PoC + 复现步骤 + impact 分析）→ 2 周保密期内双方复测
Bounty 金额：Low ≤ $500 / Medium ≤ $2,500 / High ≤ $5,000 / Severe ≤ $15,000
Scope 三类：Guardrail jailbreak / Prompt injection / Training data leakage
附加资产：0Din 开源 179 个 security probes，覆盖 35 个漏洞家族，可直接用作 payload set 起点[来源 #3]

案例 F：PII 脱敏在护栏中的链条

用户输入：我的身份证号是 110101199001011234，请帮我查询...
护栏检测：识别到 18 位身份证号模式
系统处理：自动脱敏为 我的身份证号是 110101********1234，请帮我查询...
启发：脱敏是护栏 PII 防护的三选一动作之一（脱敏 / 拦截警告 / 审计记录），相比直接拦截更友好，对兼顾用户体验和合规的场景是首选[来源 #2]

案例 G：Anthropic 生物武器分类器与 LLM 在生物链路上的 2-3 倍 uplift 测量

背景：Anthropic 内部红队联合外部生物安全专家，在 mid-2025 起对 Claude Opus 4.x 进行 CBRN 红线测量；同期作为 RSP/ASL-3 部署的强制条件，把"生物武器分类器"接入推理 pipeline [来源 #6]
做法：
- 双盲对照实验：把生物武器获取/合成链路拆成多个子步骤（前体获取、合成路径设计、蛋白工程、规避检测等），让"懂分子生物学硕士但非顶尖专家"的受试者分两组——一组允许使用 LLM、一组只能用搜索引擎和教科书——评估两组完成各子步骤的成功率与时间
- 分类器接入：基于 fine-tuned 小模型 + 关键词 + 语义匹配的多层检测，前置在 Claude API 推理请求上
结果：
- LLM 辅助组在多个关键子步骤上展现 2-3 倍 uplift（接近但暂未跨过 RSP 中"专家级 uplift"的最高红线）
- 分类器部署后约占 5% 的推理成本——这是"安全税"的真实量级，远低于"安全 vs 性能"叙事所暗示的高代价
- Claude Opus 4.x 因此被列为 ASL-3，触发强制内部权限分层、研究员权重访问审计、推理侧前置分类器三项部署条件
启发：
- uplift 测量是 CBRN 红线的工程化语言——不是"模型能不能讲述生物武器"（公开教科书都能讲），而是"模型把懂分子生物学的人推进多远"。这一基线把"AI 是否危险"从哲学问题转化为可重复测量的实验问题
- 5% 推理成本是行业基线——任何前沿模型部署如果不愿付这个成本，本质上是在把 CBRN 风险外部化给社会
- 跨公司协调失败 = 囚徒困境：单家公司部署 CBRN 分类器无法解决问题——攻击者会切换到不部署的厂商。这要求行业级 RSP 协议或政府强制基线（参见洞察 8）
关联章节：与本方向"框架十一 RSP/ASL-3"形成实证支撑；与姐妹方向《AI 风险全景与治理》"滥用破坏（生物武器）"章节形成跨方向引用

（来源：Dario Amodei, The Adolescence of Technology, 2026-01，Section 2 "A surprising and terrible empowerment"）

关键洞察

AI 安全风险的根本矛盾是算法设计阶段的先天缺陷：现有 AI 系统在设计阶段未将安全威胁作为约束条件，机器学习的"黑盒性"使后门植入后无法通过代码审查发现。这两个特性共同构成了 AI 在工业、医疗、交通等高风险领域落地的安全底座缺失。要解决根本矛盾，需要把可解释性作为核心设计约束而非事后补充[来源 #1]。
四类经典攻击与 LLM 五类威胁是同源演进：训练阶段（药饵/后门 → 训练数据投毒 LLM03）+ 推理阶段（闪避/模型窃取 → 模型滥用 LLM08 + 模型窃取 LLM10）的两阶段攻击面，在 LLM 时代被"上下文运行时"扩展成三阶段——多出了"提示词攻击"这条 LLM 特有威胁链。OWASP Top 10 for LLM 实质是对华为白皮书框架的 LLM 时代翻译[来源 #1, #2, #3]。
熔断机制对所有高风险 AI 决策场景都适用：自动驾驶刹车和医疗 AI 用药建议的"确定性阈值 + 人工兜底"设计——AI 建议只在置信度足够高时生效，否则降级到规则或人工。这一架构哲学应贯彻到任何对外提供决策建议的 AI 产品，而非仅限于安全敏感场景[来源 #1]。
护栏的核心竞争力是攻击样本积累和规则迭代速度：提示词攻击检测本身是个持续博弈，攻击者会不断进化新的绕过方式。这意味着该类产品的护城河不在一次性技术实现，而在数据飞轮——商业护栏厂商的核心 KPI 应该是攻击样本入库速度和检测策略推送频次[来源 #2]。
AI 红队没有稳定流水线但已有可拼接的八张拼图：Web 渗透的 OWASP WSTG 在 AI 安全没有对应物，因为被测对象本身在快速变形（从 Chat 到 Agent + RAG + MCP + 多工具）。但 OpenAI/Anthropic/Microsoft/Mozilla/OWASP/NIST/CSA/Google 八家已公开一手源。乙方做的不是发明方法论，而是拼装[来源 #3]。
Model access 是 AI 红队相对 Web 渗透的决定性变量：Web 渗透的黑/白盒只影响发现深度，AI 红队的 Model access 直接决定能用哪种测试方法（黑盒只能 prompt 探测，白盒可看 system prompt / fine-tune 数据 / fallback 策略）。把 Model access 没写清楚就开测，等于拿到一张没有比例尺的地图。这一项不仅是技术决策，还应作为产品定价的隐藏维度——黑盒/白盒/fine-tune 接入是不同 SKU[来源 #3]。
可解释性是安全、合规、产品质量的三重杠杆：LIME 等方法既满足 GDPR 反算法歧视要求（排除种族/性别等敏感特征影响）、又是发现数据偏见和后门攻击的重要手段、还能消除 HR 招聘历史数据导致的性别歧视。AI 产品规划时不应把可解释性看作合规负担，而应看作贯穿三个维度的杠杆点[来源 #1]。
CBRN 红线是宪法 hard-line 而非高级原则，跨公司协调失败构成囚徒困境：Anthropic 宪法在大部分场景给"高级原则"让模型自行权衡，但 CBRN（化学/生物/放射/核）uplift 是少数被列为 hard-line（无论上下文都不允许）的类别。RSP/ASL-3 是这条 hard-line 的工程化外壳——5% 推理成本部署生物武器分类器、强制权限分层、跨越红线触发公开承诺机制 [来源 #6]。但 CBRN 防御有囚徒困境结构：单家公司部署分类器无法解决问题，攻击者会切换到不部署的厂商；这要求行业级 RSP 协议或政府强制基线，而不能依赖单一公司的自愿。这一洞察把"AI 系统安全"从产品议题升级到行业治理议题——也是为什么 Anthropic 公开 RSP 文本而非作为商业秘密保留的根本原因[来源 #6]。

观点张力

检测代理 vs 模型自带护栏：护栏厂商主张大模型的安全能力天生不稳定（可被绕过），必须用独立检测代理层；模型厂商通过 RLHF 持续提升模型自身的安全能力。两条路径在 2026 年没有谁明显占优，但产品角度——模型护栏不可审计、检测代理可审计——决定了企业级场景代理派胜出概率更高[来源 #2]。
拒绝策略 vs 熔断兜底：执行层安全的两条路线：一是让模型拒绝危险请求（依赖对齐），二是在执行层硬约束（依赖架构）。华为白皮书第三层和具身智能领域的研究（见姐妹方向《具身智能安全》）都指出——前者拒绝率最低只有 10%，后者才是高风险场景的真正兜底。不能把安全希望寄托在模型自觉[来源 #1]。
公开攻击样本 vs 闭源 payload 库：OWASP/0Din 等机构推动公开攻击样本库（0Din 179 个 probes），但商业护栏厂商把样本库视为核心资产。两条路径在 2026 年并存，但参考 Web 安全的历史——CVE/OWASP 等公开体系最终胜出，闭源 payload 库会被边缘化[来源 #3]。

待探索问题

当 LLM 推理本身可以被 RAG/工具调用结果污染，"模型自身安全"与"系统安全"的边界应如何重新划定？华为白皮书的三层框架还能直接套用吗？
模型水印（Model Watermarking）技术的具体实现是什么？在国内场景下能否成为模型窃取攻击的有效防御？
差分隐私在 LLM 训练中的实际效果如何？PATE（隐私聚合教师模型）框架的工程落地方案？
国内 AI 安全标准（GB/T 系列）与 OWASP/NIST 的对照表？哪些可对齐？哪些是中国独有？
Agent 级红队工具链（MAESTRO、Promptfoo LLM Security DB、SplxAI Agentic Radar、Salesforce FuzzAI、Microsoft Foundry red teaming agents）的 PoC 对比哪家最适合接入现有产品？
AI 辅助代码审计（Anthropic × Firefox 模式）的复制路径——在国内场景下复现的关键变量是什么：模型、scope 设计、还是补丁验证流水线？
间接注入（Indirect Prompt Injection）在 Agent + RAG 场景下的检测方案：在工具调用结果侧部署护栏是否可行？性能开销可接受吗？

来源索引

#	标题	来源	收录日期	贡献章节
1	华为 AI 安全白皮书——四类攻击与三层防御框架全解	华为 AI 安全白皮书	2026-04-13	攻击面分类 / 三层防御 / 案例 A-B / 洞察 1/3/7
2	大模型安全护栏：AI 应用输入输出防护产品入门	行业系列科普文	2026-04-14	护栏部署模式 / 三类检测 / 案例 F / 洞察 4
3	AI 红队全景——8 家头部公司公开实践与 5 动作交付清单	用户提供正文	2026-05-09	红队方法论 / Model access / 案例 C-E / 洞察 5/6
4	[商业策略/15] 个人信息保护合规审计——法定义务与法规体系	用户提供正文	2026-04-17	框架十 / 合规视角延伸：GB/T 46903—2025 国标 / 等保 vs 个保 vs PIA 三套体系区分 / 定期 vs 专项审计触发条件 / 产品发布前置项
5	[商业策略/10] SaaS 数据生死局——大模型虹吸与三大防御手段	牛透社（用户提供正文）	2026-04-13	框架九 / 经验内化机制 / 业务黑盒+私有化+数据水印三招 / 三方博弈格局
6	The Adolescence of Technology: Confronting and Overcoming the Risks of Powerful AI	Dario Amodei（Anthropic CEO），用户提供文本，2026-01	2026-05-19	框架十一（RSP/ASL-3）/ 案例 G（生物武器分类器 5% 成本 + 2-3 倍 uplift）/ 关键洞察 8（CBRN hard-line + 囚徒困境）

注：原始单笔记已于 2026-05-18 路由整合后归并删除，本文档为唯一沉淀载体。

关联方向

姐妹方向：《AI 重塑网络安全》（docs/01-认知/技术认知/05-AI与Agent/05-AI安全/AI重塑网络安全.md）——本方向是"AI 系统被攻击"的视角，姐妹方向是"AI 颠覆网安行业"的视角。两者镜像但互补：本方向的 OWASP Top 10 for LLM、护栏产品、红队方法对应姐妹方向的"防御端 Agentic SOC"，本方向的攻击分类对应姐妹方向的"AI 漏洞挖掘智能体"。
姐妹方向：《Agent 安全工程》（docs/01-认知/技术认知/05-AI与Agent/05-AI安全/Agent安全工程.md）——本方向覆盖单模型/单应用的安全；姐妹方向覆盖 Agent 系统特有的工程问题（MCP 协议、IAM、工具调用拦截）。CSA 12 类 Agent 威胁是两个方向的接合面。
姐妹方向：《具身智能安全》（docs/01-认知/技术认知/05-AI与Agent/05-AI安全/具身智能安全.md）——本方向的"架构安全熔断"在具身场景下被具体化为"动作白名单 + 速度/力矩上限 + 人类接管"。

演进记录

日期	版本	变更摘要
2026-05-18	v0.1	首次构建，由 /route-knowledge 路由分析触发。融合 3 篇来源（华为白皮书 / 大模型护栏 / AI 红队），沉淀 8 个方法论框架、6 个案例、7 条关键洞察、3 组观点张力、7 个待探索问题
2026-05-19	v0.2	并入 Dario Amodei The Adolescence of Technology 2026-01 长文相关内容：新增"框架十一 Anthropic Responsible Scaling Policy 与 ASL-3 阈值"、案例 G"生物武器分类器与 2-3 倍 uplift 测量"（5% 推理成本基线）、关键洞察 8"CBRN 红线是宪法 hard-line + 跨公司协调失败构成囚徒困境"

认知方法论

学科模型

职场与成长

00-基础学科

01-Agent核心

02-Harness工程

03-RAG系统

04-成本与效能

05-AI安全

06-战略与前沿

AI 系统安全攻防体系 ​

方向定位 ​

知识图谱 ​

核心概念 ​

方法论与框架 ​

框架一：华为三层防御框架 ​

框架二：四类攻击 × 三阶段防御矩阵 ​

框架三：护栏产品的两种部署模式 ​

框架四：护栏的三类检测项目 ​

框架五：AI 红队 5 动作交付清单（按上手难度排序） ​

框架六：OWASP Top 10 for LLM（风险分类标尺） ​

框架七：NIST AI 600-1 四 RMF Function ​

框架八：Microsoft PyRIT 乐高架构 ​

框架九：SaaS 数据生死局——大模型虹吸的三大防御手段 ​

框架十：个人信息保护合规审计三套体系区分 ​

框架十一：Anthropic Responsible Scaling Policy（RSP）与 ASL-3 阈值 ​

案例库 ​

案例 A：药饵攻击的医疗后果（Jagielski, 2018） ​

案例 B：CW 闪避攻击 + 物理对抗样本 ​

案例 C：Anthropic × Mozilla Firefox 红队数据卡（产能拐点） ​

案例 D：Microsoft PyRIT 在 Copilot 评估中的实战 ​

案例 E：Mozilla 0Din 两阶段提交流程 ​

案例 F：PII 脱敏在护栏中的链条 ​

案例 G：Anthropic 生物武器分类器与 LLM 在生物链路上的 2-3 倍 uplift 测量 ​

关键洞察 ​

观点张力 ​

待探索问题 ​

来源索引 ​

关联方向 ​

演进记录 ​