Appearance
AI 系统安全攻防体系
方向定位:AI 系统自身的攻击面(训练-推理两阶段四类经典攻击 + LLM 五类威胁)、三层防御框架(攻防安全/模型安全/架构安全)、护栏产品形态(SDK / 代理)、红队评估方法论(4 决策模型 + PyRIT 自动化 + OWASP/NIST/CSA 三层风险分类 + 5 动作交付清单) 当前版本:v0.1 首次构建:2026-05-18 最近更新:2026-05-18 文件名日期同步:2026-05-18 来源数:3 篇
方向定位
本方向聚焦"AI 系统自身被攻击与防御",区别于姐妹方向《AI 重塑网络安全》(聚焦 AI 如何改变网安行业格局——AI 漏洞挖掘智能体、Agentic SOC、CISO 认知重构)。本方向回答三个问题:
- AI 系统会被怎样攻击——从机器学习经典四类(闪避/药饵/后门/模型窃取)演进到 LLM 五类(内容合规/数据泄露/提示注入/模型滥用/算力耗尽)
- AI 系统应该怎样防御——华为白皮书提出的攻防安全/模型安全/架构安全三层框架,以及大模型护栏产品的 SDK 集成 vs 代理流量两种部署形态
- AI 系统的安全保证应该怎样交付——从 OpenAI 4 决策模型、Anthropic×Firefox 2 周 22 个 CVE 的产能拐点,到 OWASP Top 10 for LLM + NIST AI 600-1 + CSA Agentic 12 类的三层风险对齐方法
读者对象为 AI 产品经理、AI 安全工程师、红队评估服务的乙方。目标是建立"攻击坐标 + 防御坐标 + 评估坐标"的三轴视图。
知识图谱
- 攻击面分类
- 经典四类攻击(华为白皮书)
- 闪避攻击(推理阶段)
- 药饵攻击(训练阶段)
- 后门攻击(训练阶段)
- 模型窃取攻击(推理阶段)
- LLM 五类威胁(护栏视角)
- 内容合规风险
- 数据泄露风险
- 提示词攻击
- 模型滥用
- 算力消耗攻击
- 与机器学习经典对比
- 训练-推理两阶段 → LLM 多了"上下文运行时"第三阶段
- 经典四类攻击(华为白皮书)
- 防御体系
- 三层防御框架(华为白皮书)
- 攻防安全:已知攻击的全生命周期防御
- 模型安全:可检测/可验证/可解释三大特性
- 架构安全:隔离/检测/熔断/冗余
- 大模型安全护栏产品
- 部署模式:SDK 集成 vs 代理流量
- 检测项目:内容合规 / PII / 提示词攻击
- 防护动作:拦截 / 脱敏 / 审计
- 三层防御框架(华为白皮书)
- 安全评估(AI 红队)
- 行业方法论拼图
- OpenAI 4 决策模型(Scope/Membership/Model access/Final report)
- Microsoft PyRIT 6 件套(Datasets/Attacks/Converters/Targets/Scoring/Memory)
- Mozilla 0Din 两阶段提交流程
- OWASP GenAI Red Teaming Guide + Top 10 for LLM
- NIST AI 600-1(12 类风险 + GV/MP/MS/MG 四 Function)
- CSA Agentic AI Red Teaming Guide(12 类 Agent 威胁)
- Google SAIF(6 大要素工程框架)
- 关键差异:Model access 作为新维度
- 产能拐点:Anthropic × Firefox 数据卡
- 行业方法论拼图
核心概念
闪避攻击(Evasion Attack):推理阶段对输入叠加人类难以察觉的微小扰动生成对抗样本,使模型产生错误判断。学术里程碑:Szegedy(2013)首提对抗样本;CW 攻击实现扰动极小且成功率 100%。物理案例:路标涂改让自动驾驶把"禁止通行"识别为"限速 45"[来源 #1]。
药饵攻击(Poisoning Attack):训练数据中注入精心设计的样本污染训练集。Jagielski(2018)医疗案例:注入 8% 恶意数据可导致 50% 患者用药建议偏差超 75%[来源 #1]。
后门攻击(Backdoor Attack):训练阶段植入隐蔽触发条件,正常输入下模型表现正常,只有特定触发图案存在时才激活预设错误判断。Gu 等(2017)证明无需源代码即可利用,常规测试难发现[来源 #1]。
模型窃取攻击(Model Stealing Attack):通过大量调用 AIaaS 接口分析输入输出对,逆向推测模型参数和训练数据。Tramèr(2016)证明窃取后还可进一步构建对抗样本辅助黑盒攻击[来源 #1]。
大模型安全护栏(AI Guardrails):部署在 AI 应用输入输出两侧的独立检测代理层,核心价值在于防止提示词攻击、内容违规、敏感数据泄露三类威胁。本质是检测层,与业务模型解耦,确保防御能力的稳定性和可审计性[来源 #2]。
概念枢纽提示:本文档作为"AI 系统自身安全"的主入口,提示注入(Prompt Injection / LLM01) 的基础定义与防御原则在此节统一讲解;姐妹方向《Agent 安全工程》的"意图流劫持"、《具身智能安全》的"物理环境提示注入 / 目标定义权劫持"均是该基础概念在 Agent 场景与具身场景下的特化形态,直接引用本节。
Model access(红队评估的决定性变量):AI 红队相对 Web 渗透多出的核心维度,直接决定能用哪种测试方法——黑盒 API 只能 prompt 探测,白盒可看 system prompt / fine-tune 数据 / fallback 策略。必须单列在合同附件[来源 #3]。
可解释性(模型安全核心杠杆):通过 LIME 等方法让模型推理过程可审计,既满足 GDPR 反算法歧视要求,又是发现数据偏见和后门攻击的重要手段。三阶段推进:建模前数据可解释 → 构建可解释模型 → 模型解释分析[来源 #1]。
熔断机制(架构安全核心设计):关键操作设置"确定性阈值",低于阈值时回落至规则判断或人工处理。自动驾驶刹车、医疗用药建议是经典场景;任何高风险 AI 决策场景都适用[来源 #1]。
方法论与框架
框架一:华为三层防御框架
| 层 | 解决问题 | 典型手段 |
|---|---|---|
| 攻防安全 | 已知攻击的针对性对抗 | 对抗训练、模型剪枝、差分隐私、模型水印 |
| 模型安全 | 模型自身的健壮性和可信度 | 可检测性(前馈+后馈双重过滤)、可验证性(形式化)、可解释性(LIME) |
| 架构安全 | 业务场景的容错与降级 | 隔离、检测、熔断、冗余 |
三层不能互相替代——只有攻防防御无法应对未知攻击,只有架构熔断会让可用性大幅下降,必须组合使用[来源 #1]。
框架二:四类攻击 × 三阶段防御矩阵
| 攻击类型 | 数据收集阶段 | 模型训练阶段 | 模型使用阶段 |
|---|---|---|---|
| 闪避攻击 | 对抗样本预生成 | 网络蒸馏 / 对抗训练 / DNN 验证 | 对抗样本检测 / 输入重构 |
| 药饵攻击 | 回归分析检测异常值 | 训练数据过滤 | 集成分析 |
| 后门攻击 | — | 模型剪枝 | 输入预处理过滤触发输入 |
| 模型窃取 | 差分隐私 / 模型水印 | PATE 隐私聚合教师模型 | — |
防御必须从数据收集 → 训练 → 使用三阶段全链路覆盖[来源 #1]。
框架三:护栏产品的两种部署模式
| 模式 | 工作流 | 优点 | 适用场景 |
|---|---|---|---|
| SDK 集成 | 应用通过 SDK 调用护栏,输入输出双向检测 | 灵活、可精确控制检测时机、支持深度定制 | 自研 AI 应用、有特殊定制需求 |
| 代理流量 | 用户请求经代理服务器自动检测后转发,输出经代理再次检测 | 零代码改动、即插即用、集中管理 | 使用第三方 API 的企业、快速上线 |
这是经典的"灵活性 vs 简单性"取舍,对应 API 网关、WAF 等中间件产品的相同选择[来源 #2]。
框架四:护栏的三类检测项目
| 检测项 | 检测范围 | 防护动作 |
|---|---|---|
| 内容合规 | 涉政敏感、色情低俗、暴力恐怖、偏见歧视、不良价值观、虚假信息 | 拦截 / 代替回答 |
| 敏感内容(PII) | 身份证、护照、手机号、邮箱、住址、银行卡、健康信息、生物特征 | 脱敏 / 拦截警告 / 审计记录 |
| 提示词攻击 | 越狱("忽略之前指令")、角色扮演诱导、指令注入、间接注入 | 拦截 |
对应 AI 产品合规的三个维度:内容合规(监管)、数据安全(隐私/等保)、攻击防御(运营)[来源 #2]。
框架五:AI 红队 5 动作交付清单(按上手难度排序)
| 优先级 | 动作 | 落地点 | 来源参考 |
|---|---|---|---|
| P0 | Scope 多写一项 Model access | 合同阶段 | OpenAI 4 决策模型 |
| P0 | 每条 finding 配最小可复现 case(不是 prompt 截图) | 报告章节 | Anthropic × Mozilla |
| P0 | 风险分类对齐 OWASP Top 10 for LLM + NIST 600-1(Agent 系统加 CSA 12 类) | 报告章节 | OWASP / NIST / CSA |
| P1 | 报告分两阶段:先 abstract,客户认 scope 再交技术细节 | 一周内能跑通 | Mozilla 0Din |
| P2 | 工具自动化扩覆盖(PyRIT),但人工判断决定 finding | 工程化能力 | Microsoft AIRT |
不要自造方法论,把 8 家头部公司的公开拼图拼成自家交付套件[来源 #3]。
框架六:OWASP Top 10 for LLM(风险分类标尺)
| 编号 | 风险 |
|---|---|
| LLM01 | Prompt Injection |
| LLM02 | Insecure Output Handling |
| LLM03 | Training Data Poisoning |
| LLM04 | Model Denial of Service |
| LLM05 | Supply Chain Vulnerabilities |
| LLM06 | Sensitive Information Disclosure |
| LLM07 | Insecure Plugin Design |
| LLM08 | Excessive Agency |
| LLM09 | Overreliance |
| LLM10 | Model Theft |
报告里每条 finding 直接标注 LLM01-10 类别,客户和复测方都能秒懂。OWASP Top 10 for LLM 之于 AI 红队,相当于 OWASP Top 10 之于 Web 渗透[来源 #3]。
注:Agent 系统的 MCP 协议级风险(工具投毒、影子 MCP、意图流劫持等)使用 OWASP MCP Top 10(独立于 LLM Top 10),详见姐妹方向《Agent 安全工程》框架一与决策规则;具身智能的六层攻击面对应分类见《具身智能安全》框架一。
框架七:NIST AI 600-1 四 RMF Function
每条 finding 标注对应 NIST AI 600-1 的 GV-x.x(Govern 治理)/ MP-x.x(Map 映射)/ MS-x.x(Measure 测量)/ MG-x.x(Manage 管理)——客户合规和审计团队立刻看懂说的是 RMF 哪一块。7 个 Trustworthy AI 特性:Safe / Explainable / Fair / Accountable / Privacy Enhanced / Secure / Valid and Reliable[来源 #3]。
框架八:Microsoft PyRIT 乐高架构
PyRIT = Python Risk Identification Tool,6 件套组件:
| 组件 | 作用 | 关键能力 |
|---|---|---|
| Datasets | 基础数据 | prompts、jailbreak 模板、攻击策略 |
| Attacks | 编排层 | single-turn(Role Play / Skeleton Key)、multi-turn(Crescendo / Tree of Attacks) |
| Converters | prompt 转换 | 文本改写、文档转换、图片叠加,可堆叠组合 |
| Targets | 攻击目标 | 通常是 LLM |
| Scoring Engine | 评估攻击结果 | 自动评分 |
| Memory | 会话状态 | 追踪对话和分数,存 SQLite 或 Azure SQL |
每个组件都有 NoOp 版本方便调试;一个攻击的 prompt 可以喂给另一个攻击;一个场景下的攻击可以挂多个 targets[来源 #3]。
框架九:SaaS 数据生死局——大模型虹吸的三大防御手段
垂直 SaaS 接入通用大模型存在一个"经验内化"隐蔽风险:即便原始数据被"用完即焚",大模型已通过接口调用学会了"老中医看病经验"(行业成本规律、提成返点逻辑等隐藏知识),十年护城河可能几次调用就被悄无声息蒸发 [来源 #5]。
| 防御手段 | 做法 | 切断的攻击路径 | 代价 | 适用场景 |
|---|---|---|---|---|
| 业务黑盒 | SaaS 内部完成敏感计算,只向 LLM 输出脱敏结论 | 阻止 LLM "调取资料 → 分析算账 → 经验内化"三步走 | LLM 在此场景只是传话筒 | 业务逻辑高度专有、数据极敏感的核心模块 |
| 私有化部署(算力下乡) | 百亿级轻量小模型 + 客户本地服务器 | "网线一拔"物理隔离 | 模型能力弱于公有云大模型、运维成本高 | 金融/医疗/政务/制造(合规极严) |
| 数据水印(防伪追踪) | 输出数据流中嵌入肉眼不可见的专属标记 | 不阻止泄露,但可作为"被用于训练"的法律证据 | 被动防御、损失已造成 | 必须开放数据接口的场景,最后法律保障 |
与三层防御框架(华为)的映射:
- 业务黑盒 ↔ 架构安全的"隔离" + 模型安全的"可检测"
- 私有化部署 ↔ 攻防安全(差分隐私的物理终极形态)
- 数据水印 ↔ 模型水印(Model Watermarking)的数据流版本
三方博弈格局(不会自动消解): 大厂要数据入口、SaaS 要护城河、甲方要绝对安全——三方利益结构性冲突,没有人会主动让步。SaaS 厂商交出数据换流量是死路一条。这一格局意味着"AI 时代企服竞争力的核心标准从功能全不全转向数据绝对不外流"[来源 #5]。
框架十:个人信息保护合规审计三套体系区分
个保法 + 等保 + PIA(隐私影响评估)是 AI 产品发布前最常被混淆的合规体系。GB/T 46903—2025(《个人信息保护合规审计要求》)于 2026 年起强制实施,使 AI 红队报告必须能映射到合规审计标尺 [来源 #4]。
| 体系 | 触发条件 | 审计对象 | 周期 |
|---|---|---|---|
| 等保 2.0 | 信息系统按级别(一至五级)定期测评 | 系统层(网络/主机/应用) | 二级两年/三级一年 |
| 个保合规审计 | 处理个人信息满 1000 万人需每两年一次;重大事件/监管要求触发"专项审计" | 数据层(收集/使用/共享/跨境) | 定期 + 专项 |
| PIA(隐私影响评估) | 处理敏感个人信息、自动化决策、向境外提供、委托处理等高风险场景 | 单一处理活动 | 一次性/重大变更时 |
触发"专项审计"的常见情形:
- 监管部门责令(事件后审查)
- 个人信息泄露事件影响超过 100 万人
- 处理活动有"较大风险"(自动化决策、跨境传输等)
对 AI 产品发布的前置项(合规检查清单):
- 数据来源是否合法(个保法授权 / 等保资质 / 合同条款)
- 训练数据是否包含敏感个人信息(人脸/声纹/医疗/金融),如有,是否完成 PIA
- 自动化决策是否提供"拒绝纯自动化决策"的入口(个保法第 24 条)
- 跨境数据传输是否完成安全评估或个人信息保护认证
- 处理量超 1000 万人时,是否预约了两年一次的个保合规审计
与本方向的接合面: 红队评估报告应同时映射到 OWASP Top 10 for LLM + NIST AI 600-1 + GB/T 46903 三套坐标——前两者面向技术风险,后者面向合规问责。出海产品再加 GDPR / CCPA 维度 [来源 #4]。
框架十一:Anthropic Responsible Scaling Policy(RSP)与 ASL-3 阈值
RSP 是 Anthropic 公开发布的"能力分级 → 安全门"治理框架——以能力红线(capability threshold)触发对应安全级别(AI Safety Level, ASL)的部署条件,把"宪法式高级原则"与"硬性禁令"在工程层结合 [来源 #6]。
| ASL 级别 | 触发条件 | 部署门槛 | 当前状态(2026-01) |
|---|---|---|---|
| ASL-2 | 当前主流前沿模型(无显著 CBRN uplift) | 标准安全实践 | Claude Sonnet/Opus 3.x 系列默认 |
| ASL-3 | 模型在 CBRN(化学/生物/放射/核)或自主性维度跨越红线 | 强制部署生物武器分类器、强化访问控制、内部权限分层 | Claude Opus 4.x 已触发 |
| ASL-4 | 在 ASL-3 基础上进一步具备"自主进行 AI 研究"等能力 | 待定,需要更深的可解释性 + 治理审查 | 尚未触发 |
| ASL-5 | 接近 powerful AI 定义("datacenter 里的国家") | 待定 | 假设性 |
与三层防御框架(华为)的映射:
- ASL-3 的"生物武器分类器" ↔ 攻防安全的"已知攻击全生命周期防御"(CBRN 是已识别的最高优先级攻击类别)
- ASL-3 的"内部权限分层" ↔ 架构安全的"隔离"
- ASL 分级本身 ↔ 模型安全的"可验证"——容量提升必须伴随治理升级,而非默认放行
关键工程动作(ASL-3 部署清单):
- 生物武器分类器:在推理 pipeline 中前置 CBRN 内容检测,触发后拒答 + 审计;Anthropic 在 mid-2025 实测此分类器约占 5% 的推理成本 [来源 #6]
- uplift 测量:通过红队 + 双盲对照实验测量"用 LLM 辅助 vs 不用 LLM"在生物武器获取链路上的能力提升倍数;Anthropic 当前测量到的范围是 2-3 倍 uplift(接近 RSP 红线触发阈值) [来源 #6]
- 访问控制升级:研究员对模型权重的访问采用"知其然不知其所以然"原则——多人多步骤审计 + 离线权重不出库
- 公开承诺机制:每次跨越 ASL 阈值,公司必须公开发布更新的 RSP(含触发证据 + 部署条件 + 撤销路径),形成行业可观测的治理基线
与"宪法 hard-line vs 高级原则"的关系: Anthropic 宪法在大部分场景给"高级原则"(如"避免有害行为"),让模型在情境中自行权衡——但 CBRN 是少数被列为 hard-line(硬性禁令) 的类别,无论上下文如何都不允许 uplift。RSP 是这条 hard-line 的"工程化外壳" [来源 #6]。
案例库
案例 A:药饵攻击的医疗后果(Jagielski, 2018)
- 背景:药饵攻击的学术验证,三种攻击方法:最优坡度法、全局最优法、统计优化法
- 做法:在医疗用药 AI 的训练数据中注入精心设计的恶意样本
- 结果:注入 8% 恶意数据,导致 50% 患者的用药建议偏差超过 75%
- 启发:在 RAG 场景中外部知识库被污染效果类似——RAG 系统需要建立数据来源可信度评估和知识库审计机制,这是当前 RAG 工程的盲区[来源 #1]
案例 B:CW 闪避攻击 + 物理对抗样本
- CW 攻击:扰动极小(人眼不可见)且成功率 100%
- 物理攻击:通过特殊涂改将"禁止通行"路标让自动驾驶系统识别为"限速 45"
- 启发:感知层的对抗样本不仅是分类误差问题,而是会击穿整个高风险业务链路(自动驾驶 → 路标识别 → 速度决策)[来源 #1]
案例 C:Anthropic × Mozilla Firefox 红队数据卡(产能拐点)
| 维度 | 数字 |
|---|---|
| 模型 | Claude Opus 4.6 |
| 启动时间 | 2025 年末 |
| 周期 | 2 周 |
| 扫描代码 | 近 6000 个 C++ 文件 |
| 提交报告 | 112 份独特报告 |
| 最终 CVE | 22 个安全相关 + 90 个其他 bug |
| 高危 CVE | 14 个 |
| 修复版本 | Firefox 148 |
| 首发时间 | 启动后 20 分钟内识别出第一个漏洞 |
| 崩溃输入 | 2 周内 50+ 独特崩溃输入 |
| 复现 | 每条 finding 附最小复现 case |
启发:客户以后不会再接受"两周看 200 个文件"的交付承诺,AI 辅助审计的标准产能已经换档。Mozilla 自家博客同步致谢——双方数据对得上,不是单边 PR[来源 #3]。
案例 D:Microsoft PyRIT 在 Copilot 评估中的实战
- 背景:Microsoft AIRT 需要在 Copilot、Phi-3 等产品发布前完成红队评估,纯人工无法覆盖
- 做法:用 PyRIT 自动生成几千条对抗 prompt → Scoring Engine 自动评分 → 人工审查阳性结果
- 结果:100+ 次红队行动覆盖多个产品;"几小时拿到的结果传统人工方式要几周"
- 启发:PyRIT 已经把评估流水线乐高化,国内厂商不应再造底层框架,只需加自家 datasets 和 scoring rules[来源 #3]
案例 E:Mozilla 0Din 两阶段提交流程
- 第一阶段:High-level abstract(风险类别 + 受影响模型)→ Mozilla 在 3 工作日内回 scope 评估和 bounty 范围
- 第二阶段:完整技术细节(PoC + 复现步骤 + impact 分析)→ 2 周保密期内双方复测
- Bounty 金额:Low ≤ $500 / Medium ≤ $2,500 / High ≤ $5,000 / Severe ≤ $15,000
- Scope 三类:Guardrail jailbreak / Prompt injection / Training data leakage
- 附加资产:0Din 开源 179 个 security probes,覆盖 35 个漏洞家族,可直接用作 payload set 起点[来源 #3]
案例 F:PII 脱敏在护栏中的链条
- 用户输入:
我的身份证号是 110101199001011234,请帮我查询... - 护栏检测:识别到 18 位身份证号模式
- 系统处理:自动脱敏为
我的身份证号是 110101********1234,请帮我查询... - 启发:脱敏是护栏 PII 防护的三选一动作之一(脱敏 / 拦截警告 / 审计记录),相比直接拦截更友好,对兼顾用户体验和合规的场景是首选[来源 #2]
案例 G:Anthropic 生物武器分类器与 LLM 在生物链路上的 2-3 倍 uplift 测量
- 背景:Anthropic 内部红队联合外部生物安全专家,在 mid-2025 起对 Claude Opus 4.x 进行 CBRN 红线测量;同期作为 RSP/ASL-3 部署的强制条件,把"生物武器分类器"接入推理 pipeline [来源 #6]
- 做法:
- 双盲对照实验:把生物武器获取/合成链路拆成多个子步骤(前体获取、合成路径设计、蛋白工程、规避检测等),让"懂分子生物学硕士但非顶尖专家"的受试者分两组——一组允许使用 LLM、一组只能用搜索引擎和教科书——评估两组完成各子步骤的成功率与时间
- 分类器接入:基于 fine-tuned 小模型 + 关键词 + 语义匹配的多层检测,前置在 Claude API 推理请求上
- 结果:
- LLM 辅助组在多个关键子步骤上展现 2-3 倍 uplift(接近但暂未跨过 RSP 中"专家级 uplift"的最高红线)
- 分类器部署后约占 5% 的推理成本——这是"安全税"的真实量级,远低于"安全 vs 性能"叙事所暗示的高代价
- Claude Opus 4.x 因此被列为 ASL-3,触发强制内部权限分层、研究员权重访问审计、推理侧前置分类器三项部署条件
- 启发:
- uplift 测量是 CBRN 红线的工程化语言——不是"模型能不能讲述生物武器"(公开教科书都能讲),而是"模型把懂分子生物学的人推进多远"。这一基线把"AI 是否危险"从哲学问题转化为可重复测量的实验问题
- 5% 推理成本是行业基线——任何前沿模型部署如果不愿付这个成本,本质上是在把 CBRN 风险外部化给社会
- 跨公司协调失败 = 囚徒困境:单家公司部署 CBRN 分类器无法解决问题——攻击者会切换到不部署的厂商。这要求行业级 RSP 协议或政府强制基线(参见洞察 8)
- 关联章节:与本方向"框架十一 RSP/ASL-3"形成实证支撑;与姐妹方向《AI 风险全景与治理》"滥用破坏(生物武器)"章节形成跨方向引用
(来源:Dario Amodei, The Adolescence of Technology, 2026-01,Section 2 "A surprising and terrible empowerment")
关键洞察
AI 安全风险的根本矛盾是算法设计阶段的先天缺陷:现有 AI 系统在设计阶段未将安全威胁作为约束条件,机器学习的"黑盒性"使后门植入后无法通过代码审查发现。这两个特性共同构成了 AI 在工业、医疗、交通等高风险领域落地的安全底座缺失。要解决根本矛盾,需要把可解释性作为核心设计约束而非事后补充[来源 #1]。
四类经典攻击与 LLM 五类威胁是同源演进:训练阶段(药饵/后门 → 训练数据投毒 LLM03)+ 推理阶段(闪避/模型窃取 → 模型滥用 LLM08 + 模型窃取 LLM10)的两阶段攻击面,在 LLM 时代被"上下文运行时"扩展成三阶段——多出了"提示词攻击"这条 LLM 特有威胁链。OWASP Top 10 for LLM 实质是对华为白皮书框架的 LLM 时代翻译[来源 #1, #2, #3]。
熔断机制对所有高风险 AI 决策场景都适用:自动驾驶刹车和医疗 AI 用药建议的"确定性阈值 + 人工兜底"设计——AI 建议只在置信度足够高时生效,否则降级到规则或人工。这一架构哲学应贯彻到任何对外提供决策建议的 AI 产品,而非仅限于安全敏感场景[来源 #1]。
护栏的核心竞争力是攻击样本积累和规则迭代速度:提示词攻击检测本身是个持续博弈,攻击者会不断进化新的绕过方式。这意味着该类产品的护城河不在一次性技术实现,而在数据飞轮——商业护栏厂商的核心 KPI 应该是攻击样本入库速度和检测策略推送频次[来源 #2]。
AI 红队没有稳定流水线但已有可拼接的八张拼图:Web 渗透的 OWASP WSTG 在 AI 安全没有对应物,因为被测对象本身在快速变形(从 Chat 到 Agent + RAG + MCP + 多工具)。但 OpenAI/Anthropic/Microsoft/Mozilla/OWASP/NIST/CSA/Google 八家已公开一手源。乙方做的不是发明方法论,而是拼装[来源 #3]。
Model access 是 AI 红队相对 Web 渗透的决定性变量:Web 渗透的黑/白盒只影响发现深度,AI 红队的 Model access 直接决定能用哪种测试方法(黑盒只能 prompt 探测,白盒可看 system prompt / fine-tune 数据 / fallback 策略)。把 Model access 没写清楚就开测,等于拿到一张没有比例尺的地图。这一项不仅是技术决策,还应作为产品定价的隐藏维度——黑盒/白盒/fine-tune 接入是不同 SKU[来源 #3]。
可解释性是安全、合规、产品质量的三重杠杆:LIME 等方法既满足 GDPR 反算法歧视要求(排除种族/性别等敏感特征影响)、又是发现数据偏见和后门攻击的重要手段、还能消除 HR 招聘历史数据导致的性别歧视。AI 产品规划时不应把可解释性看作合规负担,而应看作贯穿三个维度的杠杆点[来源 #1]。
CBRN 红线是宪法 hard-line 而非高级原则,跨公司协调失败构成囚徒困境:Anthropic 宪法在大部分场景给"高级原则"让模型自行权衡,但 CBRN(化学/生物/放射/核)uplift 是少数被列为 hard-line(无论上下文都不允许)的类别。RSP/ASL-3 是这条 hard-line 的工程化外壳——5% 推理成本部署生物武器分类器、强制权限分层、跨越红线触发公开承诺机制 [来源 #6]。但 CBRN 防御有囚徒困境结构:单家公司部署分类器无法解决问题,攻击者会切换到不部署的厂商;这要求行业级 RSP 协议或政府强制基线,而不能依赖单一公司的自愿。这一洞察把"AI 系统安全"从产品议题升级到行业治理议题——也是为什么 Anthropic 公开 RSP 文本而非作为商业秘密保留的根本原因[来源 #6]。
观点张力
检测代理 vs 模型自带护栏:护栏厂商主张大模型的安全能力天生不稳定(可被绕过),必须用独立检测代理层;模型厂商通过 RLHF 持续提升模型自身的安全能力。两条路径在 2026 年没有谁明显占优,但产品角度——模型护栏不可审计、检测代理可审计——决定了企业级场景代理派胜出概率更高[来源 #2]。
拒绝策略 vs 熔断兜底:执行层安全的两条路线:一是让模型拒绝危险请求(依赖对齐),二是在执行层硬约束(依赖架构)。华为白皮书第三层和具身智能领域的研究(见姐妹方向《具身智能安全》)都指出——前者拒绝率最低只有 10%,后者才是高风险场景的真正兜底。不能把安全希望寄托在模型自觉[来源 #1]。
公开攻击样本 vs 闭源 payload 库:OWASP/0Din 等机构推动公开攻击样本库(0Din 179 个 probes),但商业护栏厂商把样本库视为核心资产。两条路径在 2026 年并存,但参考 Web 安全的历史——CVE/OWASP 等公开体系最终胜出,闭源 payload 库会被边缘化[来源 #3]。
待探索问题
- 当 LLM 推理本身可以被 RAG/工具调用结果污染,"模型自身安全"与"系统安全"的边界应如何重新划定?华为白皮书的三层框架还能直接套用吗?
- 模型水印(Model Watermarking)技术的具体实现是什么?在国内场景下能否成为模型窃取攻击的有效防御?
- 差分隐私在 LLM 训练中的实际效果如何?PATE(隐私聚合教师模型)框架的工程落地方案?
- 国内 AI 安全标准(GB/T 系列)与 OWASP/NIST 的对照表?哪些可对齐?哪些是中国独有?
- Agent 级红队工具链(MAESTRO、Promptfoo LLM Security DB、SplxAI Agentic Radar、Salesforce FuzzAI、Microsoft Foundry red teaming agents)的 PoC 对比哪家最适合接入现有产品?
- AI 辅助代码审计(Anthropic × Firefox 模式)的复制路径——在国内场景下复现的关键变量是什么:模型、scope 设计、还是补丁验证流水线?
- 间接注入(Indirect Prompt Injection)在 Agent + RAG 场景下的检测方案:在工具调用结果侧部署护栏是否可行?性能开销可接受吗?
来源索引
| # | 标题 | 来源 | 收录日期 | 贡献章节 |
|---|---|---|---|---|
| 1 | 华为 AI 安全白皮书——四类攻击与三层防御框架全解 | 华为 AI 安全白皮书 | 2026-04-13 | 攻击面分类 / 三层防御 / 案例 A-B / 洞察 1/3/7 |
| 2 | 大模型安全护栏:AI 应用输入输出防护产品入门 | 行业系列科普文 | 2026-04-14 | 护栏部署模式 / 三类检测 / 案例 F / 洞察 4 |
| 3 | AI 红队全景——8 家头部公司公开实践与 5 动作交付清单 | 用户提供正文 | 2026-05-09 | 红队方法论 / Model access / 案例 C-E / 洞察 5/6 |
| 4 | [商业策略/15] 个人信息保护合规审计——法定义务与法规体系 | 用户提供正文 | 2026-04-17 | 框架十 / 合规视角延伸:GB/T 46903—2025 国标 / 等保 vs 个保 vs PIA 三套体系区分 / 定期 vs 专项审计触发条件 / 产品发布前置项 |
| 5 | [商业策略/10] SaaS 数据生死局——大模型虹吸与三大防御手段 | 牛透社(用户提供正文) | 2026-04-13 | 框架九 / 经验内化机制 / 业务黑盒+私有化+数据水印三招 / 三方博弈格局 |
| 6 | The Adolescence of Technology: Confronting and Overcoming the Risks of Powerful AI | Dario Amodei(Anthropic CEO),用户提供文本,2026-01 | 2026-05-19 | 框架十一(RSP/ASL-3)/ 案例 G(生物武器分类器 5% 成本 + 2-3 倍 uplift)/ 关键洞察 8(CBRN hard-line + 囚徒困境) |
注:原始单笔记已于 2026-05-18 路由整合后归并删除,本文档为唯一沉淀载体。
关联方向
- 姐妹方向:《AI 重塑网络安全》(
docs/01-认知/技术认知/05-AI与Agent/05-AI安全/AI重塑网络安全.md)——本方向是"AI 系统被攻击"的视角,姐妹方向是"AI 颠覆网安行业"的视角。两者镜像但互补:本方向的 OWASP Top 10 for LLM、护栏产品、红队方法对应姐妹方向的"防御端 Agentic SOC",本方向的攻击分类对应姐妹方向的"AI 漏洞挖掘智能体"。 - 姐妹方向:《Agent 安全工程》(
docs/01-认知/技术认知/05-AI与Agent/05-AI安全/Agent安全工程.md)——本方向覆盖单模型/单应用的安全;姐妹方向覆盖 Agent 系统特有的工程问题(MCP 协议、IAM、工具调用拦截)。CSA 12 类 Agent 威胁是两个方向的接合面。 - 姐妹方向:《具身智能安全》(
docs/01-认知/技术认知/05-AI与Agent/05-AI安全/具身智能安全.md)——本方向的"架构安全熔断"在具身场景下被具体化为"动作白名单 + 速度/力矩上限 + 人类接管"。
演进记录
| 日期 | 版本 | 变更摘要 |
|---|---|---|
| 2026-05-18 | v0.1 | 首次构建,由 /route-knowledge 路由分析触发。融合 3 篇来源(华为白皮书 / 大模型护栏 / AI 红队),沉淀 8 个方法论框架、6 个案例、7 条关键洞察、3 组观点张力、7 个待探索问题 |
| 2026-05-19 | v0.2 | 并入 Dario Amodei The Adolescence of Technology 2026-01 长文相关内容:新增"框架十一 Anthropic Responsible Scaling Policy 与 ASL-3 阈值"、案例 G"生物武器分类器与 2-3 倍 uplift 测量"(5% 推理成本基线)、关键洞察 8"CBRN 红线是宪法 hard-line + 跨公司协调失败构成囚徒困境" |