Skip to content

具身智能安全

方向定位:把机器人网络安全(控制链接管)+ 模型安全(输入操纵与对齐失效)+ 功能安全(危险动作阻断)三条线压进同一条现实闭环——六层攻击面(物理/固件/中间件/模型/规划/执行)+ 感知-语言-执行三层防御 当前版本:v0.1 首次构建:2026-05-18 最近更新:2026-05-18 文件名日期同步:2026-05-18 来源数:1 篇

方向定位

本方向聚焦"具身智能(Embodied AI)系统的安全"——它不是大模型安全的子集,也不是传统机器人安全的简单升级,而是一个跨层系统问题

具身智能的关键特征:文本输出、控制指令、世界状态、物理后果之间的距离已显著缩短。一个看似无害的规划偏差,经过一次工具调用、一次视觉确认、一次低级控制器下发,就可能变成真实动作。这使得安全的难度在三个维度同时被放大:

  1. 跨域——把机器人网络安全、模型安全、功能安全压进同一条闭环
  2. 现实——状态机被错误推进、权限被错误使用、动作在错误上下文下被合法执行,每一项都可能导致物理伤害
  3. 新增攻击面——感知层(视觉对抗、物理提示注入)和语言层(目标定义权劫持)是传统机器人安全完全没有的

读者对象为机器人产品工程师、AI 安全研究者、具身智能创业者。目标是建立"六层攻击面 + 感知/语言/执行三层防御 + 工程纪律优先级"的统一视图。

与姐妹方向的分工:本方向只覆盖具身场景特有的攻击面与防御原则。提示注入(Prompt Injection / LLM01)的基础定义、攻击矩阵、护栏产品形态详见《AI 系统安全攻防体系》"核心概念"与"框架四";本方向的"物理环境提示注入"是该概念在具身感知通道下的特化形态。Agent 工具调用的预执行拦截、MCP 协议风险、IAM/OBO 委托授权详见《Agent 安全工程》——本方向"执行层硬约束"与《Agent 安全工程》的"AEGIS 预执行拦截"是同源思想在物理动作 vs 工具调用两条线上的并行落地。AI 在网安行业的产业代际、SOC 形态演进、Agentic SOC、AES 新品类等不在本方向范围内,详见《AI 重塑网络安全》。

知识图谱

  • 跨层定位
    • 三条线汇流:机器人网络安全 + 模型安全 + 功能安全
    • 四类保护对象:人身/物理 / 业务目标 / 数字资产 / 治理资产
  • 六层攻击面(arXiv:2602.23404)
    • 物理层
    • 固件/OS 层
    • 中间件层(ROS2 / DDS / SROS2)
    • 模型与数据层
    • 规划层
    • 执行与协作层
  • 三层防御视角
    • 传统机器人安全(基础工程纪律)
      • 漏洞数据库(arXiv:1912.11299)
      • CVSS 不适用(arXiv:1807.10357)
    • 感知层防御(世界模型污染)
      • VLA 对抗补丁(ICCV 2025)
      • 物理环境提示注入(arXiv:2601.17383)
      • 四种感知风险形态
    • 语言接口防御(目标定义权劫持)
      • 移动机器人提示注入(arXiv:2408.03515)
      • LLM 规划 Agent 攻击(arXiv:2601.13612)
      • 具身 LLM 越狱(arXiv:2407.20242)
      • 语言接口危险的四个根因
    • 执行层防御(四类失效模式)
      • Safe-Align 安全对齐(arXiv:2504.14650)
      • 危险任务拒绝率仅 10%(arXiv:2412.13178)
      • 四类执行失效
  • 防御策略八方向
    • 身份与权限收敛
    • 供应链与更新治理
    • 感知输入来源标记
    • 任务级动作约束
    • 运行时监控
    • 人类确认与接管
    • 审计证据闭环
    • 分阶段放量

核心概念

  • 具身智能(Embodied AI):系统能够感知环境、理解任务、生成计划并对现实世界执行动作。动作范围不限于机械臂抓取和导航,还包括家居设备控制、云端工单提交、仓储搬运、辅助驾驶、工业巡检等[来源 #1]

  • 六层攻击面模型:物理层(传感器、执行器、电源、急停)/ 固件 OS 层(驱动、容器、系统服务、更新包)/ 中间件层(ROS2 节点、DDS 参与者、主题/服务/动作)/ 模型与数据层(感知模型、VLA、LLM、检索库)/ 规划层(任务分解、动作序列、约束规则)/ 执行与协作层(低级控制器、操作员界面、云端编排)。关键洞察:现场部署的防御大多集中在通信保护层,感知层与操作员层防御仍偏实验室化[来源 #1]

  • VLA(Vision-Language-Action 模型):视觉-语言-动作一体化模型,是具身智能的核心组件。在 ICCV 2025 论文中被证明对小型彩色补丁极度敏感——可放入摄像头视野的对抗补丁,在仿真机器人任务上任务成功率下降最高达 100%[来源 #1]

  • 物理环境提示注入:黑盒条件下,仅通过环境中的可见物体和排版文本影响 LVLM——物理世界中的标识牌、标签、屏幕文案都可能变成指令通道。攻击在距离、视角、照明变化下仍具鲁棒性,对 10 个先进 LVLM 攻击成功率最高 98%(arXiv:2601.17383)[来源 #1]

说明:提示注入的基础定义见《AI 系统安全攻防体系》"核心概念"节;物理环境提示注入是 LLM01 在具身感知通道下的特化形态——攻击载体从文本上下文扩展到物理环境本身(标牌、屏幕、贴纸),传统输入净化在物理世界根本管不到。

  • 目标定义权(语言接口的核心风险):LLM 进入具身系统后承担了"目标定义"的功能——谁改变目标描述就在改变系统优化方向。这是语言接口比传统提示注入更危险的根因:不是让模型说错话,而是让整个执行链朝错误目标对齐[来源 #1]

  • 语言理解权 vs 动作执行权(核心设计原则):必须拆开。语言模型给出候选计划,但高风险动作是否执行,由策略引擎、状态约束、人类确认和中间件权限共同决定。只要语言理解权和动作执行权没有被明确拆开,上层任何防御都可能被绕过[来源 #1]

  • SROS2(Secure ROS2):在 ROS2 通信层加入证书、治理文件、权限文件的安全扩展。是中间件层的基础防御机制,配合 DDS-Security 实现身份验证、加密、访问控制[来源 #1]

  • CVSS 不适用于机器人:arXiv:1807.10357 论证传统 CVSS 无法准确表达机器人漏洞严重性,因为机器人漏洞涉及安全与功能耦合、下游物理影响、第三方组件传播效应。一条普通软件中危漏洞,在具身系统中可能因控制对象和物理作用范围被放大成直接人身风险[来源 #1]

  • 四类执行层失效模式:①显式危险任务接受 ②情境风险漏检 ③动作排序错误 ④目标语义偏移。核心误区:把执行层安全理解成"模型遇到危险请求要拒绝"——但更棘手的问题是目标看起来合理、执行细节却会引出危险后果的普通任务(地面湿滑时高速移动、把锋利物品递向儿童)[来源 #1]

  • Safe-Align:arXiv:2504.14650 提出的安全对齐方法,2027 个日常任务覆盖 8 类危险,证明即便无攻击者具身系统也会自然产生危险行为,安全改进 8.55%~15.22%[来源 #1]

方法论与框架

框架一:六层攻击面模型(arXiv:2602.23404)

层次关键对象常见入口典型风险防御基础
物理层传感器、执行器、电源、急停机身接口、环境文本、无线接触物理篡改、视觉诱导、定位欺骗机身防护、急停、地理围栏
固件/OS 层驱动、容器、系统服务、更新包USB、SSH、OTA、维护终端固件篡改、后门更新、账户接管签名更新、最小镜像、账户分离
中间件层ROS2 节点、DDS 参与者、主题/服务/动作无线网络、局域网、云桥接未授权发布订阅、权限越界SROS2、证书、治理文件
模型与数据层感知模型、VLA、LLM、检索库图像、文本、语音、检索结果对抗样本、提示注入、数据污染数据来源标记、鲁棒评测
规划层任务分解、动作序列、约束规则自然语言任务、工具返回、记忆目标劫持、危险规划、长链漂移任务约束、动作白名单
执行与协作层低级控制器、操作员界面、云端编排网页、API、调度器控制信号篡改、审批绕过人类确认、速率限制

部署现状判断:现场防御大多集中在中间件通信层,感知层与操作员层防御仍偏实验室化——这是 2026 年具身智能安全的真实差距[来源 #1]

框架二:感知层四种风险形态

风险形态典型载体直接影响放大路径
视觉对抗彩色补丁、对抗纹理目标识别偏差、抓取点偏差规划器在错误世界模型上决策
物理提示注入物体文本、环境标牌模型将环境文本当控制信息语言规划被重定向
定位与感知欺骗定位信号干扰、地图污染路径规划错误、避障失败导航与回充链路失稳
操作员感知污染遥操作画面、AR 覆盖层人误判环境状态人机协作链同时失真

感知层既是输入层,也是整条推理链站在真实地面上的前提——这一层失守,上层规划再精确也是建在沙上[来源 #1]

框架三:语言接口危险的四个根因

  1. 目标定义功能:谁改变目标描述,谁就改变系统优化方向
  2. 任务翻译功能:LLM 把模糊任务翻译成动作序列,翻译过程是高价值攻击面
  3. 上下文混入:命令与数据(环境描述、工具结果、记忆摘要)边界容易漂移
  4. 直接执行链接:输出直接表现为动作计划、控制参数或工具调用

核心设计原则:语言理解权与动作执行权必须拆开。这是具身智能安全工程的第一性原则[来源 #1]

框架四:执行层四类失效模式

失效类型典型表现真实危害控制手段
显式危险任务接受对明显高危命令继续规划直接物理伤害拒绝策略、危险任务分类器、人类审批
情境风险漏检任务正常但环境条件危险误伤、过热、夹伤、碰撞世界状态检查、场景规则、约束规划
动作排序错误单个动作合理但组合危险堵塞通道、失稳、不可逆损坏时序约束、前置条件验证、回滚点
目标语义偏移指令理解偏差导致过度执行越界抓取、误导航任务分层确认、低速试探

执行层安全机制清单:高风险动作强制确认、可执行动作白名单、速度/力矩上限、前置条件检查、中间检查点、安全停机、人工接管、可回滚日志[来源 #1]

框架五:八方向防御策略

防御方向核心措施
身份与权限收敛SROS2、DDS-Security、证书、治理文件、权限文件;最小权限、权限分离
供应链与更新治理模型/容器/驱动/OTA 全链路管控,验来源也验内容
感知输入来源标记环境图像、工具输出、系统规则、人工指令、长期记忆分来源进上下文
任务级动作约束可执行动作集合、最大速度、最大力矩、关键区域禁入由硬约束决定
运行时监控定位异常、感知不一致、连续重规划、动作抖动、人机冲突等异常检测
人类确认与接管高风险动作、人身接近、跨安全区操作、不可逆动作设明确确认路径
审计证据闭环留存任务输入、世界状态、动作序列、中间决策、执行结果、人工介入记录
分阶段放量离线评测 → 仿真 → 硬件在环 → 受限场景试运行 → 广域部署

优先级:先收敛基础攻击面(链路、权限、更新),再处理感知层和语言层,最后用执行层硬约束兜底[来源 #1]

框架六:工程纪律优先级(不可跳过的基础)

LLM 进场不意味着基础可以跳过。无线链路不分段、OTA 不验内容、权限边界模糊、节点关系不透明——这些会直接把任何上层防御拖回脆弱状态。

安全短板往往在最常规的系统工程纪律上,不在提示词[来源 #1]

案例库

案例 A:VLA 对抗补丁让任务成功率归零(ICCV 2025)

  • 背景:ICCV 2025 论文研究 VLA 模型对物理对抗补丁的鲁棒性
  • 做法:设计可放入摄像头视野的小型彩色补丁
  • 结果:在仿真机器人任务上,任务成功率下降最高达 100%。对抗样本影响不是分类误差,而是机械臂轨迹、抓取位置、动作时序整体偏离
  • 启发:感知层对抗的伤害不止是"识别错"——是把整条规划链建立在错误的世界模型上。视觉鲁棒性必须纳入具身智能产品的核心质量指标[来源 #1]

案例 B:物理环境提示注入 98% 成功率(arXiv:2601.17383)

  • 背景:黑盒条件下测试 10 个先进 LVLM
  • 做法:仅通过环境中的可见物体和排版文本影响模型
  • 结果攻击成功率最高 98%,在距离、视角、照明变化下仍具鲁棒性
  • 启发:物理世界中的标识牌、标签、屏幕文案都可能变成指令通道——具身智能部署的物理环境本身就是攻击面,传统的"输入净化"在物理世界根本管不到[来源 #1]

案例 C:移动机器人提示注入与防御(arXiv:2408.03515)

  • 背景:GPT-4o 整合进移动机器人导航系统
  • 做法:测试不同提示注入攻击及防御机制
  • 结果:防御机制改进后攻击检测性能提升约 30.8%
  • 启发提示层软约束仍需执行层硬约束兜底——光做语义层防御不够,必须配合执行层的动作白名单和速度限制[来源 #1]

案例 D:LLM 规划 Agent 攻击 87.5% 平均成功率(arXiv:2601.13612)

  • 背景:自适应提示优化框架攻击 LLM 规划 Agent
  • 结果平均攻击成功率 87.5%(室内规划 Agent 75%,室外 100%)
  • 启发:室外场景成功率达 100% 的事实意味着——一旦进入复杂物理环境,纯语言层防御几乎完全失效。这与上一个案例的结论一致:执行层硬约束是最后兜底[来源 #1]

案例 E:危险任务拒绝率仅 10%(arXiv:2412.13178)

  • 背景:具身 LLM 安全基准测试,10 类危险任务
  • 结果最具安全意识的基线对细粒度危险任务拒绝率仅 10%,替换驱动模型不能明显改善
  • 启发:把安全希望寄托在"模型自觉拒绝"是错误的。10% 拒绝率意味着 90% 的危险任务会被继续规划——必须在执行层加硬约束[来源 #1]

案例 F:Safe-Align 自然危险行为(arXiv:2504.14650)

  • 背景:Safe-Align 2027 个日常任务覆盖 8 类危险
  • 关键发现即便无攻击者,具身系统也会自然产生危险行为
  • 结果:安全改进 8.55%~15.22%
  • 启发:具身智能安全不只防恶意攻击——正常使用下系统就会自然失效。这与传统软件"无攻击则安全"的假设根本不同[来源 #1]

关键洞察

  1. 具身智能安全是跨层系统问题,三条线必须同时压进同一条闭环:机器人网络安全(控制链接管)+ 模型安全(输入操纵与对齐失效)+ 功能安全(危险动作阻断)。任何一条线缺位都构成裸奔——只做模型对齐不防控制链接管,只做功能安全不防感知污染,都是不完整的[来源 #1]

  2. 感知层和操作员层防御偏实验室化是 2026 年的真实差距:现场部署的防御大多集中在中间件通信层(SROS2、证书、治理文件),但感知层(视觉对抗、物理提示注入)和操作员层(遥操作画面污染)的工程化防御严重缺位——这是产品机会,也是事故风险[来源 #1]

  3. 核心设计原则:语言理解权与动作执行权必须拆开:语言模型给出候选计划,但高风险动作是否执行由策略引擎、状态约束、人类确认和中间件权限共同决定。这是具身智能安全工程的第一性原则——只要这两权没拆开,上层任何防御都可能被绕过[来源 #1]

  4. 不要把安全希望寄托在模型自觉拒绝:arXiv:2412.13178 显示最佳基线对细粒度危险任务拒绝率仅 10%,替换驱动模型不能明显改善。这意味着架构层的硬约束(动作白名单、速度上限、前置条件)才是唯一可靠兜底,而非依赖 RLHF 提升模型对齐度[来源 #1]

  5. 安全短板往往在最常规的工程纪律上,不在提示词:LLM 进场不意味着基础可以跳过。无线链路不分段、OTA 不验内容、权限边界模糊、节点关系不透明——这些会直接把任何上层防御拖回脆弱状态。具身智能创业者的"安全债"清单第一项不是大模型护栏,而是基础工程纪律[来源 #1]

  6. CVSS 不适用于机器人是产品级问题:arXiv:1807.10357 论证 CVSS 无法表达机器人漏洞严重性——一条普通软件中危漏洞在具身系统中可能因控制对象和物理作用范围被放大成直接人身风险。这意味着具身智能产品需要重新设计漏洞分级体系,不能直接套用通用 CVE/CVSS[来源 #1]

  7. 正常使用下系统就会自然产生危险行为:Safe-Align 数据卡显示即便无攻击者,2027 个日常任务中也会自然出现危险行为。这与传统软件"无攻击则安全"的假设根本不同——具身智能的安全测试必须包含"良性输入下的故障注入",不能只测对抗输入[来源 #1]

观点张力

  • 执行层硬约束 vs 模型对齐:硬约束派主张"动作白名单 + 速度/力矩上限 + 前置条件检查"是唯一可靠兜底;模型对齐派(Safe-Align 等)主张通过对齐训练让模型自觉拒绝危险任务。10% 拒绝率的实证数据让 2026 年的工程实践明显倾向硬约束派,但模型对齐仍是成本更低的第一道筛子[来源 #1]

  • 感知层防御工程化 vs 学术化:当前感知层防御的所有领先成果(VLA 鲁棒性、物理提示注入检测)都还在 ICCV/arXiv 论文阶段,工业部署几乎没有。这造就两难——等待学术成果工程化要 2-3 年,但具身智能产品已在量产;提前下场做"实验室级"防御产品则商业化困难[来源 #1]

  • 集中式编排 vs 分布式自治:云端编排(中心化决策)vs 边缘自主(分布式智能体)。中心化更易审计和拦截,但实时性受网络限制;分布式响应快但安全治理碎片化。2026 年没有定论——工业巡检倾向中心化,家用机器人倾向分布式[来源 #1]

待探索问题

  • VLA 对抗补丁的工业级防御方案——是通过数据增强训练鲁棒模型,还是在感知预处理阶段做物理签名验证(类似图像水印反向应用)?
  • 物理提示注入的检测产品形态——是否会出现专门的"环境扫描器",在机器人启动前扫描视野内是否存在恶意文本/图案?
  • ROS2 / SROS2 的部署率到底有多少?工业现场实际启用证书和治理文件的比例?这是判断"基础工程纪律"差距的关键指标
  • 具身 LLM 的"良性危险行为"如何系统化测试?Safe-Align 的 2027 任务集是否会演化为行业基准?
  • 多机器人协同(Multi-Embodied Agent)场景下的安全治理——单机器人六层模型是否需要扩展到"群体层"?
  • 人机协作中的"操作员感知污染"防御——AR 覆盖层和遥操作画面被篡改的检测方案?
  • 具身智能产品的漏洞分级体系——是否会出现"机器人版 CVSS",把物理影响、控制范围、不可逆性纳入计分维度?
  • LLM 规划 Agent 在室外场景 100% 攻击成功率的应对——是否需要对室外部署做特殊的工程加固清单?

来源索引

#标题来源收录日期贡献章节
1具身智能安全入门:六层攻击面与感知语言执行三层防御体系个人笔记整理(含 10 篇 arXiv 关键论文索引)2026-04-13全部章节

注:原始单笔记已于 2026-05-18 路由整合后归并删除,本文档为唯一沉淀载体。

关键论文索引(arXiv 编号):

论文核心贡献
arXiv:2412.13178具身 LLM 安全基准,10 类危险,最佳基线拒绝率仅 10%
arXiv:2602.23404具身系统六层风险分类,感知层防御偏实验室化
arXiv:1912.11299机器人漏洞数据库,110 个机器人漏洞
arXiv:1807.10357CVSS 不适用于机器人,物理影响放大效应
ICCV 2025 VLA 论文VLA 对抗补丁,任务成功率下降最高 100%
arXiv:2601.17383物理环境提示注入,攻击成功率最高 98%
arXiv:2408.03515GPT-4o 移动机器人提示注入与防御测试
arXiv:2601.13612LLM 规划 Agent 攻击,平均成功率 87.5%
arXiv:2407.20242具身 LLM 越狱,针对动作规划空间构造
arXiv:2504.14650Safe-Align,日常任务自然危险行为对齐

关联方向

  • 姐妹方向:《AI 系统安全攻防体系》(docs/01-认知/技术认知/05-AI与Agent/05-AI安全/AI系统安全攻防体系.md——其中"架构安全(隔离/检测/熔断/冗余)"在具身场景下被具体化为"动作白名单 + 速度/力矩上限 + 人类接管"。可解释性这一杠杆在具身场景下尤其重要——动作的物理后果不可逆。
  • 姐妹方向:《Agent 安全工程》(docs/01-认知/技术认知/05-AI与Agent/05-AI安全/Agent安全工程.md——其中"AEGIS 预执行拦截"是具身智能"执行层硬约束"的工程化对应;"语言理解权与动作执行权拆开"在 Agent 工具调用场景下也成立。
  • 方向待探索:本方向单源构建,1 篇笔记成方向较单薄。后续应补入 ICCV 2025 VLA 论文原文、Safe-Align 论文原文、SROS2 工程实践案例等专题来源,沉淀到 v0.2/v1.0 版本。

演进记录

日期版本变更摘要
2026-05-18v0.1首次构建,由 /route-knowledge 路由分析触发。1 篇来源(含 10 篇 arXiv 论文索引),沉淀 6 个方法论框架、6 个案例、7 条关键洞察、3 组观点张力、8 个待探索问题。后续需补充专题来源以扩展为完整方向

MIT License