Skip to content

Computer Use Harness 工程与产品策略

方向定位:聚焦 Computer Use(CU)/ Browser Use Agent 的 Harness 工程特有问题——分辨率与坐标系管理、模型选型矩阵、Thinking effort 调优、Teach Mode 示教回放、Batch 工具、上下文管理三层架构、安全防御、调试工具链。CU Agent 的 Harness 与通用 Coding Agent Harness 的核心差异在于:输入是截图流(图片模态)、输出是坐标+动作(物理操作)、上下文膨胀速度远超文本对话。 当前版本:v0.1 首次构建:2026-05-20 最近更新:2026-05-20 来源数:1 篇(Anthropic "Best practices for computer and browser use with Claude" 2026-05-13)

方向定位

本方向研究的核心问题是:"Computer Use Agent 的 Harness 层有哪些特有的工程挑战和产品设计决策?"

与本目录其他文件的边界

CU Harness 与通用 Agent Harness 的三大差异

维度通用 Agent HarnessCU Agent Harness
输入模态文本为主(代码、文档、API 返回)截图流为主(每步一张图 ≈ 1,000-1,800 token)
输出形态文本/代码/API 调用坐标 + 物理动作(click/type/scroll)
上下文膨胀速度线性累积,可控指数级——100 步即可填满 200K window

核心概念

1. 分辨率与坐标系管理

CU Agent 的"点击准确性"是一切下游工作流的基础——点不准,表单填不了、按钮按不到、流程走不通。

API 内部分辨率限制

模型家族最大长边最大总像素超限处理
Claude 4.6 family1568 px1.15 MP静默降采样
Opus 4.72576 px3.75 MP静默降采样

静默降采样是 CU 点击不准的首要原因:当截图超过 API 限制时,API 内部会降采样后再给模型看,但返回的坐标仍在 display_width_px / display_height_px 指定的坐标空间中——模型基于降质图片做判断,坐标却对应原始分辨率,导致系统性偏移。

推荐分辨率

  • 4.6 family 默认起步:1280×720(用 80% 像素预算,训练时常见分辨率)
  • Opus 4.7 默认起步:1080p(在 3.75MP 预算内,质量显著优于 720p)
  • 进阶:compute_max_api_fit() 按源图宽高比计算最大 API 适配分辨率

坐标缩放公式(截图缩放后必须反向映射):

screen_x = api_returned_x × (screen_w / display_w)
screen_y = api_returned_y × (screen_h / display_h)

macOS 陷阱:macOS 截图默认 device pixel ratio = 2,实际截图分辨率是屏幕坐标的 2 倍——不处理会导致所有点击偏移一半。

2. 内容排序规则

消息数组中 text 在前、image 在后 可提升点击准确率——让模型在处理截图前就知道要找什么。

3. 模型选型矩阵(CU 场景)

模型优势推荐场景
Sonnet 4.6机械点击精度最高、对重度降采样最鲁棒、成本最低默认起步、简单工作流、高吞吐
Opus 4.7推理更强、分辨率预算更大(3.75MP)、low effort 即强高难度/高分辨率/复杂决策
Haiku 4.5延迟最低延迟优先场景

进阶模式:Orchestrator + Sub-agent——推理模型做规划和决策,Sonnet/Haiku 做机械点击执行。这与 Advisor Tool 的服务端实现是同源思想。

4. Thinking Effort 调优

CU 任务主要是感知和机械操作而非深度逻辑推理,thinking effort 对成本/质量的影响曲线与常规任务不同。

Opus 4.7 推荐:默认 high(接近 max 成功率,token 仅为 max 的约一半) 4.6 family 推荐:默认 medium(与 high 在重试后收敛到相同成功率,token 仅为一半)

关键数据:Opus 4.7 low effort 在 OSWorld 基准上得分 ≈ Sonnet 4.6 max effort,但 token 消耗仅为后者的 ~1/10。

5. Teach Mode(示教回放)

核心思想:用工作流录制代替文字指令——人类做一遍 → 系统录制每步截图+动作+选择器+坐标+视口尺寸 → Agent 回放。

WorkflowStep 数据模型:action / selector / coordinates / screenshot / viewport_dimensions / description

三种回放模式:Strict(严格复现)/ Adaptive(允许路径偏差)/ Goal-oriented(仅参考目标,自主规划)

6. Batch 工具

computer_batch / browser_batch 允许在单次 API 往返中执行多个动作——减少网络延迟,适合确定性操作序列(如表单填写)。

7. 上下文管理三层架构

策略触发条件
L1Cache breakpoints + 预降采样每轮
L2Rolling buffer(keep_n=3, interval=25)截图累积
L3LLM-based Compaction(8 段结构化 prompt)input token ≈ 150K

服务端 Compaction beta:compact-2026-01-12——服务端自动执行摘要,客户端无需自行实现。

8. Zoom 能力

enable_zoom: True 让模型在点击前先放大特定区域检查——解决小目标(checkbox、toggle、系统托盘图标)点击不准的问题。

方法论与框架

框架一:CU 点击不准诊断表

症状可能原因解法
点击系统性偏移display 尺寸与实际发送图片不匹配 / 超限被静默降采样 / 内容排序错误确保 display 尺寸精确匹配缩放后截图 / 预降采样 / text 在 image 前
点击大致正确但偏差目标太小 / 4K+ 源图降采样丢细节 / 宽高比失真启用 zoom / 降低源 DPI / 保持原始宽高比
点错元素指令歧义 / 相似元素干扰 / UI 过于复杂更具体的 prompt(含位置描述)/ 拆分步骤 / 提供页面布局上下文
全面不准截图超 API 限制 / 4K+ 极端压缩 / 分辨率过低预降采样至限制内 / 用 1280×720 作基线 / 4.6 family 用 Sonnet(对降采样更鲁棒)

框架二:CU 产品安全部署 4 条底线

  1. Human-in-the-loop 常驻(不可逆操作永远不允许自动批准)
  2. 权限范围最小化(限制可访问应用/网站/目录)
  3. 操作日志全程记录(截图+动作+时间戳,不可篡改)
  4. 网页内容视为不可信(所有浏览器获取内容统一视为外部不可信输入)

框架三:CU 成本优化决策树

任务是否需要深度推理?
  ├─ 否 → Sonnet 4.6 + medium effort(成本最低)
  ├─ 是 → Opus 4.7 + high effort(推理+精度平衡)
  └─ 不确定 → Sonnet 执行 + Opus advisor(Advisor Tool 模式)

任务是否支持重试?
  ├─ 是 → 4.6 family medium effort(重试后收敛到 high 同等成功率)
  └─ 否 → 4.6 family high / Opus 4.7 high(必须首次成功)

关键洞察

  1. 预降采样是 CU 最高 ROI 的单一优化:所有其他优化(prompt 改进、zoom、batch)的前提是点击准确——而点击准确的首要保障是截图不被 API 静默降采样。一行代码的改动(预缩放到 1280×720)比任何 prompt 优化都有效。

  2. CU 的上下文膨胀速度使其成为 Harness 工程的"极端工况":每步一张截图 ≈ 1,000-1,800 token,100 步填满 200K window。通用 Agent 的上下文管理策略(如"超过 60% 触发压缩")在 CU 场景下需要更激进的参数——CU 是 Harness 上下文管理能力的压力测试。

  3. Teach Mode 是"上下文工程"的极致形态:用截图序列+结构化标注取代自然语言指令,消除指令歧义。这证明"给 Agent 看什么"比"给 Agent 说什么"更重要——与 Harness 概念体系中"Context Engineering > Prompt Engineering"的范式跃迁一致。

  4. CU 安全风险从"数据层"升级到"操作层":传统 Agent 安全关注数据泄漏/越权访问,CU Agent 的风险是物理操作不可逆(删文件、发邮件、提交表单)。安全防线必须从"拦截 API 调用"升级到"拦截屏幕操作"。

  5. Advisor Tool 是 CU 场景的最优成本效益模型组合:Sonnet 4.6 负责机械点击(精度高、成本低),Opus 4.7 负责决策判断(推理强、按需介入)——单次 API 请求内完成,零额外网络往返。

待探索问题

  • CU Agent 在移动端(iOS/Android)的适配——屏幕尺寸、触摸 vs 点击、手势操作的坐标映射差异?
  • Teach Mode 的示教录制在 UI 频繁变更的产品中如何保持有效性?Adaptive 模式的"自适应"边界在哪?
  • CU Agent 的操作日志如何与企业 SIEM/SOAR 系统集成?是否需要专门的"CU 操作审计"产品品类?
  • 多 CU Agent 并行操作同一桌面/浏览器时的冲突解决机制?
  • 服务端 Compaction beta GA 后,是否会出现"CU 专用上下文管理 API"?

来源索引

#标题来源收录日期贡献章节
1Best practices for computer and browser use with ClaudeAnthropic 官方博客2026-05-13全文

关联方向

演进记录

日期版本变更摘要
2026-05-20v0.1首次构建,由 /route-knowledge-pm 路由触发。来源:Anthropic "Best practices for computer and browser use with Claude"(2026-05-13)。覆盖分辨率/坐标系管理、模型选型矩阵、Thinking effort 调优、Teach Mode 示教回放、Batch 工具、上下文管理三层架构、安全防御、点击诊断表、成本优化决策树。定位为 CU/Browser Use 场景特有的 Harness 工程问题集中沉淀。

MIT License