Computer Use Harness 工程与产品策略

方向定位：聚焦 Computer Use（CU）/ Browser Use Agent 的 Harness 工程特有问题——分辨率与坐标系管理、模型选型矩阵、Thinking effort 调优、Teach Mode 示教回放、Batch 工具、上下文管理三层架构、安全防御、调试工具链。CU Agent 的 Harness 与通用 Coding Agent Harness 的核心差异在于：输入是截图流（图片模态）、输出是坐标+动作（物理操作）、上下文膨胀速度远超文本对话。当前版本：v0.1 首次构建：2026-05-20 最近更新：2026-05-20 来源数：1 篇（Anthropic "Best practices for computer and browser use with Claude" 2026-05-13）

方向定位

本方向研究的核心问题是："Computer Use Agent 的 Harness 层有哪些特有的工程挑战和产品设计决策？"

与本目录其他文件的边界：

不重复 Harness 通用概念（→ Harness概念架构与Coding工程实践）
不重复通用失效模式理论（→ Harness失效模式与演化方向）
不重复 Token 降本通用策略（→ Token计费与降本工程）
聚焦 CU/Browser Use 场景特有的 Harness 工程问题

CU Harness 与通用 Agent Harness 的三大差异：

维度	通用 Agent Harness	CU Agent Harness
输入模态	文本为主（代码、文档、API 返回）	截图流为主（每步一张图 ≈ 1,000-1,800 token）
输出形态	文本/代码/API 调用	坐标 + 物理动作（click/type/scroll）
上下文膨胀速度	线性累积，可控	指数级——100 步即可填满 200K window

核心概念

1. 分辨率与坐标系管理

CU Agent 的"点击准确性"是一切下游工作流的基础——点不准，表单填不了、按钮按不到、流程走不通。

API 内部分辨率限制：

模型家族	最大长边	最大总像素	超限处理
Claude 4.6 family	1568 px	1.15 MP	静默降采样
Opus 4.7	2576 px	3.75 MP	静默降采样

静默降采样是 CU 点击不准的首要原因：当截图超过 API 限制时，API 内部会降采样后再给模型看，但返回的坐标仍在 display_width_px / display_height_px 指定的坐标空间中——模型基于降质图片做判断，坐标却对应原始分辨率，导致系统性偏移。

推荐分辨率：

4.6 family 默认起步：1280×720（用 80% 像素预算，训练时常见分辨率）
Opus 4.7 默认起步：1080p（在 3.75MP 预算内，质量显著优于 720p）
进阶：compute_max_api_fit() 按源图宽高比计算最大 API 适配分辨率

坐标缩放公式（截图缩放后必须反向映射）：

screen_x = api_returned_x × (screen_w / display_w)
screen_y = api_returned_y × (screen_h / display_h)

macOS 陷阱：macOS 截图默认 device pixel ratio = 2，实际截图分辨率是屏幕坐标的 2 倍——不处理会导致所有点击偏移一半。

2. 内容排序规则

消息数组中 text 在前、image 在后 可提升点击准确率——让模型在处理截图前就知道要找什么。

3. 模型选型矩阵（CU 场景）

模型	优势	推荐场景
Sonnet 4.6	机械点击精度最高、对重度降采样最鲁棒、成本最低	默认起步、简单工作流、高吞吐
Opus 4.7	推理更强、分辨率预算更大（3.75MP）、low effort 即强	高难度/高分辨率/复杂决策
Haiku 4.5	延迟最低	延迟优先场景

进阶模式：Orchestrator + Sub-agent——推理模型做规划和决策，Sonnet/Haiku 做机械点击执行。这与 Advisor Tool 的服务端实现是同源思想。

4. Thinking Effort 调优

CU 任务主要是感知和机械操作而非深度逻辑推理，thinking effort 对成本/质量的影响曲线与常规任务不同。

Opus 4.7 推荐：默认 high（接近 max 成功率，token 仅为 max 的约一半） 4.6 family 推荐：默认 medium（与 high 在重试后收敛到相同成功率，token 仅为一半）

关键数据：Opus 4.7 low effort 在 OSWorld 基准上得分 ≈ Sonnet 4.6 max effort，但 token 消耗仅为后者的 ~1/10。

5. Teach Mode（示教回放）

核心思想：用工作流录制代替文字指令——人类做一遍 → 系统录制每步截图+动作+选择器+坐标+视口尺寸 → Agent 回放。

WorkflowStep 数据模型：action / selector / coordinates / screenshot / viewport_dimensions / description

三种回放模式：Strict（严格复现）/ Adaptive（允许路径偏差）/ Goal-oriented（仅参考目标，自主规划）

6. Batch 工具

computer_batch / browser_batch 允许在单次 API 往返中执行多个动作——减少网络延迟，适合确定性操作序列（如表单填写）。

7. 上下文管理三层架构

层	策略	触发条件
L1	Cache breakpoints + 预降采样	每轮
L2	Rolling buffer（keep_n=3, interval=25）	截图累积
L3	LLM-based Compaction（8 段结构化 prompt）	input token ≈ 150K

服务端 Compaction beta：compact-2026-01-12——服务端自动执行摘要，客户端无需自行实现。

8. Zoom 能力

enable_zoom: True 让模型在点击前先放大特定区域检查——解决小目标（checkbox、toggle、系统托盘图标）点击不准的问题。

方法论与框架

框架一：CU 点击不准诊断表

症状	可能原因	解法
点击系统性偏移	display 尺寸与实际发送图片不匹配 / 超限被静默降采样 / 内容排序错误	确保 display 尺寸精确匹配缩放后截图 / 预降采样 / text 在 image 前
点击大致正确但偏差	目标太小 / 4K+ 源图降采样丢细节 / 宽高比失真	启用 zoom / 降低源 DPI / 保持原始宽高比
点错元素	指令歧义 / 相似元素干扰 / UI 过于复杂	更具体的 prompt（含位置描述）/ 拆分步骤 / 提供页面布局上下文
全面不准	截图超 API 限制 / 4K+ 极端压缩 / 分辨率过低	预降采样至限制内 / 用 1280×720 作基线 / 4.6 family 用 Sonnet（对降采样更鲁棒）

框架二：CU 产品安全部署 4 条底线

Human-in-the-loop 常驻（不可逆操作永远不允许自动批准）
权限范围最小化（限制可访问应用/网站/目录）
操作日志全程记录（截图+动作+时间戳，不可篡改）
网页内容视为不可信（所有浏览器获取内容统一视为外部不可信输入）

框架三：CU 成本优化决策树

任务是否需要深度推理？
  ├─ 否 → Sonnet 4.6 + medium effort（成本最低）
  ├─ 是 → Opus 4.7 + high effort（推理+精度平衡）
  └─ 不确定 → Sonnet 执行 + Opus advisor（Advisor Tool 模式）

任务是否支持重试？
  ├─ 是 → 4.6 family medium effort（重试后收敛到 high 同等成功率）
  └─ 否 → 4.6 family high / Opus 4.7 high（必须首次成功）

关键洞察

预降采样是 CU 最高 ROI 的单一优化：所有其他优化（prompt 改进、zoom、batch）的前提是点击准确——而点击准确的首要保障是截图不被 API 静默降采样。一行代码的改动（预缩放到 1280×720）比任何 prompt 优化都有效。
CU 的上下文膨胀速度使其成为 Harness 工程的"极端工况"：每步一张截图 ≈ 1,000-1,800 token，100 步填满 200K window。通用 Agent 的上下文管理策略（如"超过 60% 触发压缩"）在 CU 场景下需要更激进的参数——CU 是 Harness 上下文管理能力的压力测试。
Teach Mode 是"上下文工程"的极致形态：用截图序列+结构化标注取代自然语言指令，消除指令歧义。这证明"给 Agent 看什么"比"给 Agent 说什么"更重要——与 Harness 概念体系中"Context Engineering > Prompt Engineering"的范式跃迁一致。
CU 安全风险从"数据层"升级到"操作层"：传统 Agent 安全关注数据泄漏/越权访问，CU Agent 的风险是物理操作不可逆（删文件、发邮件、提交表单）。安全防线必须从"拦截 API 调用"升级到"拦截屏幕操作"。
Advisor Tool 是 CU 场景的最优成本效益模型组合：Sonnet 4.6 负责机械点击（精度高、成本低），Opus 4.7 负责决策判断（推理强、按需介入）——单次 API 请求内完成，零额外网络往返。

待探索问题

CU Agent 在移动端（iOS/Android）的适配——屏幕尺寸、触摸 vs 点击、手势操作的坐标映射差异？
Teach Mode 的示教录制在 UI 频繁变更的产品中如何保持有效性？Adaptive 模式的"自适应"边界在哪？
CU Agent 的操作日志如何与企业 SIEM/SOAR 系统集成？是否需要专门的"CU 操作审计"产品品类？
多 CU Agent 并行操作同一桌面/浏览器时的冲突解决机制？
服务端 Compaction beta GA 后，是否会出现"CU 专用上下文管理 API"？

来源索引

#	标题	来源	收录日期	贡献章节
1	Best practices for computer and browser use with Claude	Anthropic 官方博客	2026-05-13	全文

关联方向

Harness概念架构与Coding工程实践：CU Harness 是通用 Harness 六层架构在"截图流+物理操作"场景的特化
Harness失效模式与演化方向：CU 的 Context Anxiety 是该方向 §1.2.1 的极端工况实证；CU Compaction 是 §2.4 的场景特化
Token计费与降本工程：CU 截图 token 消耗数据在 §1.2；CU 三层降本策略在 §5.1；Thinking effort 在 §5.9
Agent安全工程：CU 安全部署 4 条最佳实践在框架十；CU Prompt Injection 三层防御在案例 G
Agent架构与协作模式：Advisor Tool 作为 Orchestrator-Worker 服务端变体在概念 4
Agent设计哲学与决策框架：Teach Mode 设计哲学在 §1.13；Advisor Tool API 细节在 §2.11

演进记录

日期	版本	变更摘要
2026-05-20	v0.1	首次构建，由 /route-knowledge-pm 路由触发。来源：Anthropic "Best practices for computer and browser use with Claude"（2026-05-13）。覆盖分辨率/坐标系管理、模型选型矩阵、Thinking effort 调优、Teach Mode 示教回放、Batch 工具、上下文管理三层架构、安全防御、点击诊断表、成本优化决策树。定位为 CU/Browser Use 场景特有的 Harness 工程问题集中沉淀。

思维模型

认知方法论

学科模型

职场与成长

05-AI与Agent

00-基础学科

01-Agent核心

02-Harness工程

03-RAG系统

04-成本与效能

05-AI安全

06-战略与前沿

Computer Use Harness 工程与产品策略

方向定位

核心概念

1. 分辨率与坐标系管理

2. 内容排序规则

3. 模型选型矩阵（CU 场景）

4. Thinking Effort 调优

5. Teach Mode（示教回放）

6. Batch 工具

7. 上下文管理三层架构

8. Zoom 能力

方法论与框架

框架一：CU 点击不准诊断表

框架二：CU 产品安全部署 4 条底线

框架三：CU 成本优化决策树

关键洞察

待探索问题

来源索引

关联方向

演进记录

认知方法论

学科模型

职场与成长

00-基础学科

01-Agent核心

02-Harness工程

03-RAG系统

04-成本与效能

05-AI安全

06-战略与前沿

Computer Use Harness 工程与产品策略 ​

方向定位 ​

核心概念 ​

1. 分辨率与坐标系管理 ​

2. 内容排序规则 ​

3. 模型选型矩阵（CU 场景） ​

4. Thinking Effort 调优 ​

5. Teach Mode（示教回放） ​

6. Batch 工具 ​

7. 上下文管理三层架构 ​

8. Zoom 能力 ​

方法论与框架 ​

框架一：CU 点击不准诊断表 ​

框架二：CU 产品安全部署 4 条底线 ​

框架三：CU 成本优化决策树 ​

关键洞察 ​

待探索问题 ​

来源索引 ​

关联方向 ​

演进记录 ​

Computer Use Harness 工程与产品策略

方向定位

核心概念

1. 分辨率与坐标系管理

2. 内容排序规则

3. 模型选型矩阵（CU 场景）

4. Thinking Effort 调优

5. Teach Mode（示教回放）

6. Batch 工具

7. 上下文管理三层架构

8. Zoom 能力

方法论与框架

框架一：CU 点击不准诊断表

框架二：CU 产品安全部署 4 条底线

框架三：CU 成本优化决策树

关键洞察

待探索问题

来源索引

关联方向

演进记录