Meta-Harness: End-to-End Optimization of Model Harnesses
Meta-Harness 是一个外循环系统,通过让 coding agent 自由访问文件系统中的完整历史(源代码、分数、执行轨迹),自动搜索和优化 LLM 应用的 harness 代码。相比仅使用压缩反馈的文本优化器,Meta-Harness 能实现更深层的因果推理和更高效的搜索。
来源: arXiv:2603.28052 — Lee, Nair, Zhang, Lee, Khattab, Finn (Stanford/MIT/KRAFTON), 2026
核心问题
LLM 系统的性能不仅取决于模型权重,还取决于其 harness——决定存储、检索和呈现什么信息给模型的代码。然而现有文本优化器(OPRO、TextGrad、AlphaEvolve、GEPA 等)对反馈压缩过于激进。Meta-Harness 的核心洞察是:更丰富的历史访问可以支持更好的 harness 工程。
关键设计:文件系统作为反馈通道
每个被评估的 harness 贡献一个目录,包含:
- 源代码
- 评估分数
- 执行轨迹(prompts、工具调用、模型输出、状态更新)
Proposer 通过 grep、cat 等终端工具选择性检查历史,而非将所有信息打包进单个 prompt。
与其他方法的对比
| 方法 | 历史访问 | 反馈内容 | 每迭代 MTok |
|---|---|---|---|
| OPRO | 窗口 | (解, 分数) 对 | 0.002 |
| TextGrad | 最后一个 | 当前工件的文本反馈 | 0.015 |
| AlphaEvolve | 窗口 | 程序数据库 + 分数 | 0.022 |
| GEPA | 摘要 | 反思反馈 | 0.008 |
| Meta-Harness | 完整 | 所有日志和分数 | 10.0 |
实验结果
在线文本分类
- 准确率比 ACE 提升 7.7 点,同时使用 4× 更少 的上下文 token
- 仅需 4 次评估即达到 OpenEvolve/TTT-Discover 的最终性能
检索增强数学推理
- 在 200 道 IMO 级别题目上,单个发现的 harness 在 5 个 held-out 模型上平均提升 4.7 点
Agentic Coding (TerminalBench-2)
- Opus 4.6 上达到 76.4%,超越手写的 Terminus-KIRA (74.7%)
- Haiku 4.5 上达到 37.6%,排名 #1
消融实验
| 条件 | 中位准确率 | 最佳准确率 |
|---|---|---|
| 仅分数 | 34.6 | 41.3 |
| 分数 + 摘要 | 34.9 | 38.7 |
| Meta-Harness (完整) | 50.0 | 56.7 |
关键发现:对原始执行轨迹的访问是最重要的因素,摘要无法恢复丢失的诊断信号。
Timeline
- 2026-03: 论文发表 arXiv:2603.28052
- 2026-04-13: 整理进 KB