Meta-Harness: End-to-End Optimization of Model Harnesses

最后更新：2026-04-15

Meta-Harness 是一个外循环系统，通过让 coding agent 自由访问文件系统中的完整历史（源代码、分数、执行轨迹），自动搜索和优化 LLM 应用的 harness 代码。相比仅使用压缩反馈的文本优化器，Meta-Harness 能实现更深层的因果推理和更高效的搜索。

来源: arXiv:2603.28052 — Lee, Nair, Zhang, Lee, Khattab, Finn (Stanford/MIT/KRAFTON), 2026

核心问题

LLM 系统的性能不仅取决于模型权重，还取决于其 harness——决定存储、检索和呈现什么信息给模型的代码。然而现有文本优化器（OPRO、TextGrad、AlphaEvolve、GEPA 等）对反馈压缩过于激进。Meta-Harness 的核心洞察是：更丰富的历史访问可以支持更好的 harness 工程。

关键设计：文件系统作为反馈通道

每个被评估的 harness 贡献一个目录，包含：

源代码
评估分数
执行轨迹（prompts、工具调用、模型输出、状态更新）

Proposer 通过 grep、cat 等终端工具选择性检查历史，而非将所有信息打包进单个 prompt。

与其他方法的对比

方法	历史访问	反馈内容	每迭代 MTok
OPRO	窗口	(解, 分数) 对	0.002
TextGrad	最后一个	当前工件的文本反馈	0.015
AlphaEvolve	窗口	程序数据库 + 分数	0.022
GEPA	摘要	反思反馈	0.008
Meta-Harness	完整	所有日志和分数	10.0

实验结果

在线文本分类

准确率比 ACE 提升 7.7 点，同时使用 4× 更少 的上下文 token
仅需 4 次评估即达到 OpenEvolve/TTT-Discover 的最终性能

检索增强数学推理

在 200 道 IMO 级别题目上，单个发现的 harness 在 5 个 held-out 模型上平均提升 4.7 点

Agentic Coding (TerminalBench-2)

Opus 4.6 上达到 76.4%，超越手写的 Terminus-KIRA (74.7%)
Haiku 4.5 上达到 37.6%，排名 #1

消融实验

条件	中位准确率	最佳准确率
仅分数	34.6	41.3
分数 + 摘要	34.9	38.7
Meta-Harness (完整)	50.0	56.7

关键发现：对原始执行轨迹的访问是最重要的因素，摘要无法恢复丢失的诊断信号。

Timeline

2026-03: 论文发表 arXiv:2603.28052
2026-04-13: 整理进 KB