fanfei's blog

Meta-Harness: End-to-End Optimization of Model Harnesses

Meta-Harness 是一个外循环系统,通过让 coding agent 自由访问文件系统中的完整历史(源代码、分数、执行轨迹),自动搜索和优化 LLM 应用的 harness 代码。相比仅使用压缩反馈的文本优化器,Meta-Harness 能实现更深层的因果推理和更高效的搜索。

来源: arXiv:2603.28052 — Lee, Nair, Zhang, Lee, Khattab, Finn (Stanford/MIT/KRAFTON), 2026

核心问题

LLM 系统的性能不仅取决于模型权重,还取决于其 harness——决定存储、检索和呈现什么信息给模型的代码。然而现有文本优化器(OPRO、TextGrad、AlphaEvolve、GEPA 等)对反馈压缩过于激进。Meta-Harness 的核心洞察是:更丰富的历史访问可以支持更好的 harness 工程

关键设计:文件系统作为反馈通道

每个被评估的 harness 贡献一个目录,包含:

  • 源代码
  • 评估分数
  • 执行轨迹(prompts、工具调用、模型输出、状态更新)

Proposer 通过 grepcat 等终端工具选择性检查历史,而非将所有信息打包进单个 prompt。

与其他方法的对比

方法 历史访问 反馈内容 每迭代 MTok
OPRO 窗口 (解, 分数) 对 0.002
TextGrad 最后一个 当前工件的文本反馈 0.015
AlphaEvolve 窗口 程序数据库 + 分数 0.022
GEPA 摘要 反思反馈 0.008
Meta-Harness 完整 所有日志和分数 10.0

实验结果

在线文本分类

  • 准确率比 ACE 提升 7.7 点,同时使用 4× 更少 的上下文 token
  • 仅需 4 次评估即达到 OpenEvolve/TTT-Discover 的最终性能

检索增强数学推理

  • 在 200 道 IMO 级别题目上,单个发现的 harness 在 5 个 held-out 模型上平均提升 4.7 点

Agentic Coding (TerminalBench-2)

  • Opus 4.6 上达到 76.4%,超越手写的 Terminus-KIRA (74.7%)
  • Haiku 4.5 上达到 37.6%,排名 #1

消融实验

条件 中位准确率 最佳准确率
仅分数 34.6 41.3
分数 + 摘要 34.9 38.7
Meta-Harness (完整) 50.0 56.7

关键发现:对原始执行轨迹的访问是最重要的因素,摘要无法恢复丢失的诊断信号。


Timeline