TL;DR

미첼 하시모토가 명명한 개념으로, ‘에이전트가 실수할 때마다 그 실수가 다시 반복되지 않도록 하는’ 모델 가중치 외부의 모든 것(AGENTS.md·MCP/스킬·LLM 위키·자동화 테스트)을 설계하는 일.

출처별 관점

research/2026-06-17-ai-agent-playwright-e2e-test-harness

  • 미첼 하시모토는 하네스 엔지니어링을 ‘에이전트가 실수할 때마다 그 실수가 다시는 반복되지 않도록 하는 것’이자 ‘모델 가중치 외부의 모든 것’으로 정의한다 [1].
  • 구성요소는 AGENTS.md(지침), MCP·스킬(도구), LLM 위키(도메인 지식), lint·자동화 테스트(검증 도구)이며, E2E 테스트는 이 중 ‘검증’ 슬롯을 채운다 [1].
  • 검증이 코드 생성보다 새 병목이 되었고(Boris Cherny: ‘에이전트에게 자기 작업을 검증할 수단을 줘라’), 하네스는 그 수단을 제공하는 환경이다 [1].
  • 하네스는 한 번 짜고 끝나는 게 아니라 모델·도메인이 진화하면 ‘모양을 바꾸며 함께 자라는’ 시스템이다 [1].

관련 개념