결정론적 검사기로 대체한 Evaluator-Optimizer

TL;DR

Anthropic의 Evaluator-Optimizer 패턴에서 보통 LLM이 맡는 평가자 자리를 결정론적·빠른·저렴한 E2E 테스트(Playwright)로 대체해 자가수정 루프를 돌리는 구조.

Anthropic ‘Building Effective Agents’의 Evaluator-Optimizer 패턴은 답을 만드는 쪽과 평가하는 쪽을 분리한다 [1].
이 발표는 평가자 자리를 LLM 대신 결정론적·빠른·저렴한 Playwright로 대체해, 에이전트가 코드 작성→테스트 실행→실패 분석→자가수정 루프를 돈다 [1].
Playwright의 Planner/Generator/Healer 3종 에이전트가 이 루프의 골격을 이루며, Healer는 trace를 분석해 실패를 자가수정한다 [1].