장시간 실행 에이전트를 위한 효과적인 하네스
- AI 에이전트가 점점 더 강력해짐에 따라, 개발자들은 여러 시간 혹은 며칠 동안에 걸쳐 지속적인 작업이 필요한 복잡한 작업을 맡기고 있습니다.
- 장기 실행 에이전트의 주요 과제는 세션이 분리되어 있으며, 각 새로운 세션은 이전 작업에 대한 기억이 없다는 점입니다.
- 두 가지 솔루션이 Claude Agent SDK를 효과적으로 작동하도록 개발되었습니다: 초기화 에이전트와 코딩 에이전트입니다.
- 초기화 에이전트는 첫 실행에서 환경을 설정하고, 코딩 에이전트는 각 세션에서 점진적으로 작업을 진행하며 명확한 결과물을 남깁니다.
- 기존의 컨텍스트 압축 관리 기능은 충분하지 않으며, 에이전트가 너무 많은 작업을 한번에 시도하거나 프로젝트 완료를 너무 일찍 선언하는 문제가 발생했습니다.
- 문제 해결을 위해, 초기화 에이전트는 사용자 프롬프트를 기반으로 포괄적인 기능 요구 사항 파일을 작성하고, 코딩 에이전트는 점진적으로 하나씩 기능을 구현하도록 조정되었습니다.
- 코딩 에이전트는 환경을 깨끗한 상태로 유지해야 하며, 이를 위해 git 기록과 진척 파일을 활용하여 작업 진행도를 문서화하고 잘못된 코드를 되돌릴 수 있도록 합니다.
- 테스트에서 Claude는 엔드 투 엔드 검증을 수행하지 않아 기능이 완전히 구현되지 않는 경향이 있었으나, 명시적으로 브라우저 자동화 도구를 사용하여 개선되었습니다.
- 이러한 접근방식은 에이전트가 세션 시작 시 작업 상태를 빠르게 파악하고, 오류를 수정하며 새로운 기능 구현을 이어갈 수 있도록 돕습니다.
- 미래 연구 방향으로, 단일 목적의 코딩 에이전트와 다중 에이전트 아키텍처 중 어느 쪽이 더 효과적인지 연구할 필요가 있으며, 다른 분야에의 적용 가능성도 검토될 예정입니다.
3anthropic.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
