SuperCoder2.0 - SWE-bench-lite 상위 5위에 든 유일한 오픈 소스 에이전틱 시스템

2024-08-18

제목: "SuperCoder2.0 - the only open-source agentic system to rank in top 5 of SWE-bench-lite"
최근 대형 언어 모델(LLMs)을 이용한 다중 에이전트 시스템의 사용 증가
GPT-4o와 Sonnet-3.5를 활용해 독립적인 소프트웨어 개발에 유망한 결과 도출
SWE-Bench-Lite 벤치마크에서 300개의 문제 중 101개를 통과, 성능 점수 34% 달성
벤치마크 목적: 기능적 버그 수정 능력 평가
도커화를 이용해 재현 가능한 평가 환경 구축

문제 해결 접근법:

SuperCoder 구조:

코드 검색
- 초기 코드베이스 탐색 및 메타데이터 수집
- 벡터 데이터베이스 사용하여 메타데이터 저장 및 검색
- 문제 진술 분석 및 RAG 기반 쿼리 생성
- 파일 스키마를 사용해 검색 공간 축소
- 상위 K개 파일 식별하여 다음 단계로 이동
코드 생성
- PlannerAgent가 버그 위치 식별 및 코드 수정 결정
- 코드 생성을 통해 전체 메서드 본문 교체 방식 채택
- AST 모듈 사용하여 매끄러운 코드 교체
- 피드백 루프를 통해 테스트 케이스 실패 시 지속적 개선

테스트 분포 및 성과:

결론 및 향후 작업

4superagi.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.