SuperCoder2.0 - SWE-bench-lite 상위 5위에 든 유일한 오픈 소스 에이전틱 시스템
-
제목: "SuperCoder2.0 - the only open-source agentic system to rank in top 5 of SWE-bench-lite"
-
최근 대형 언어 모델(LLMs)을 이용한 다중 에이전트 시스템의 사용 증가
-
GPT-4o와 Sonnet-3.5를 활용해 독립적인 소프트웨어 개발에 유망한 결과 도출
-
SWE-Bench-Lite 벤치마크에서 300개의 문제 중 101개를 통과, 성능 점수 34% 달성
-
벤치마크 목적: 기능적 버그 수정 능력 평가
-
도커화를 이용해 재현 가능한 평가 환경 구축
문제 해결 접근법:
- 코드 검색: 문제 진술에 대한 관련 코드 섹션 식별
- 코드 생성: 식별된 코드 섹션 기반 패치 생성 및 검증
SuperCoder 구조:
-
코드 검색
- 초기 코드베이스 탐색 및 메타데이터 수집
- 벡터 데이터베이스 사용하여 메타데이터 저장 및 검색
- 문제 진술 분석 및 RAG 기반 쿼리 생성
- 파일 스키마를 사용해 검색 공간 축소
- 상위 K개 파일 식별하여 다음 단계로 이동
-
코드 생성
- PlannerAgent가 버그 위치 식별 및 코드 수정 결정
- 코드 생성을 통해 전체 메서드 본문 교체 방식 채택
- AST 모듈 사용하여 매끄러운 코드 교체
- 피드백 루프를 통해 테스트 케이스 실패 시 지속적 개선
테스트 분포 및 성과:
- Django: 데이터셋의 38% (114 인스턴스) 차지
- SuperCoder2.0: 300개 중 101개 해결, 성과율 34%
- Django: 46개 경우 해결 (45.5%)
- Seaborn 인스턴스 모두 해결
결론 및 향후 작업
- RAG 기반 검색과 파일 스키마 사용으로 좋은 성과
- 파일 및 메서드 현지화 개선 필요
- 문제 진술에 따른 버그 위치 식별 과제
- 현실 세계 문제에서의 유연한 대처 필요
- 시작점으로서의 가치, 추가 연구 및 개선 가능성
4superagi.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.