검색
회원가입로그인

SuperCoder2.0 - SWE-bench-lite 상위 5위에 든 유일한 오픈 소스 에이전틱 시스템

  • 제목: "SuperCoder2.0 - the only open-source agentic system to rank in top 5 of SWE-bench-lite"

  • 최근 대형 언어 모델(LLMs)을 이용한 다중 에이전트 시스템의 사용 증가

  • GPT-4o와 Sonnet-3.5를 활용해 독립적인 소프트웨어 개발에 유망한 결과 도출

  • SWE-Bench-Lite 벤치마크에서 300개의 문제 중 101개를 통과, 성능 점수 34% 달성

  • 벤치마크 목적: 기능적 버그 수정 능력 평가

  • 도커화를 이용해 재현 가능한 평가 환경 구축

문제 해결 접근법:

  • 코드 검색: 문제 진술에 대한 관련 코드 섹션 식별
  • 코드 생성: 식별된 코드 섹션 기반 패치 생성 및 검증

SuperCoder 구조:

  1. 코드 검색

    • 초기 코드베이스 탐색 및 메타데이터 수집
    • 벡터 데이터베이스 사용하여 메타데이터 저장 및 검색
    • 문제 진술 분석 및 RAG 기반 쿼리 생성
    • 파일 스키마를 사용해 검색 공간 축소
    • 상위 K개 파일 식별하여 다음 단계로 이동
  2. 코드 생성

    • PlannerAgent가 버그 위치 식별 및 코드 수정 결정
    • 코드 생성을 통해 전체 메서드 본문 교체 방식 채택
    • AST 모듈 사용하여 매끄러운 코드 교체
    • 피드백 루프를 통해 테스트 케이스 실패 시 지속적 개선

테스트 분포 및 성과:

  • Django: 데이터셋의 38% (114 인스턴스) 차지
  • SuperCoder2.0: 300개 중 101개 해결, 성과율 34%
  • Django: 46개 경우 해결 (45.5%)
  • Seaborn 인스턴스 모두 해결

결론 및 향후 작업

  • RAG 기반 검색과 파일 스키마 사용으로 좋은 성과
  • 파일 및 메서드 현지화 개선 필요
  • 문제 진술에 따른 버그 위치 식별 과제
  • 현실 세계 문제에서의 유연한 대처 필요
  • 시작점으로서의 가치, 추가 연구 및 개선 가능성

4superagi.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기