검색
검색
공개 노트 검색
회원가입로그인

Aider 벤치마크 LLM 순위: 코드 편집 및 리팩토링 성능 비교 분석

Aider 벤치마크

에이더 벤치마크는 aider 라는 코드 편집 도구에서의 LLM 모델들의 코딩 성능을 측정한 지표이다. 꽤 유명한 벤치마크이다.

Aider LLM Leaderboards

코드 에디팅 리더보드

- Aider의 코드 편집 벤치마크는 LLM(대형 언어 모델)에게 파이썬 소스 파일을 편집하게 해서 133개의 작은 코딩 연습 문제를 완료하게 한다.

- 이는 LLM의 코딩 능력과 기존 코드에 새 코드를 통합할 수 있는지를 측정한다.

- 모델은 모든 변경 사항을 사람의 개입 없이 소스 파일에 성공적으로 적용해야 한다.

ModelPercent completed correctlyPercent using correct edit formatCommandEdit format
claude-3-5-sonnet-2024102284.2%99.2%aider --model anthropic/claude-3-5-sonnet-20241022diff
o1-preview79.7%93.2%aider --model o1-previewdiff
claude-3.5-sonnet-2024062077.4%99.2%aider --model claude-3.5-sonnet-20240620diff
claude-3-5-haiku-2024102275.2%95.5%aider --model anthropic/claude-3-5-haiku-20241022diff
Qwen2.5-Coder-32B-Instruct (whole)73.7%100.0%aider --model openai/Qwen2.5-Coder-32B-Instructwhole
DeepSeek Coder V2 0724 (deprecated)72.9%97.7%aider --model deepseek/deepseek-coderdiff
gpt-4o-2024-05-1372.9%96.2%aiderdiff
openai/chatgpt-4o-latest72.2%97.0%aider --model openai/chatgpt-4o-latestdiff
DeepSeek V2.572.2%96.2%aider --deepseekdiff
Qwen2.5-Coder-32B-Instruct (diff)71.4%94.7%aider --model openai/Qwen2.5-Coder-32B-Instructdiff
gpt-4o-2024-08-0671.4%98.5%aider --model openai/gpt-4o-2024-08-06diff
o1-mini (whole)70.7%90.0%aider --model o1-miniwhole
DeepSeek Chat V2 0628 (deprecated)69.9%97.7%aider --model deepseek/deepseek-chatdiff
Qwen2.5-Coder-14B-Instruct69.2%100.0%aider --model openai/Qwen2.5-Coder-14B-Instructwhole
claude-3-opus-2024022968.4%100.0%aider --opusdiff
gpt-4-061367.7%100.0%aider -4diff

여기에서 보면 claude 의 코드 편집 능력이 굉장히 좋은 것을 알 수 있다. 커서 등에서 클로드를 사용하면 능력치가 굉장히 좋아지는 원인이다. 클로드는 agentic coding 이라고 코딩을 단계별로 나눠서 수행할 수 있는 능력이 강화되었는데 이 때문이다.

그리고 o1 preview 가 2위를 차지했다.

새로 나온 qwen coder 2.5, gpt-4o의 순으로 성능이 측정되었다.

코드 리팩토링 능력

Aider 리팩토링 벤치마크

- Aider의 리팩토링 벤치마크는 LLM(대형 언어 모델)에게 큰 파이썬 클래스에서 89개의 큰 메서드를 리팩토링하게 한다.

- 이는 더 도전적인 벤치마크로, 모델이 긴 코드 조각을 건너뛰거나 실수 없이 출력할 수 있는 능력을 테스트한다.

ModelPercent completed correctlyPercent using correct edit formatCommandEdit format
claude-3-5-sonnet-2024102292.1%91.0%aider --sonnetdiff
o1-preview75.3%57.3%aider --model o1-previewdiff
claude-3-opus-2024022972.3%79.5%aider --opusdiff
claude-3.5-sonnet-2024062064.0%76.4%aider --sonnetdiff
gpt-4o62.9%53.9%aiderdiff
gpt-4-1106-preview50.6%39.3%aider --model gpt-4-1106-previewudiff
gpt-4o-2024-08-0649.4%89.9%aider --model openai/gpt-4o-2024-08-06diff
gemini/gemini-1.5-pro-latest49.4%7.9%aider --model gemini/gemini-1.5-pro-latestdiff-fenced
o1-mini44.9%29.2%aider --model o1-minidiff
gpt-4-turbo-2024-04-09 (udiff)34.1%30.7%aider --gpt-4-turboudiff
gpt-4-0125-preview33.7%47.2%aider --model gpt-4-0125-previewudiff
DeepSeek Coder V2 0724 (deprecated)32.6%59.6%aider --model deepseek/deepseek-coderdiff
DeepSeek Chat V2.531.5%67.4%aider --deepseekdiff
gpt-4-turbo-2024-04-09 (diff)21.4%6.8%aider --model gpt-4-turbo-2024-04-09diff

역시 클로드가 상위에 랭크되었다.

Aider 벤치마크 LLM 순위: 코드 편집 및 리팩토링 성능 비교 분석 image 1

  • 리팩토링은 많은 컨텍스트 토큰을 사용하기 때문에 여기에 포함될 수 있는 모델 수는 제한되어 있다.

  • diff 형식을 사용할 수 있는 모델이 더 적은 토큰을 사용하고 효율적이다.

  • Paul Gauthier 폴 고티에 작성, 마지막 업데이트 2024년 11월 11일.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 96
heart
T
페이지 기반 대답
AI Chat