MBPP LLM

대규모 언어 모델(LLM)을 평가하기 위한 다양한 벤치마크가 존재하며, 이에 따라 모델의 성능을 다양한 측면에서 측정할 수 있습니다. 그 중 하나로, MBPP (Mostly Basic Python Programming) 벤치마크는 초급 프로그래머를 위한 Python 코딩 문제를 활용하여 코드 생성 능력을 테스트합니다.

MBPP 벤치마크 개요

MBPP는 약 1,000개의 크라우드소싱된 Python 프로그래밍 문제로 구성되어 있습니다[3]. 각 문제는 문제 설명, 코드 솔루션, 그리고 세 가지 자동화된 테스트 케이스로 구성되어 있습니다. 이 벤치마크는 주로 초급 수준의 프로그래밍 기본 개념과 표준 라이브러리 기능을 포괄합니다.

MBPP의 중요한 업데이트: MBPP+

MBPP+는 EvalPlus 프로젝트의 일환으로, MBPP을 개선하여 더 정확하고 안정적인 평가를 가능하게 하고 있습니다. EvalPlus는 LLM4Code의 엄격한 평가 프레임워크로, 다음과 같은 특징을 갖고 있습니다[1]:

HumanEval+와 마찬가지로, MBPP+는 원본 MBPP의 35배에 달하는 테스트 케이스를 제공하며, 이를 통해 코드 생성의 신뢰성을 높입니다.
데이터셋이 자주 업데이트되어, 잘못된 테스트 케이스가 제거되고 새로운 테스트 케이스가 추가됩니다. 예를 들어, MBPP+ v0.2.0에서는 잘못된 테스트 케이스가 포함된 작업을 제거하여 399개의 문제로 데이터셋을 줄였습니다[1][2].

결론 및 전망

EvalPlus와 같은 엄격한 평가 프레임워크는 LLM의 코드 생성 능력을 더욱 신뢰성 있게 평가할 수 있도록 도와줍니다. 특히 MBPP+와 같은 향상된 벤치마크는 초급 수준에서 LLM의 실제적인 성능을 검증할 수 있는 중요한 도구로 자리잡고 있습니다. 이를 통해 다양한 LLM 모델들이 더 나은 코드 생성 능력을 갖추는 데 기여할 수 있을 것입니다.

참고 문헌

[1]. GitHub - evalplus/evalplus: LLM 합성 코드에 대한 엄격한 평가 - NeurIPS 2023

[2]. 출시 · evalplus/evalplus · 깃허브(GitHub)

[3]. MBPP 데이터 세트 | 코드가 있는 문서

LLM 에서 MBPP 란? 코딩 벤치마크

MBPP LLM

MBPP 벤치마크 개요

MBPP의 중요한 업데이트: MBPP+

결론 및 전망

참고 문헌