Claude 3가 챗봇 아레나에서 GPT-4를 제치고 가장 인기 있는 사용자 평가 모델이 되다.

클로드 3 오퍼스가 챗봇 아레나 리더보드에서 1위가 되었습니다.

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

Claude 3가 챗봇 아레나에서 GPT-4를 제치고 가장 인기 있는 사용자 평가 모델이 되다. image 1

GPT-4를 간소한 점수차로 이겼네요. 33250표를 얻었었군요.

이 챗봇 아레나는 https://chat.lmsys.org 에서 운영하는 벤치마크 서비스로 무작위로 선정된 모델을 사용자가 어떤 모델인지 모르는 상태에서 사용해 보고 가장 마음에 드는 답변을 위해 투표하는 방식입니다.

GPT-4 발표 약 1년만에 다른 언어 모델이 처음으로 GPT-4를 이긴 첫번째 사례라고 합니다.

그런데 놀라운건 중간 모델인 소넷이 Gemini Pro에 근접하고 GPT-4-0314 버전을 이겼네요.

그리고 가장 작은 버전인 하이쿠도 GPT-4-0314와 같은 순위를 차지했다는 점이 놀랍습니다. 비용 차이가 꽤 날텐데 말이죠.

참고로 챗봇 아레나는 캘리포니아 대학교 버클리, UC 샌디에이고, 카네기 멜론 대학교의 학생과 교수진 간의 협력으로 운영되는 대형 모델 시스템 조직(LMSYS ORG : Large Model Systems Organization)에 의해 되는 사용자 평가 시스템입니다.