Claude 3가 챗봇 아레나에서 GPT-4를 제치고 가장 인기 있는 사용자 평가 모델이 되다.
요약
- 클로드 3 오퍼스가 LMSys Chatbot Arena Leaderboard에서 GPT-4를 이기며 1위를 차지했습니다.
- 이 챗봇 아레나는 대형 모델 시스템 조직(LMSYS ORG)에 의해 운영되며, 사용자는 모델을 모르는 상태에서 투표합니다.
- GPT-4 발표 약 1년 만에 다른 언어 모델이 처음으로 GPT-4를 이긴 사례로, 중간 모델 소넷과 작은 버전 하이쿠의 성과도 주목 받았습니다.
클로드 3 오퍼스가 챗봇 아레나 리더보드에서 1위가 되었습니다.
LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys
GPT-4를 간소한 점수차로 이겼네요. 33250표를 얻었었군요.
이 챗봇 아레나는 https://chat.lmsys.org 에서 운영하는 벤치마크 서비스로 무작위로 선정된 모델을 사용자가 어떤 모델인지 모르는 상태에서 사용해 보고 가장 마음에 드는 답변을 위해 투표하는 방식입니다.
GPT-4 발표 약 1년만에 다른 언어 모델이 처음으로 GPT-4를 이긴 첫번째 사례라고 합니다.
그런데 놀라운건 중간 모델인 소넷이 Gemini Pro에 근접하고 GPT-4-0314 버전을 이겼네요.
그리고 가장 작은 버전인 하이쿠도 GPT-4-0314와 같은 순위를 차지했다는 점이 놀랍습니다. 비용 차이가 꽤 날텐데 말이죠.
참고로 챗봇 아레나는 캘리포니아 대학교 버클리, UC 샌디에이고, 카네기 멜론 대학교의 학생과 교수진 간의 협력으로 운영되는 대형 모델 시스템 조직(LMSYS ORG : Large Model Systems Organization)에 의해 되는 사용자 평가 시스템입니다.
공유하기
조회수 : 1188