Deepseek의 R1 모델이 주요 업데이트 후 OpenAI 및 Google과의 격차를 좁히다.
- Deepseek는 R1 모델의 주요 업데이트를 통해 OpenAI와 구글에 가까운 성능을 갖추게 되었다.
- Deepseek-R1-0528 업데이트로 알고리즘 개선과 컴퓨팅 파워 증대가 이루어졌다.
- 모델의 추론 능력이 크게 향상되었으며, AIME 2025 수학 테스트에서 정확도가 70%에서 87.5%로 상승했다.
- JSON 출력 및 함수 호출 기능의 지원이 확대되었고 오류 감소를 달성하였다.
- 다양한 분야의 기준점에서 성능 개선을 보였다.
- AIME 2024: 정확도 79.8%에서 91.4%로 개선
- HMMT 2025: 41.7%에서 79.4%로 개선
- CNMO 2024: 78.8%에서 86.9%로 개선
- 프로그래밍 기준점에서도 성능이 향상되었다.
- LiveCodeBench: 63.5%에서 73.3%로 상승
- Aider-Polyglot: 53.3%에서 71.6%로 상승
- SWE Verified: 49.2%에서 57.6%로 상승
- 모델의 일반적인 지식 및 논리 작업 성능 향상도 확인되었다.
- GPQA-Diamond: 71.5%에서 81.0%로 상승
- Humanity's Last Exam: 8.5%에서 17.7%로 상승
- MMLU-Pro: 84.0%에서 85.0%로 소폭 상승
- MMLU-Redux: 92.9%에서 93.4%로 소폭 상승
- OpenAI의 SimpleQA: 30.1%에서 27.8%로 약간 감소
- 독립적인 리뷰는 개선된 성능을 뒷받침하였다.
- 인공지능 지수에서 Deepseek-R1-0528은 68로 평가되어 이전 60보다 상승한 점수를 기록하였다.
- 강화 학습을 통한 포스트 트레이닝 증가가 성능 개선의 주요 원인으로 지목되었다.
- Deepseek-R1-0528은 MIT 라이센스 하에 출시되며, 오픈 소스 모델로 상업적 프로젝트에 활용 가능하다.
- 텐서 사용량 증대로 모델이 더욱 길고 상세한 응답을 생성할 수 있게 되었다.
- Deepseek-R1-0528-Qwen3-8B는 알리바바의 Qwen3 8B를 기반으로 향상된 소형 모델을 제공한다.
- 이 모델은 AIME 2024에서 86%의 점수를 기록하며, NVIDIA H100에서 효율적으로 실행될 수 있도록 설계되었다.
4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.