DeepSeek의 최신 R1-Zero 모델이 OpenAI의 o1과 추론 벤치마크에서 일치합니다.
- Chinese AI startup DeepSeek, OpenAI o1과 동일한 성능의 두 가지 새로운 AI 모델 출시
- 주 모델: DeepSeek-R1과 DeepSeek-R1-Zero, 그리고 여섯 가지 소형 오픈소스 버전도 함께 출시
- DeepSeek-R1-Zero는 인간 예제를 학습하지 않고 강화 학습(RL)만으로 추론 능력 개발
- 두 가지 검증 시스템 도입: 정확성 검증(수학 문제 비교, 코드 테스트) 및 정답 형식 검증
- 새로운 알고리즘 "Group Relative Policy Optimization (GRPO)" 사용, 개별 답변 대신 답변 그룹 비교
- DeepSeek-R1-Zero의 문제점: 읽기 어려운 답변, 언어 혼합 문제
- DeepSeek-R1은 초기 소량 데이터로 학습 후 여러 단계의 강화 학습 진행
- DeepSeek-R1 주요 성능: AIME 2024에서 79.8%, MATH-500에서 97.3% 점수
- 코드 포스에서 96.3%의 인간 참가자보다 뛰어난 성과
- DeepSeek는 671억 파라미터 모델 외에도 작은 모델(1.5억~700억 파라미터) 여섯 가지도 개발
- 32B와 70B 모델이 대부분의 테스트에서 OpenAI-o1-mini를 능가
- DeepSeek의 소형 모델, 주요 모델의 추론 패턴 성공적으로 포착
- R1의 일반 능력 및 함수 호출, 다중 대화, 복잡한 역할 수행 등 향상 계획
- 모델 사용 허가: MIT 라이선스 사용, 무료 이용 및 디스틸레이션 가능
- 모델 및 문서: GitHub와 HuggingFace에서 제공
- API를 통해 접근 가능, 가격: 100만 입력 토큰당 $0.14, 100만 출력 토큰당 $2.19
- 현실 테스트에서 DeepSeek-R1이 OpenAI o1을 실제로 능가할지 주목 필요
- 향후 출시될 DeepSeek 모델, OpenAI의 o3 모델과 경쟁 가능성 탐색
5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.