DeepSeek R1-Zero - 강화 학습만을 통해 개발된 추론 모델
DeepSeek R1-Zero
DeepSeek R1-Zero는 강화 학습을 통해 개발된 추론 모델로, 다양한 추론 과제를 효과적으로 해결하는 AI 모델입니다. 이 글에서는 DeepSeek R1-Zero의 기본 개념, 기능 및 성능 결과 등을 살펴보겠습니다.
소개
DeepSeek R1-Zero는 중국의 AI 스타트업 DeepSeek에서 개발한 첫 번째 세대 추론 모델입니다. 이는 대규모 강화 학습(Reinforcement Learning, RL)만을 사용하여 교육되었으며, 별도의 감독 학습(Supervised Fine-Tuning, SFT) 단계 없이 여러 강력하고 흥미로운 추론 능력을 자연스럽게 습득했습니다. 이러한 접근법은 추론을 필요로 하는 문제 해결에서 중요한 기반을 제공합니다.
모델 요약
강화 학습 후 처리
DeepSeek R1-Zero는 기본 모델에 강화 학습만을 적용하여 개발되었습니다. 이를 통해 모델은 자체 검증, 반성(Reflection), 긴 Chain-of-Thought(CoT)를 생성하는 능력을 포함한 다양한 추론 패턴을 습득했습니다. 특히, 이 모델은 SFT 없이도 강화 학습만으로 대규모 언어 모델(LLM)의 추론 능력이 개선될 수 있음을 최초로 입증한 공개 연구입니다.
장애와 개선
DeepSeek R1-Zero는 무한 반복, 가독성 저하, 언어 혼용 등의 문제를 겪었으며, 이러한 문제를 해결하기 위해 깊은 강화 학습 외에도 추가적인 SFT 단계를 적용한 DeepSeek-R1이 개발되었습니다. DeepSeek-R1은 추가적인 전처리 데이터를 포함하여 더 나은 추론 성능을 제공하며, OpenAI의 o1 시스템과 비교해 수학, 코드, 일반 추론 작업에서 경쟁력 있는 성능을 달성했습니다.
모델 구조
DeepSeek R1-Zero는 DeepSeek V3-Base 모델을 기반으로 하며, 총 671B의 파라미터를 가지고 있습니다. 활성화된 파라미터는 37B이며, 컨텍스트 길이는 128K입니다. 이 모델은 특히 추론 벤치마크에서 우수한 성능을 보였으며, 여러 언어 및 코딩과 관련된 과제에서도 높은 점수를 기록했습니다.
평가 결과
성능 평가
DeepSeek R1-Zero는 수학, 코드, 추론 작업에서 여러 벤치마크를 통해 성능이 평가되었습니다. 예를 들어 MMLU에서는 88.3%, AIME 2024 수학 테스트에서는 79.8%, LiveCodeBench에서는 57.2%의 높은 정확도를 기록했습니다. 이는 다른 주요 AI 모델들과 비교했을 때 우수한 성능을 나타냅니다.
비용 절감
DeepSeek R1-Zero는 높은 성능을 제공하면서도 비용 면에서도 효율적입니다. OpenAI o1 모델이 백만 입력 토큰당 $15, 백만 출력 토큰당 $60 인 반면, DeepSeek Reasoner는 백만 입력 토큰당 $0.55, 백만 출력 토큰당 $2.19로 90-95% 저렴한 비용을 자랑합니다.
결론
DeepSeek R1-Zero는 AI 추론 모델 분야에서 중요한 전진을 나타내며, 특히 강화 학습을 통해 놀라운 성과를 보여주었습니다. 이 모델의 성공은 향후 추론 기반 AI의 발전에 큰 기여를 할 것으로 기대됩니다. DeepSeek의 혁신적인 접근법은 AI 연구 커뮤니티와 산업 전반에 걸쳐 더 나은 모델 개발을 촉진할 것입니다.