Hugging Face, DeepSeek의 AI 추론 모델을 오픈소스로 복제하는 Open-R1 프로젝트 시작
Open-R1 프로젝트란?
Open-R1 프로젝트는 DeepSeek의 R1 모델을 완전히 오픈소스로 복제하고자 하는 Hugging Face의 야심찬 시도입니다. 이 프로젝트는 모든 구성 요소를 공개하여 누구나 R1 모델을 복제하고 개선할 수 있도록 돕는 것을 목표로 합니다. Hugging Face의 연구 책임자 Leandro von Werra와 엔지니어 Elie Bakouch가 이끄는 팀은 Hugging Face의 Science Cluster를 활용하여 이 프로젝트를 진행하고 있습니다.
r1은 오픈소스이지만 훈련에 사용한 데이터셋과 코드는 공개되지 않았습니다.
프로젝트 목표
Open-R1 프로젝트는 크게 세 가지 단계로 나누어 진행됩니다:
R1-Distill 모델 복제: DeepSeek-R1에서 고품질 코퍼스를 증류(distillation)하여 새로운 R1-Distill 모델을 생성합니다.
순수 강화학습 파이프라인 구축: 강화학습(RL) 기반으로 R1-Zero 시스템을 복제하고, 이를 바탕으로 대규모 데이터셋을 큐레이션하여 고도화된 추론 및 코딩 작업을 수행합니다.
멀티스테이지 학습: 기본 모델에서 시작하여 강화학습을 통해 튜닝된 최종 모델로 전환하는 과정을 실현합니다.
Open-R1 프로젝트의 중요성
협력과 참여
Open-R1 프로젝트는 단순히 Hugging Face 내부의 노력에 그치지 않습니다. GitHub와 동일한 플랫폼에서 커뮤니티의 도움을 받고 있으며, 프로젝트 시작 3일 만에 1만 개의 스타를 얻을 만큼 큰 관심을 받고 있습니다. 연구자와 개발자들은 프로젝트에 기여하여 공동으로 문제를 해결하고, 새로운 알고리즘과 기술을 테스트하며 혁신을 추구할 수 있습니다.
기술적 세부 사항
Open-R1 프로젝트는 주로 Python을 사용하여 개발되었으며, Shell과 Makefile로 보조 스크립트를 작성합니다. 사용자는 Conda와 같은 도구를 사용하여 환경을 설정하고, PyTorch와 vLLM과 같은 종속성을 설치해야 합니다. 프로젝트는 멀티-GPU 설정을 최적화하여 높은 성능을 발휘할 수 있도록 자세한 설치 지침을 제공합니다.
모델 학습 및 평가
Open-R1은 Supervised Fine-Tuning(SFT)을 포함한 다양한 기법으로 모델을 최적화하기 위한 스크립트를 제공합니다. 강력한 하드웨어 설정에서 최적의 성능을 달성하기 위해 H100 GPU 클러스터와 같은 장비를 활용합니다. 튜닝된 모델은 R1 벤치마크를 통해 성능을 검증하고, 이를 통해 모델의 효과를 실증합니다.
합성 데이터 생성
프로젝트는 Distilabel과 같은 도구를 사용하여 고품질의 합성 데이터를 생성합니다. 이를 통해 수학적 추론 및 코드 생성 작업에서 우수한 성능을 발휘하는 모델을 학습시킬 수 있습니다.
결론
Hugging Face의 Open-R1 프로젝트는 AI 모델 개발에 있어 투명성과 협력의 중요성을 강조하는 혁신적인 시도입니다. 이 프로젝트는 누구나 접근할 수 있도록 모든 구성 요소를 공개하여 AI 연구 커뮤니티가 협력하고 발전할 수 있는 기반을 마련합니다. 앞으로도 Open-R1 프로젝트는 AI 분야에서 더 나은 모델 개발을 위한 중요한 발판이 될 것입니다.
참고
![카카오로 공유하기](/images/kakao-share.png)
![페이스북 공유하기](/images/facebook-share.png)
![url 복사하기](/images/link-share.png)