AI news 검색

DeepSeek-R1

2025-01-20

DeepSeek-R1-Zero와 DeepSeek-R1, 첫 번째 세대의 추론 모델 도입
DeepSeek-R1-Zero는 대규모 강화 학습(RL)로만 훈련되고 인상적인 추론 성능을 보임
DeepSeek-R1-Zero는 무한 반복, 가독성 저하 및 언어 혼합 문제를 겪음
이러한 문제를 해결하기 위해 RL 전에 콜드 스타트 데이터를 사용한 DeepSeek-R1을 도입
DeepSeek-R1은 수학, 코드 및 추론 작업에서 OpenAI-o1과 유사한 성능을 보임
연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1 및 이로부터 증류된 6개의 모델을 오픈 소스로 제공
더 작은 모델로도 큰 모델의 추론 패턴을 증류하여 더 나은 성능을 실현할 수 있음을 입증
평가 결과, DeepSeek-R1 기반으로 미세 조정된 단일 밀집 모델이 다양한 벤치마크에서 우수한 성능을 보임
모든 모델 최대 생성 길이 32,768 토큰, 샘플링 온도 0.6, top-p 값 0.95 사용
API 및 채팅 플랫폼 제공, 로컬에서 실행하는 방법 안내
MIT 라이선스 하에 코드 및 모델 가중치 사용 허가
DeepSeek-R1-Distill 시리즈는 상업적 사용을 지원하고, Qwen 및 Llama에서 파생됨
문의 사항은 service@deepseek.com을 통해 연락 가능

4github.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기