검색
검색
공개 노트 검색
회원가입로그인

딥식(DeepSeek) 논문 쉽게 이해하기

딥식에서 발표한 논문 "DeepSeek-R1: 강화 학습을 통해 LLM의 추론 능력 향상"을 바탕으로 핵심 내용을 쉽게 정리하겠습니다. 이 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화 학습(Reinforcement Learning, RL)을 통해 향상시키는 방법에 초점을 맞추고 있으며, 지도 학습(Supervised Fine-Tuning, SFT) 없이도 강력한 추론 능력을 얻을 수 있음을 보여줍니다.

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

핵심 아이디어 및 주요 성과

  1. DeepSeek-R1-Zero: 지도 학습 없이 순수 강화 학습만으로 모델의 추론 능력을 향상시킨 첫 번째 사례입니다. 이는 기존의 연구들이 지도 학습에 크게 의존한 것과 대조적입니다.

  2. 강화 학습 알고리즘: GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 학습 비용을 줄이고, 그룹 점수에서 기준선을 추정합니다.

  3. 보상 모델: 정확성 보상과 형식 보상을 결합하여 모델이 특정 형식(예: <think> 사고 과정 </think> <answer> 최종 답변 </answer>)에 따라 추론하고 답변하도록 유도합니다.

  4. 자기 진화 과정: 모델이 학습 과정에서 스스로 사고 시간을 늘리고, 반성하며, 다양한 문제 해결 방식을 탐색하는 등 복잡한 행동을 보입니다. 이를 통해 모델은 '아하!' 모멘트와 같이 문제 해결 접근 방식을 재평가하는 흥미로운 현상을 경험합니다.

  5. DeepSeek-R1: DeepSeek-R1-Zero의 단점을 개선하기 위해 콜드 스타트 데이터를 도입하여 성능을 더욱 향상시킵니다.

  6. 콜드 스타트: 양질의 추론 데이터를 소량 수집하여 모델을 사전 학습시키고, 이를 RL 학습의 시작점으로 활용합니다.

  7. 다단계 학습: 콜드 스타트 데이터로 사전 학습 후, 추론 중심 RL을 수행하고, 이를 바탕으로 학습 데이터를 생성해 모델을 재학습시킵니다. 그 후, RL 학습을 계속 진행하여 성능을 높입니다.

  8. 언어 일관성: RL 학습 과정에서 CoT(Chain-of-Thought)의 목표 언어 단어 비율을 보상에 반영하여 언어 혼합 문제를 완화합니다.

  9. 지식 증류: DeepSeek-R1의 추론 능력을 작은 모델로 증류하여 뛰어난 성능을 달성하였습니다. 작은 모델에서도 큰 모델 못지않은 성능을 보입니다.

  10. 직접 증류: DeepSeek-R1을 사용하여 Qwen 및 Llama 시리즈 모델을 fine-tuning 하여 성능을 향상시킵니다.

  11. 성능 향상: 증류된 작은 모델들은 기존 오픈 소스 모델을 능가하며, OpenAI의 o1-mini 모델에 필적하는 성능을 보입니다. 또한, 강화 학습을 추가하면 성능이 더욱 향상됩니다.

  12. 강화 학습 vs. 증류: 실험 결과, 더 큰 모델에서 발견한 추론 패턴을 작은 모델로 증류하는 것이, 작은 모델에 대규모 RL 학습을 적용하는 것보다 더 효율적이며 뛰어난 성능을 보입니다.

평가 결과 요약

  • 추론 능력: DeepSeek-R1은 AIME 2024에서 79.8% Pass@1 점수를 기록해 OpenAI-o1-1217을 약간 능가하며, MATH-500에서 97.3%의 점수를 얻어 다른 모델들을 앞섭니다. 또한, Codeforces에서 96.3%의 참가자보다 높은 점수를 기록하며 전문가 수준의 실력을 보여줍니다.

  • 지식: MMLU, MMLU-Pro, GPQA Diamond와 같은 지식 평가에서 DeepSeek-R1은 DeepSeek-V3를 크게 능가하는 성과를 보였지만, OpenAI-o1-1217에는 약간 못 미칩니다.

  • 다양한 작업: 창의적인 글쓰기, 일반적인 질의응답, 편집, 요약 등에서 뛰어난 성능을 보여주며, 비시험 중심의 질의에 강한 성능을 보입니다.

  • 작은 모델 성능: 증류된 7B 모델(DeepSeek-R1-Distill-Qwen-7B)은 GPT-4o-0513을 능가하며, 14B 모델(DeepSeek-R1-Distill-Qwen-14B)은 QwQ-32B-Preview를 모든 평가 지표에서 능가합니다. 또한 32B 및 70B 모델은 대부분의 벤치마크에서 o1-mini를 능가하는 결과를 보여줍니다.

추가 연구 방향

  1. 일반 능력: 함수 호출, 다중 턴 대화, 복잡한 역할극, JSON 출력 등에서 DeepSeek-V3보다 성능이 떨어지는 부분을 개선할 계획입니다.

  2. 언어 혼합: 현재 모델이 영어와 중국어에 최적화되어 있기 때문에 다른 언어 질의에서 발생할 수 있는 언어 혼합 문제를 해결할 연구가 필요합니다.

  3. 프롬프트 엔지니어링: 제로샷 설정을 사용하여 문제를 직접 설명하고 출력 형식을 지정하는 것이 중요합니다.

  4. 소프트웨어 엔지니어링: 소프트웨어 엔지니어링 작업에서 RL 학습을 개선하기 위해 거부 샘플링 또는 비동기 평가를 도입할 계획입니다.

결론

딥식의 연구는 강화 학습이 대규모 언어 모델의 추론 능력을 향상시키는 효과적인 방법임을 보여주며, 지도 학습 없이도 모델이 스스로 추론 능력을 발전시킬 수 있음을 입증하였습니다. 또한, 지식 증류를 통해 작은 모델에서도 뛰어난 성능을 얻을 수 있음을 보이며, 더 효율적이고 접근 가능한 인공지능 모델 개발 가능성을 열었습니다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 252
heart
T
페이지 기반 대답
AI Chat