DeepSeek V3 - 671B GPT-4o 급 오픈소스 모델 등장
DeepSeek V3
개요
딥시크(DeepSeek) AI 회사는 2024년 12월 26일 초대형 오픈 소스 AI 모델인 DeepSeek V3을 출시했습니다. DeepSeek V3은 6710억 개의 매개변수를 가지고 있으며, Mixture-of-Experts (MoE) 아키텍처를 통해 각 토큰마다 370억 개의 매개변수가 활성화됩니다. 이 모델은 다양한 텍스트 기반 작업을 처리하며, 업계 선두 모델을 능가하는 성능을 자랑하고 있습니다.
모델 개요
DeepSeek V3은 이전 버전인 V2 아키텍처를 기반으로, Multi-head Latent Attention (MLA) 및 DeepSeekMoE로 구성되어 있습니다. DeepSeek V3은 다음과 같은 주요 특징을 가지고 있습니다:
매개변수 및 아키텍처: 총 6710억 개의 매개변수를 가지고 있으며, 각 토큰마다 370억 개의 매개변수가 활성화됩니다. 이 아키텍처는 MLA 및 DeepSeekMoE를 통해 효율적인 훈련 및 추론을 보장합니다.
다중 토큰 예측 (MTP): 모델이 여러 미래 토큰을 동시에 예측할 수 있게 하여, 훈련 효율성을 향상시키고 초당 60개의 토큰을 생성할 수 있습니다.
보조 손실 없는 부하 균형 전략: 모델 성능을 저하시키지 않으면서 전문가의 부하를 동적으로 조절하고 균형을 유지합니다.
생성 속도: 이전 버전보다 세 배 빠른 속도로 초당 60개의 토큰을 생성합니다.
훈련 데이터: 고품질의 14.8조 개의 데이터를 사용하여 모델을 훈련하였습니다.
성능
GPT-4o-0513 버전보다 좋은 성능을 기록했습니다. 일반적인 클로드 3.5 소넷보다는 조금 낮네요. 하지만 수학이나 코드에서는 다른 모델들보다 좋은 성능을 보여줍니다.
훈련 과정 및 비용
DeepSeek V3의 훈련은 다양한 하드웨어 및 알고리즘 최적화를 통해 이루어졌습니다. FP8 혼합 정밀도 훈련 프레임워크와 DualPipe 알고리즘을 채택하여 파이프라인 병렬 처리를 통해 훈련 비용을 대폭 절감하였습니다. 전체 훈련은 278만 8000개의 H800 GPU 시간을 소요하였으며, 훈련 비용은 약 557.6만 달러입니다. 그럼에도 불구하고 표준 벤치마크 테스트에서 뛰어난 성능을 기록했습니다.
주요 성능 결과
DeepSeek V3는 여러 주요 벤치마크에서 우수한 성능을 나타내었습니다:
코딩 및 수학 벤치마크: HumanEval에서 82.6%, Math 500에서 90.2%를 기록, Meta의 Llama 3.1 405B와 공상적 모델인 Claude 3.5 Sonnet을 능가하는 성적을 내었습니다.
다중 언어 지원 및 기타 벤치마크: 여러 언어와 다양한 작업을 수행할 수 있으며, 대부분의 벤치마크에서 우수한 성능을 보입니다.
모델 다운로드 및 실행
DeepSeek V3는 GitHub 및 Hugging Face에서 다운로드할 수 있으며, 다양한 오픈 소스 커뮤니티와 협력하여 로컬 환경에서도 실행할 수 있도록 지원합니다. FP8 및 BF16 추론 모드를 지원하며, 필요에 따라 BF16 가중치로 변환할 수 있는 스크립트도 제공합니다.
라이선스 및 시상금
라이선스: MIT 라이선스로 제공되며, 상업적 사용을 포함한 다양한 용도로 사용 가능합니다.
저렴한 API 가격: 2025년 2월 8일까지 DeepSeek V2와 동일한 가격으로 제공됩니다. 그 이후로는 입력 토큰당 $0.27/백만, 출력 토큰당 $1.10/백만의 가격으로 제공됩니다.
결론
gpt-4o 급 강력한 오픈소스 모델이 등장했네요. 일반 LLM의 능력이 상향 평준화되고 o3 같은 고급 모델이 비싸짐에 따라 오픈소스가 다시 각광을 받을 가능성이 있습니다.