검색
검색
공개 노트 검색
회원가입로그인

DeepSeek V3 - 671B GPT-4o 급 오픈소스 모델 등장

DeepSeek V3

개요

딥시크(DeepSeek) AI 회사는 2024년 12월 26일 초대형 오픈 소스 AI 모델인 DeepSeek V3을 출시했습니다. DeepSeek V3은 6710억 개의 매개변수를 가지고 있으며, Mixture-of-Experts (MoE) 아키텍처를 통해 각 토큰마다 370억 개의 매개변수가 활성화됩니다. 이 모델은 다양한 텍스트 기반 작업을 처리하며, 업계 선두 모델을 능가하는 성능을 자랑하고 있습니다.

모델 개요

DeepSeek V3은 이전 버전인 V2 아키텍처를 기반으로, Multi-head Latent Attention (MLA) 및 DeepSeekMoE로 구성되어 있습니다. DeepSeek V3은 다음과 같은 주요 특징을 가지고 있습니다:

  1. 매개변수 및 아키텍처: 총 6710억 개의 매개변수를 가지고 있으며, 각 토큰마다 370억 개의 매개변수가 활성화됩니다. 이 아키텍처는 MLA 및 DeepSeekMoE를 통해 효율적인 훈련 및 추론을 보장합니다.

  2. 다중 토큰 예측 (MTP): 모델이 여러 미래 토큰을 동시에 예측할 수 있게 하여, 훈련 효율성을 향상시키고 초당 60개의 토큰을 생성할 수 있습니다.

  3. 보조 손실 없는 부하 균형 전략: 모델 성능을 저하시키지 않으면서 전문가의 부하를 동적으로 조절하고 균형을 유지합니다.

  4. 생성 속도: 이전 버전보다 세 배 빠른 속도로 초당 60개의 토큰을 생성합니다.

  5. 훈련 데이터: 고품질의 14.8조 개의 데이터를 사용하여 모델을 훈련하였습니다.

성능

DeepSeek V3 - 671B GPT-4o 급 오픈소스 모델 등장 image 1

GPT-4o-0513 버전보다 좋은 성능을 기록했습니다. 일반적인 클로드 3.5 소넷보다는 조금 낮네요. 하지만 수학이나 코드에서는 다른 모델들보다 좋은 성능을 보여줍니다.

훈련 과정 및 비용

DeepSeek V3의 훈련은 다양한 하드웨어 및 알고리즘 최적화를 통해 이루어졌습니다. FP8 혼합 정밀도 훈련 프레임워크와 DualPipe 알고리즘을 채택하여 파이프라인 병렬 처리를 통해 훈련 비용을 대폭 절감하였습니다. 전체 훈련은 278만 8000개의 H800 GPU 시간을 소요하였으며, 훈련 비용은 약 557.6만 달러입니다. 그럼에도 불구하고 표준 벤치마크 테스트에서 뛰어난 성능을 기록했습니다.

주요 성능 결과

DeepSeek V3는 여러 주요 벤치마크에서 우수한 성능을 나타내었습니다:

  1. 코딩 및 수학 벤치마크: HumanEval에서 82.6%, Math 500에서 90.2%를 기록, Meta의 Llama 3.1 405B와 공상적 모델인 Claude 3.5 Sonnet을 능가하는 성적을 내었습니다.

  2. 다중 언어 지원 및 기타 벤치마크: 여러 언어와 다양한 작업을 수행할 수 있으며, 대부분의 벤치마크에서 우수한 성능을 보입니다.

모델 다운로드 및 실행

DeepSeek V3는 GitHub 및 Hugging Face에서 다운로드할 수 있으며, 다양한 오픈 소스 커뮤니티와 협력하여 로컬 환경에서도 실행할 수 있도록 지원합니다. FP8 및 BF16 추론 모드를 지원하며, 필요에 따라 BF16 가중치로 변환할 수 있는 스크립트도 제공합니다.

라이선스 및 시상금

  • 라이선스: MIT 라이선스로 제공되며, 상업적 사용을 포함한 다양한 용도로 사용 가능합니다.

  • 저렴한 API 가격: 2025년 2월 8일까지 DeepSeek V2와 동일한 가격으로 제공됩니다. 그 이후로는 입력 토큰당 $0.27/백만, 출력 토큰당 $1.10/백만의 가격으로 제공됩니다.

결론

gpt-4o 급 강력한 오픈소스 모델이 등장했네요. 일반 LLM의 능력이 상향 평준화되고 o3 같은 고급 모델이 비싸짐에 따라 오픈소스가 다시 각광을 받을 가능성이 있습니다.

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 440
heart
T
페이지 기반 대답
AI Chat