Deepseek V3가 현재까지 중국에서 가장 강력한 오픈 소스 언어 모델로 등장했습니다.

2024-12-26

중국 AI 회사 Deepseek이 가장 강력한 언어 모델인 Deepseek V3를 출시
초기 테스트에서 산업의 주요 독점 모델들과 경쟁할 수 있는 성능을 보여줌
논리적 추론 작업에서 특히 개선된 성과를 보임
모델은 Mixture-of-Experts (MoE) 아키텍처를 사용하며, 총 6710억 매개변수 중 370억 매개변수가 각 토큰에 대해 활성화됨
V2 모델에 비해 매개변수가 대폭 증가
1.48조 토큰을 처리하며, V2의 학습 데이터양을 거의 두 배 수준으로 늘림
전체 훈련은 2.788백만 H800 GPU 시간에 걸쳐 진행, 약 557만 6천 달러 비용 소요
Meta, xAI, OpenAI 등과 비교해 상대적으로 적은 2,000개의 GPU로 효율적으로 학습
최적화된 알고리즘, 프레임워크, 하드웨어 설계 덕분
V3는 60 토큰/초를 처리할 수 있어 V2보다 3배 빠른 성능 자랑
복잡한 추론 작업을 위해 특별히 설계된 Deepseek-R1 모델의 데이터를 사용하는 후처리 과정을 포함
여섯 개 주요 LLM 벤치마크 중 세 개에서 최고 점수, 특히 MATH 500 벤치마크(90.2%)와 코드포스, SWE 코딩 테스트에서 우수한 성과 기록
모델 성능은 GPT-4o와 Claude-3.5-Sonnet 등 주요 독점 모델과 비슷한 성능을 보임
API 가격은 2월 8일까지 V2 요금 유지, 이후부터 입력 1백만 토큰당 $0.27, 출력 1백만 토큰당 $1.10
모델은 Deepseek License Agreement (Version 1.0) 하에 무료로 사용 가능, 군사적 용도 및 완전 자동화된 법률 서비스 용도는 금지
Deepseek은 모델 아키텍처를 개선하고, 무한한 문맥 길이 지원 목표
수학 및 코딩에 특화된 모델을 포함, API 및 무료 로컬 사용으로 제공

5the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기