검색
검색
공개 노트 검색
회원가입로그인

DeepSeek-Coder-V2 - GPT-4o와 성능이 비슷한 오픈 소스 코드 모델

DeepSeek-Coder-V2는 코드 분야의 오픈 소스 Mixture-of-Experts(MoE) 코드 언어 모델입니다.

개요

DeepSeek-Coder-V2는 GPT-4-Turbo와 비교할 만한 성능을 자랑하는 코드 특화 작업에 최적화된 오픈 소스 모델입니다. DeepSeek-Coder-33B와 비교하여, 코드 관련 작업, 추론 및 일반 작업에서 매우 개선된 성능을 보여줍니다. 또한, 지원하는 프로그래밍 언어 수가 86개에서 338개로 확장되었으며, 컨텍스트 길이도 16K에서 128K로 늘어났습니다.

  • 주요 특징 성능 향상: 추가 6조 개의 토큰으로 다시 학습하여 코딩 및 수학적 추론 능력을 크게 향상했습니다.

  • 폭넓은 언어 지원: 지원하는 프로그래밍 언어 수가 338개로 확장되었습니다.

  • 긴 컨텍스트 길이: 컨텍스트 길이가 기존 16K에서 128K로 확장되었습니다.

  • 개방형 소스: 오픈 소스 라이선스를 통해 누구나 사용할 수 있습니다.

  • 모델 다운로드 DeepSeek-Coder-V2는 두 가지 주요 버전으로 제공됩니다: Lite 모델과 Full 모델.

모델총 파라미터 수활성 파라미터 수컨텍스트 길이
DeepSeek-Coder-V2-Lite-Base16B2.4B128k
DeepSeek-Coder-V2-Lite-Instruct16B2.4B128k
DeepSeek-Coder-V2-Base236B21B128k
DeepSeek-Coder-V2-Instruct236B21B128k

다운로드 링크 : DeepSeek-Coder - a deepseek-ai Collection

성능 평가

코드 생성 벤치마크 (Code Generation)

#TP#APHumanEvalMBPP+LiveCodeBenchUSACO
Closed-Source Models
Gemini-1.5-Pro--83.574.634.14.9
Claude-3-Opus--84.272.034.67.8
GPT-4-Turbo-1106--87.869.337.111.1
GPT-4-Turbo-0409--88.272.245.712.3
GPT-4o-0513--91.073.543.418.8
Open-Source Models
CodeStral22B22B78.168.231.04.6
DeepSeek-Coder-Instruct33B33B79.370.122.54.2
Llama3-Instruct70B70B81.168.828.73.3
DeepSeek-Coder-V2-Lite-Instruct16B2.4B81.168.824.36.5
DeepSeek-Coder-V2-Instruct236B21B90.276.243.412.1

DeepSeek-Coder-V2-Instruct의 경우 GPT-4o-0513과 비슷한 성능을 보인다.

DeepSeek-Coder-V2 - GPT-4o와 성능이 비슷한 오픈 소스 코드 모델 image 1

사용

  1. 웹사이트에서 활용 : https://chat.deepseek.com/coder

  2. 트랜스포머를 이용

# Code Completion
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
input_text = "#write a quick sort algorithm"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

참고 : GitHub - deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

조회수 : 211
heart
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
T
페이지 기반 대답
AI Chat