검색
검색
공개 노트 검색
회원가입로그인

qwen 2.5 - 알리바바의 새로운 오픈소스 모델

qwen 2.5

소개

Qwen 2.5는 Alibaba Cloud의 Qwen 팀에서 개발한 최신 대규모 언어 모델 시리즈입니다. Qwen 2가 출시된 이후 3개월 동안 수많은 개발자들이 Qwen 2 언어 모델을 기반으로 새로운 모델을 만들며 소중한 피드백을 제공했고, 이를 바탕으로 Qwen 2.5가 개발되었습니다. Qwen 2.5는 전 세계적으로 가장 큰 오픈 소스 릴리스 중 하나로, 언어 이해 및 생성, 멀티미디어 이해, 도구 사용 등 다양한 능력을 제공하는 모델입니다.

주요 특징

  • 모델 크기: Qwen 2.5는 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B의 크기로 제공되며, 베이스 모델과 지시 조정(Instruct) 모델이 함께 제공됩니다.

  • 학습 데이터셋: 최대 18조 토큰에 이르는 최신 대규모 데이터셋으로 사전 학습되었습니다.

  • 컨텍스트 길이: 최대 128K 토큰을 지원하며, 한번에 최대 8K 토큰을 생성할 수 있습니다.

  • 다국어 지원: 중국어, 영어, 프랑스어, 스페인어, 포르투갈어, 독일어, 이탈리아어, 러시아어, 일본어, 한국어, 베트남어, 태국어, 아랍어 등 29개 이상의 언어를 지원합니다.

  • 특화 모델: 코드 작성용 Qwen 2.5-Coder와 수학 전용 Qwen 2.5-Math도 함께 제공됩니다.

성능

Qwen 2.5 모델은 여러 벤치마크 테스트에서 우수한 성능을 보였습니다. 특히, 지시 조정 모델은 코딩, 수학, 지식 획득, 다국어 능력 등 다양한 분야에서 뛰어난 성능을 보입니다.

Qwen 2.5 LLM

Qwen 2.5는 최신 대규모 데이터셋을 사용하여 사전 학습되었으며, 향상된 지식과 코딩, 수학 능력을 갖추고 있습니다. Qwen 2와 비교하여 다음과 같은 개선사항이 있습니다:

  • 지시 따르기: 사용자 요청에 대한 응답성이 크게 향상되었습니다.

  • 긴 텍스트 생성: 8K 이상의 긴 텍스트 생성이 가능해졌습니다.

  • 구조화된 데이터 이해: 테이블 등 구조화된 데이터를 잘 이해하고 생성할 수 있습니다.

  • 멀티모드 입력 처리: 다양한 시스템 프롬프트에 대한 탄력성이 높아져, 챗봇 설정과 역할 실행이 더욱 원활해졌습니다.

Qwen 2.5-Coder

Qwen 2.5-Coder는 코드 작성에 특화된 모델로, 코드 관련 데이터 5.5조 토큰을 학습하여 작은 모델에서도 대형 모델에 필적하는 성능을 발휘할 수 있습니다. 다양한 프로그래밍 언어를 지원하며, 코드 디버깅, 질문 응답, 코드 추천 등의 작업에 유용합니다.

Qwen 2.5-Math

Qwen 2.5-Math는 수학 전용 모델로, 이전 버전보다 더 많은 수학 관련 데이터를 학습하였고, Chain-of-Thought (CoT), Program-of-Thought (PoT), Tool-Integrated Reasoning (TIR) 등의 다양한 추론 방법을 통합하였습니다. 일반적인 수학 문제 해결 성능이 크게 향상되었습니다.

사용 예시

Qwen 2.5 모델을 사용하는 가장 간단한 방법은 Hugging Face의 Transformer 라이브러리를 사용하는 것입니다.

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

개발 및 배포

Qwen 2.5 모델은 다양한 플랫폼과 호환되며, 로컬에서 실행하거나, 클라우드 기반으로 배포할 수 있습니다. vLLM, Ollama, MLX, LM Studio 등을 이용한 배포 방법도 제공됩니다.

라이선스

Qwen 2.5 모델은 대부분 Apache 2.0 라이선스 하에 오픈 소스로 제공되지만, 3B 및 72B 버전은 예외입니다. 상업적 용도로 사용할 경우, 해당 모델의 라이선스를 확인하고 사용해야 합니다.

결론

Qwen 2.5는 언어 모델링, 멀티미디어 이해, 도구 사용 등 다양한 AI 작업에 탁월한 성능을 제공하는 최신 대규모 언어 모델입니다. 다국어 지원, 긴 컨텍스트 처리, 전문 모델 등 다양한 기능을 제공하여 사용자에게 큰 가치를 제공합니다. Qwen 2.5를 통해 AI 연구와 개발을 더욱 발전시키고자 합니다.

Qwen2.5: A Party of Foundation Models!

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 211
heart
T
페이지 기반 대답
AI Chat