## QwQ (Qwen with Questions)

알리바바에서 **QwQ-32B-Preview** 를 공개했다.

o1 과 같이 향상된 AI 추론 능력을 가진 모델이다. 특히 수학과 코딩에 좋은 능력을 가지고 있다.

## 모델의 성능

1. GPQA: 대학원 수준의 Google-Proof Q&A 벤치마크로, 초등학교 문제처럼 간단한 문제를 활용해 깊이있는 논리와 사고력이 필요한 과학적 문제 해결 능력을 평가합니다.

2. AIME: American Invitation Mathematics Evaluation으로, 산술, 대수학, 수학적 계산, 기하학, 수론 및 확률 등 중등 수학 주제로 구성된 문제 해결 능력을 테스트합니다.

3. MATH-500: 수학적 문제 해결을 테스트하는 포괄적인 데이터셋으로, 500개 테스트 사례로 구성됩니다.

4. LiveCodeBench: 실제 프로그래밍 시나리오에서 코드 생성 및 문제 해결 능력을 측정합니다.

![](https://server.tilnote.io/images/pages/62a91a44-caa5-42bb-8290-f2c72aadbf54.png)

* [GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.](https://github.com/QwenLM/Qwen2.5)

* 데모 : [QwQ-32B-Preview - a Hugging Face Space by Qwen](https://huggingface.co/spaces/Qwen/QwQ-32B-preview)

<h2 id="QwQ-Qwen-with-Questions">QwQ (Qwen with Questions)</h2>알리바바에서 QwQ-32B-Preview 를 공개했다.o1 과 같이 향상된 AI 추론 능력을 가진 모델이다. 특히 수학과 코딩에 좋은 능력을 가지고 있다.<h2 id="모델의-성능">모델의 성능</h2><ol><li>GPQA: 대학원 수준의 Google-Proof Q&amp;A 벤치마크로, 초등학교 문제처럼 간단한 문제를 활용해 깊이있는 논리와 사고력이 필요한 과학적 문제 해결 능력을 평가합니다.</li><li>AIME: American Invitation Mathematics Evaluation으로, 산술, 대수학, 수학적 계산, 기하학, 수론 및 확률 등 중등 수학 주제로 구성된 문제 해결 능력을 테스트합니다.</li><li>MATH-500: 수학적 문제 해결을 테스트하는 포괄적인 데이터셋으로, 500개 테스트 사례로 구성됩니다.</li><li>LiveCodeBench: 실제 프로그래밍 시나리오에서 코드 생성 및 문제 해결 능력을 측정합니다.</li></ol><img src="https://server.tilnote.io/images/pages/62a91a44-caa5-42bb-8290-f2c72aadbf54.png" alt="Alibaba QwQ - o1 과 유사한 추론 모델 image 1"><ul><li><a href="https://github.com/QwenLM/Qwen2.5">GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.</a></li><li>데모 : <a href="https://huggingface.co/spaces/Qwen/QwQ-32B-preview">QwQ-32B-Preview - a Hugging Face Space by Qwen</a></li></ul>