Alibaba QwQ - o1 과 유사한 추론 모델
QwQ (Qwen with Questions)
알리바바에서 QwQ-32B-Preview 를 공개했다.
o1 과 같이 향상된 AI 추론 능력을 가진 모델이다. 특히 수학과 코딩에 좋은 능력을 가지고 있다.
모델의 성능
GPQA: 대학원 수준의 Google-Proof Q&A 벤치마크로, 초등학교 문제처럼 간단한 문제를 활용해 깊이있는 논리와 사고력이 필요한 과학적 문제 해결 능력을 평가합니다.
AIME: American Invitation Mathematics Evaluation으로, 산술, 대수학, 수학적 계산, 기하학, 수론 및 확률 등 중등 수학 주제로 구성된 문제 해결 능력을 테스트합니다.
MATH-500: 수학적 문제 해결을 테스트하는 포괄적인 데이터셋으로, 500개 테스트 사례로 구성됩니다.
LiveCodeBench: 실제 프로그래밍 시나리오에서 코드 생성 및 문제 해결 능력을 측정합니다.
공유하기
조회수 : 270