Sky-T1: 합리적 비용으로 고성능 추론 모델을 구현하다
Sky-T1-32B-Preview는 Berkeley Sky Computing Lab에서 개발한 추론 모델로, OpenAI의 o1-preview 모델과 유사한 성능을 자랑합니다. 놀라운 점은 이 모델이 단 $450의 비용으로 훈련되었다는 점인데요. 이는 고성능 추론 모델을 합리적인 비용으로 구현할 수 있음을 보여줍니다. 더불어 Sky-T1-32B-Preview는 오픈소스 프로젝트로 공개되어, 학계와 오픈소스 커뮤니티가 이를 활용하고 발전시킬 수 있도록 모든 기술 세부사항, 데이터, 그리고 모델 가중치까지 공개되었습니다.
Sky-T1의 주요 특징
Sky-T1은 단순히 수학 문제를 해결하는 데 그치지 않고, 코딩 능력까지 포함한 다양한 추론 작업에서 높은 성능을 보여줍니다. 기존의 많은 고성능 모델들이 독점적이거나 폐쇄적이었던 반면, Sky-T1은 다음과 같은 자원들을 커뮤니티에 공개했습니다:
데이터: 총 17,000개의 데이터셋.
코드: 모델 훈련 및 평가를 위한 통합 리포지토리.
모델 가중치: 32B 크기의 모델.
기술 보고서: 훈련 과정과 결과를 기록한 로그.
데이터와 훈련 과정
Sky-T1은 Qwen2.5-32B-Instruct라는 오픈소스 모델을 기반으로 Fine-Tuning(FT)을 수행했습니다. 이 과정은 다음과 같은 절차로 이루어졌습니다:
데이터 큐레이션: QwQ 모델의 데이터를 정리하고, GPT-4o-mini를 활용해 데이터를 재구성하여 잘 정리된 형식으로 변환.
거부 샘플링: 부정확한 데이터를 걸러내고, 정확한 솔루션이 제공된 데이터만 채택.
다양한 데이터셋 활용: APPs와 TACO에서 5,000개의 코딩 데이터, NuminaMATH에서 10,000개의 수학 데이터, 그리고 STILL-2에서 1,000개의 과학 및 퍼즐 데이터를 포함.
이렇게 준비된 데이터를 활용해 기존 모델을 특정 도메인에 맞게 Fine-Tuning했습니다. 3회 반복(epoch)과 적절한 학습률(lr=1e-5)을 사용해, 8개의 H100 GPU로 단 19시간 만에 훈련을 완료했습니다. 비용은 약 $450로, 이는 Lambda Cloud의 GPU 임대 비용을 기반으로 한 결과입니다.
성능과 결과
Sky-T1-32B-Preview는 다양한 벤치마크에서 경쟁력 있는 성능을 보였습니다:
Math500: 82.4점(o1-preview와 유사).
LiveCodeBench-Hard: 17.9점으로 기존 모델들과 근소한 차이를 보임.
AIME2024: 43.3점으로, 일부 모델보다 월등히 우수한 성과.
또한, 실험 결과 모델 크기와 데이터의 조합이 성능에 큰 영향을 미친다는 점도 발견되었습니다. 특히, 수학과 코딩 데이터 간의 균형 잡힌 조합이 모델의 전반적인 추론 능력을 강화했습니다.
Sky-T1이 주는 시사점
적은 비용으로 추론 모델을 만들 수 있었다는 것은 추론을 파인튜닝하는 것이 가능하다는 뜻입니다. 다양한 추론 과정을 학습시켜 새로운 모델을 적은 비용으로 학습시킬 수 있다는 것을 의미합니다.
또한 Sky-T1의 노력은 추론 모델이 더 이상 독점적인 기술로 머무르지 않고, 누구나 접근할 수 있는 공공 자산으로 발전하고 있음을 보여줍니다.
이와 같은 노력은 Sky-T1이 가져올 변화, 여러분은 어떻게 생각하시나요?