Google의 Gemma 3 QAT 모델이 소비자 GPU에 고급 AI 성능을 제공합니다.

2025-04-18

제목: "Google의 Gemma 3 QAT 모델, 소비자 GPU에 고급 AI 성능 제공"
지난달 Google은 Gemma 3의 최첨단 성능을 한 대의 고급 GPU에서 실행할 수 있는 기능으로 선보였으며, QAT(Quantization-Aware Training)로 최적화된 새로운 버전을 발표함으로써 메모리 요구를 크게 줄임.
Gemma 3 27B 모델은 이제 NVIDIA RTX 3090과 같은 소비자 등급 GPU에서도 강력하게 실행 가능.
Elo 점수를 사용하여 AI 모델의 성능을 비교하였으며, BF16을 사용해 GPU 요구를 평가함.
BF16은 대형 모델 추론에 사용되는 일반적인 숫자 형식으로, 공정한 성능 비교를 위한 피치인 점 강조.
Gemma 3는 소비자용 하드웨어에서 고품질 AI 성능을 구현하기 위해 QAT 사용.
QAT는 훈련 과정 중에 낮은 정밀도를 시뮬레이션하여 모양 유지와 속도 향상에 기여함.
int4로 모델을 양자화하여 엄청난 양의 VRAM 절감 효과를 나타냄(예: Gemma 3 27B는 54GB에서 14.1GB로 감소).
Gemma 3의 많은 양자화된 변종이 특정 시스템 내에서 쉽게 통합될 수 있도록 다양한 개발자 도구와의 통합 지원.
QAT 모델은 Hugging Face와 Kaggle에서 이용 가능하며, 커뮤니티 옵션으로 다양한 크기, 속도, 품질의 균형을 제공.
Gemma 3 모델을 통해 개인 하드웨어에서 최첨단 AI 성능 활용 가능성을 열었음.

3developers.googleblog.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.