Google, Gemma 3n 출시, 모바일 기기에서 실시간 사용을 위한 멀티모달 AI 모델 구축
- Google이 모바일 장치용으로 설계된 멀티모달 AI 모델 Gemma 3n을 출시함.
- Gemma 3n은 이미지, 오디오, 비디오, 텍스트 입력을 지원하며 최대 140개 언어로 텍스트 생성 가능.
- 5억 개 매개변수를 가진 E2B 모델과 8억 개 매개변수를 가진 E4B 모델 두 가지 크기로 제공되며, 각각 2GB와 3GB RAM을 필요로 함.
- 모델은 다양한 양자화 형식과 크기로 제공됨.
- MatFormer 아키텍처를 기반으로 하며, 보다 크고 완벽한 모델인 E4B는 내부에 기능하는 E2B 모델을 포함.
- Mix-n-Match 방법으로 레이어를 비활성화하고 피드포워드 차원을 조정하여 커스텀 모델 크기 생성 가능.
- PLE(Per-Layer Embeddings) 사용으로 레이어당 임베딩을 CPU에서 계산, GPU/TPU 메모리 요구 사항 감소.
- 오디오 처리는 Google의 Universal Speech Model(USM)을 기반으로 하며, 160밀리초마다 오디오 조각을 단일 토큰으로 변환.
- 예를 들어 영어와 다양한 로망스어 간 번역 가능.
- 이미지 및 비디오 처리에 MobileNet-V5-300M 인코더 사용, Google Pixel 스마트폰에서 초당 최대 60개 이미지 분석 가능.
- E4B 모델은 LMArena 벤치마크에서 1300점 이상 기록.
- Gemma 3n Impact Challenge 통해 모델의 멀티모달 및 오프라인 기능을 활용한 실용적 응용 프로그램 모색, 총 상금 $150,000 제공.
- Hugging Face, Kaggle 등 플랫폼에서 사용 가능하며 여러 도구와 호환됨.
5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.