ML Foundation 모델의 성장 벡터 - 비용 및 성능, 임베딩
- ML 기초 모델의 성장 벡터: 비용 & 성능, 임베딩
- 지난 6개월 동안 기초 모델의 비용과 성능, 임베딩 모델이 크게 성장함
- 주요 벡터:
- 비용 & 성능: 낮은 컴퓨팅 비용과 감소된 대기 시간 최적화
- 임베딩: 트레이닝 데이터를 벡터 형식으로 표현
- 시각적: 이미지와 비디오
- 오디오: 소리, 음악, 말하기
- 3D: 3차원 자산
- 일반 목적: 다양한 사용 사례 처리 가능한 범용 LLM
- 도메인 초점: 특정 수직 분야 최적화, 예를 들어 금융, 법률, 보건
- 언어 초점: 다중 또는 특정 언어 최적화
- 대표적인 ML 기초 모델:
- Google의 Gemma 시리즈: 2B 및 7B 매개변수 텍스트-텍스트 모델
- Stability AI의 Stable LM 2 1.6B: 1.6억 매개변수 소형 언어 모델
- Mixtral 8x7B: 8x7B 매개변수 희소 전문가 모델 (SMoE)
- Microsoft Research의 phi-2: 2.7B 매개변수 모델
- Orca2: 7B 및 13B 매개변수 모델 시리즈
- NVIDIA의 Nemotron-3 8B: 컴퓨팅 성능 개선을 위해 개발된 모델
- Amazon의 Titan Text Lite: 요약 및 카피라이팅 작업 최적화 모델
- MosaicML의 MPT-7B-8k: 문서 요약 및 질문 응답용 7B 매개변수 오픈 소스 LLM
- 임베딩 모델:
- OpenAI의 Embedding-3 Small 및 Large: 벡터 길이 1536 및 3072 차원
- Cohere의 Embed v3: 문서 매칭 평가 및 콘텐츠 품질 평가 최적화
- Amazon의 Titan Text Embeddings 및 Titan Multimodal Embeddings: 다양한 언어 및 입력 지원
- Meta의 SONAR: 200개 언어를 커버하는 다언어 및 다중 모드 고정 크기 문장 임베딩 공간
- 이 기술은 계속해서 다양한 방향으로 성장할 예정임
- 본문에서 언급된 여러 기초 모델 외에도 추가되어야 할 모델이 있다면 알려달라고 함
- OpenAI와 그 스타트업 펀드가 2023년과 2024년에 투자한 스타트업 포트폴리오에 대한 최신 게스트 포스트 확인 권장
3alexsandu.substack.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.