9월 2주차 틸노트 AI 뉴스레터 - 구글의 Gemini가 가을에 출시될 예정.

이번 주도 인공지능에 대한 소식 전해드립니다. 이번 주에 가장 인상 깊었던 것은 구글의 Gemini 입니다.

Gemini 가을 출시 예정

구글에서 새로운 AI 모델인 제미니를 만들고 있습니다. 올 가을에 출시 될 것으로 알려진 이 모델은 벌써 몇몇 회사에서 얼리 액세스를 받았다고 하네요. 개인적으로 가장 기대되는 모델입니다.

구글은 이 프로젝트에 수 백명의 구글 브레인과 딥마인드 팀을 투입하고 있으며 딥마인드의 창업자 Demiss Hassabis, 딥마인드 중역, 이전 구글 브레인의 Jeff Dean, 심지어 세르게이 브린까지 돌아와서 참여하고 있다고 합니다. 엄청난 투자라고 볼 수 있을 것 같습니다.

데미스 허사비스의 말에 따르면 AlphaGo의 강화학습 (type system)과 LLM의 언어 능력이 결합된 모델이라고 합니다. 기획(planning)과 기억(memory) 기능을 실험 중이라고 밝혔습니다. 팩트체크는 retrieval 기술(RAG)을 활용해서 하는 방식인 것 같습니다.

일단 현재 알려진 모습은 다음과 같습니다.

멀티모달 모델 : 텍스트, 이미지 등 다양한 데이터 타입 지원. 이미지는 구글의 이미지 캡션 시스템인 플라밍고 사용.
GPT-4와 같은 여러 개의 전문가 모델의 협업 모델. (MoE)
매우 큰 규모의 파라미터를 가지고 있다. (aka 제프딘) 여러 사이즈의 모델로 출시될 것.
높은 코딩 능력과 차트 분석 기능.

물론 자세한 것은 실제로 나와봐야 알겠지만 만약 강화학습이 크게 향상된 모델이라면 AI 업계에 큰 영향을 끼칠 수 있겠다는 생각이 듭니다.

Adept의 소형 LLM Persimmon 8B

Adept는 사용자의 컴퓨터에서 할 수 있는 일들을 수행할 수 있는 AI 에이전트를 만들고 있는 회사입니다. Adept에서 Persimmon 8B를 오픈소스 모델로 공개했습니다. 8B 모델은 굉장히 작은 모델인데요. 하나의 GPU나 요즘 사항의 맥북에서도 잘 돌아간다고 합니다.

Adept의 소형 LLM Persimmon 8B

Stability AI, 오디오 사운드 생성하는 Stable Audio 공개

텍스트 프롬프트를 입력하면 사운드를 만들어 주는 모델입니다. diffusion model을 사용하여 이미지 대신 음악을 사용하여 훈련되었고 합니다. AudioSparks의 8만개의 라이센스가 있는 사운드를 통해 학습했다고 합니다. 무료와 유료 버전을 출시했는데 무료는 20초짜리 음악을 월 20번 생성 가능, 프로는 90초 짜리 사운드를 500번 생성 가능하다고 합니다. 구글의 MusicLM 과 비슷하다고 보면 될 것 같습니다.

그 밖의 팁

ChatGPT API 토큰 수대로 자르기 (javascript)
llama2를 파인 튜닝 해서 비용을 절감하려는 사례들이 생기고 있습니다.
이제 크롬에서도 빙챗을 사용할 수 있습니다.

그럼 즐거운 한 주 되시길 바랍니다~!