기대되는 Google의 AI 모델 Gemini
개인적으로 기대하고 있는 모델이 바로 이번 가을에 출시될 구글의 Gemini 입니다.
이 구글의 gemini는 GPT-4와 같이 여러 개의 전문가 모델의 협업 모델이라고 합니다. (MoE)
Gemini는 이미지와 텍스트와 다른 데이터 타입을 인식하고 생성할 수 있는 멀티모달이라고 합니다. 일각에서는 유튜브의 자막으로 학습되었기 때문에 짧은 동영상을 생성할 수 있지 않을까하고 예측하고 있습니다. 저는 동영상까지는 초기 버전에서는 모르겠고 이미지 기능은 구글의 이미지 캡션 시스템인 플라밍고를 탑재해서 지원할 것이라고 생각합니다.
구글에서는 이 gemini 프로젝트에 수 백명의 구글 브레인과 딥 마인드 팀을 투입하고 있습니다. 딥마인드의 창업자인 Demiss Hassabis과 딥마인드의 중역들, 그리고 이전 구글 브레인의 수장이었던 Jeff Dean, 심지어 세르게이 브린까지 참여하고 있다고 하네요. 어마어마하게 투자하고 있다고 보면 될 것 같습니다.
이전 데미스 허사비스의 말에 따르면 AlphaGo의 type 시스템과 LLM의 언어 능력이 결합된 모델이라고 합니다. 알파고가 가지고 있는 강화학습이 더해졌기 때문에 너무 기대가 됩니다. 알파고의 tree search가 어떻게 구현됐을지 궁금하네요.
그의 말에 따르면 제미니는 여러 사이즈의 모델이 될 것이라고 합니다. 그리고 가장 큰 모델은 현재 GPT-3의 1750억개 파라미터를 뛰어넘을 것으로 기대되고 있습니다.
또 허사비스는 기획(planning)과 기억(memory) 기능을 실험 중이라고 밝혔습니다. 그리고 팩트 체크는 시맨틱 검색 (retrieval) 을 활용해서 일부 정보 블록을 가져와서 하는 방식인것 같습니다.
소스 : Google's next-generation AI model "Gemini" to launch this fall