구글 Gemini 공개 - 구글의 최고 성능의 LLM 모델

구글에서 오늘 Gemini를 공개했습니다. Gemini pro는 바드와 구글 AI 스튜디오, vertex 에서 사용이 가능합니다. (텍스트 프롬프트, 영어버전, 곧 한국 포함 170개국 이상에서 사용 가능.)제미니는 복잡한 임무를 위한 'Gemini Ultra', 다양한 임무를 위한 'Gemini Pro', 기기 내 임무를 위한 'Gemini Nano'의 세 가지 버전으로 이루어져 있습니다. 참고로 gemini는 쌍둥이 자리라는 뜻이며 영어로 발음할 때는 제머나이 또는 제미나이로 발음하는 것 같습니다.

구글 블로그 : Introducing Gemini: our largest and most capable AI model

성능

구글에 따르면 Gemini Ultra는 GPT-4를 여러 벤치마크에서 능가했다고 합니다.

구글 Gemini 공개 - 구글의 최고 성능의 LLM 모델 image 1

또 제미니는 멀티 모달이며 이미지, 비디오, 오디오 등의 이해와 처리에서도 최고 수준의 성능(SOTA)을 기록했다고 하네요.

서로 다른 모델이 협업하는 시스템

구글 Gemini 공개 - 구글의 최고 성능의 LLM 모델 image 2

텍스트, 코드, 오디오, 이미지, 비디오의 모델들이 각각 존재한다고 합니다. 이러한 모델들이 대화하고 가능한 최상의 응답을 제공한다고 합니다.

멀티모달

이미지를 올려서 이를 활용할 수 있습니다. 다음은 손글씨로 쓴 수학 문제를 업로드해서 정답 여부를 파악하는 모습입니다.

구글 Gemini 공개 - 구글의 최고 성능의 LLM 모델 image 3

손글씨면 OCR을 활용하는 것도 아닐텐데 신기하네요.

코딩

Gemini를 활용해서 코드 모델인 AlphaCode 2를 만들었다고 합니다. 이 모델은 프로그래밍 문제를 푸는 것뿐만 아니라 수학이나 컴퓨터 공학 이론 등에서도 좋은 성능을 보였다고 합니다.

TPU 활용

Gemini 1.0 은 구글이 자체 제작한 Tensor Processing Units (TPUs) v4 와 v5e를 통해 훈련되었다고 합니다. TPU를 활용해서 AI 구동에 필요한 연산을 수행한다고 합니다.

Gemini 사용

오늘부터 Bard에서 영어로 Gemini Pro의 파인튜닝 버전을 사용할 수 있다고 합니다. (구글에 따르면 Gemini Pro는 MMLU를 포함한 여러 벤치마크에서 ChatGPT 무료 버전인 GPT-3.5를 능가했다고 합니다.) 현재는 텍스트 프롬프트만 적용되고 다른 모달리티는 곧 공개된다고 합니다. 또한 영어 버전은 170개국 이상에서 사용이 곧 가능해 질 것이라고 합니다. (한국 포함) 다른 언어 지원도 가까운 비래에 지원할 예정입니다.

개발자는 12월 13일부터 Gemini Pro를 API로 Google AI Studio 나 Google Cloud Vertex AI 에서 사용할 수 있다고 합니다.

Gemini Nano는 구글 Pixel 8 프로를 통해 최초로 사용할 수 있습니다. 녹음앱의 요약기능이나 Gboard의 스마트 답장 등을 사용할 수 있다고 합니다.

안드로이드 개발자는 구글의 픽셀폰에서는 AICore를 통해 Gemini Nano를 활용하는 앱을 만들 수 있다고 하네요.

Gemini Ultra는 현재 일부 전문가, 개발자들에게 공개되었으며 개선을 거친 후에 내년 초에 출시된다고 합니다.

내년 초에는 Bard Advanced 라는 유료 요금제가 출시되는데 여기에 Gemini Ultra가 탑재될 예정이라고 합니다.

Bespoke UI

구글 Gemini 공개 - 구글의 최고 성능의 LLM 모델 image 4

사용자의 의도(intent)를 이해하기 위해 여러 기법을 사용한다고 합니다. 실행화면에서 보여준 Bespoke UI 입니다. Bespoke 는 맞춤형이라는 뜻입입니다. 프롬프트를 clarification 한 후 prd (Product Requirement Document) 를 거쳐 실시간으로 플러터 UI를 생성합니다.

위의 동영상은 생일 파티의 선물을 추천하는 것을 Bespoke UI를 통해 보여줍니다.