Google I/O 요약 정리

�

구글이 I/O '24에서 새로운 기술을 발표했다.
음악 효과 AI 도구 'Music Fxs DJ'를 소개했다.
이 도구는 사용자의 프롬프트를 이해하여 새로운 음악을 만들어낸다.
Gemini AI 모델은 텍스트, 이미지, 비디오, 코드 등 모든 종류의 입력을 처리할 수 있는 기술이다.
구글은 이 기술을 검색, 포토, 워크스페이스, 안드로이드 등 다양한 제품과 서비스에 적용하고 있다.
Gemini 1.5 Pro 모델은 1백만 토큰의 컨텍스트 윈도우를 처리할 수 있는 기능을 제공한다.
Gemini AI는 이미 1.5백만 명 이상의 개발자들이 사용하고 있으며, 최신 정보와 인사이트를 제공한다.
새로운 AI 검색 경험을 소개하고, Google Photos에서도 Gemini AI를 활용하여 기억을 탐색하고 추적할 수 있는 기능을 제공한다.
Gemini AI의 특징은 멀티모달(Multimodal) 기술로, 다양한 형식의 입력값을 이해하고 연결시켜 사용자에게 보다 전문적인 답을 제공할 수 있다.
Google AI가 인공지능 개발에 있어서 일찍부터 멀티모달 방식을 추구해 왔으며, 이제는 Gemini 1.5 Pro와 Gemini 1.5 Flash를 통해 멀티모달 모델의 잠재력을 더욱 끌어올리고 있다.
Gemini 1.5 Pro는 개인에 맞게 맞춰져 있지만, 개인화를 위해 훈련된 것은 아니며, 이것은 사용자가 자신이 누구인지에 대한 극도로 다양한 이해력을 제공하기 때문이다.
Google workspace와 함께하는 Gemini 1.5 Pro는 이메일 서머리와 같은 다양한 기능을 수행할 수 있다.
Multimodality와 Long Context는 개별적으로도 강력한 기능을 제공하지만, 이 두 가지가 함께 활용될 경우 더욱 깊은 기능과 지능을 제공한다.
Google DeepMind는 AI 분야에서 놀라운 성과를 이루고 있으며, 앞으로 지속적인 발전을 위해 다양한 연구와 훈련을 진행할 예정이다.
Google은 AI 시스템이 도움이 되는 대상이 되도록 하는 것을 목표로 하고 있으며, 이를 위해 현재는 프로젝트 Astra를 개발하고 있다.
프로젝트 Astra는 대화 시스템이 사람과 같은 속도와 자연스러움으로 반응할 수 있도록 하여, 보다 개인화된 서비스를 제공하는 것이 목적이다.
구글은 이미지, 음악, 비디오를 다루는 새로운 모델을 도입하며 생성 미디어 도구를 업데이트했다.
이미지 생성 모델은 평가와 워터마킹 기능을 개선하여 더욱 사실적이고 섬세한 디테일을 제공한다. 이 모델은 긴 prompt에 대해 작은 세부 사항도 고려하기 때문에 텍스트 렌더링에도 매우 탁월하다.
음악 생성 도구는 아티스트들이 AI 기술을 활용해 더욱 창의적인 작업을 할 수 있도록 돕는다. 또한 새로운 노래를 완전히 새로 작곡하거나 음악 스타일을 변화시킬 수 있다.
생성 비디오 모델은 글, 이미지, 동영상 prompt를 사용하여 고품질 세부사항을 포착할 수 있다. 이 모델은 현재 Google Labs의 Video FX에서 이용 가능하며 엔터프라이즈 고객들도 가까운 시일 내에 이용 가능할 예정이다.
트릴리온(Triillion)은 2024년에 출시될 예정인 6세대 TPU로 기존 모델 대비 4.7배의 성능 향상을 제공한다. 구글은 또한 Axion CPU와 Nvidia Blackwell GPU도 제공할 예정이다.
구글 서치는 최신 AI 기술과 구글의 높은 정보 품질 기술, 경험에 기반하여 이제는 사용자의 모든 웹 검색을 지원한다. 이를 위해 구글 서치는 AI 개선과 다양한 혜택을 제공하는 AI 오버뷰, 멀티스텝 리즈닝, 계획 작성 등을 도입한다.

트렌드

접근성과 민주화: 두 회사 모두 더 많은 사람들이 고급 AI 기술에 접근할 수 있도록 하는 것을 강조한다. GPT-4o를 무료로 제공하기로 한 OpenAI의 결정은 이러한 목표에 부합하는 것으로, 유료 고객뿐만 아니라 모든 사람이 높은 수준의 AI를 사용할 수 있도록 보장한다.
멀티모달 기능: 다양한 유형의 데이터(텍스트, 이미지, 오디오)를 처리하고 통합할 수 있는 멀티모달 AI에 대한 분명한 추세가 있습니다. 이러한 접근 방식은 다양한 형태의 콘텐츠를 이해하고 생성하는 AI의 능력을 향상시켜 더욱 다양하고 강력한 애플리케이션으로 이어진다.
실시간 상호 작용: 두 발표 모두 실시간 처리의 중요성을 강조한다. 자연스러운 대화에 대한 GPT-4o의 개선과 실시간 멀티모달 검색 응답에 대한 Google의 강조는 보다 역동적이고 즉각적인 사용자 상호 작용을 향한 움직임을 나타낸다.
보안 고려 사항: 음성, 이미지 등 더 많은 데이터를 사용하고 우리 도처로 들어올 만큼 보안에 대한 우려가 높아진다. 구글의 경우 온디바이스를 통해 언급했으며, 어떻게 내 정보를 사용, 관리할 것인가에 대한 관심도 쏟아야 할 것으로 보인다.

Google I/O 요약 정리

트렌드

키워드만 입력하면 나만의 학습 노트가 완성돼요.