OpenAI의 새로운 멀티모달 "GPT-4 omni"는 텍스트, 비전, 오디오를 단일 모델로 결합합니다.

2024-05-14

OpenAI, GPT-4o라는 새로운 대규모 멀티모달 모델을 공개했다. 이 모델은 텍스트, 이미지, 오디오 처리를 단일 신경망에서 결합하여 성능과 효율성에서 새로운 기준을 설정한다.
'o'는 'omni(전체)'를 의미하며, 이 모델은 동일한 신경망을 통해 다양한 입력 및 출력 유형을 처리할 수 있다.
GPT-4o는 오디오 입력에 대해 평균 232 밀리초만에 응답할 수 있으며, 이는 대화 중 인간의 반응 시간과 비교할 수 있다.
이 모델은 진정한 호흡과 흥분한 호흡을 구분하고, 다양한 감정을 합성 음성으로 표현하며, 필요에 따라 목소리를 로봇 소리로 바꾸거나 노래할 수도 있다.
GPT-4o는 영어에서는 GPT-4 Turbo와 동등한 텍스트 성능을 보이며, 비영어권 언어에서는 이를 크게 능가한다.
새 모델은 효율성 면에서 GPT-4 Turbo보다 두 배 빠르고 50% 저렴하다.
챗봇(ChatGPT)에서 무료로 사용할 수 있으나, 무료 사용자와 비교하여 유료 사용자와 API 사용자에게는 더 높은 속도 제한이 있다.
개발자들은 GPT-4o를 텍스트 및 "비전" 모델로 API에서 사용할 수 있으며, 오디오 및 비디오 기능은 향후 몇 주 안에 신뢰할 수 있는 파트너 그룹에게 제공될 예정이다.
GPT-4o는 프로그래밍과 같은 도전적인 과제에서 GPT-4 Turbo보다 ELO 점수가 100점 높다.
OpenAI는 또한 MacOS용 ChatGPT 새 데스크톱 앱을 소개했으며, Windows 버전도 곧 출시될 예정이다.
GPT-4o의 안전성은 모든 입력 유형에 대해 처음부터 다시 설계되었으며, 텍스트 및 이미지 입력과 텍스트 출력만 공개될 예정이다. 다른 입력 유형은 기술 인프라, 사용성, 안전성이 확보된 후에 출시될 예정이다.

5the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기