gpt-4o 이미지 생성

개요

챗GPT를 개발한 오픈AI는 2025년 3월 25일, 한층 진화한 새로운 이미지 생성 인공지능(AI) 모델을 발표하였다. 이를 통해 텍스트와 이미지를 결합한 첫 모델인 '챗GPT-4o 이미지 생성'(ChatGPT-4o Image Generation) 모델이 공개되었다. 이 새로운 모델은 기존의 DALL-E 모델을 대체하며 더 정교하고 다양한 이미지 생성이 가능하게 되었다.

배경 및 개발 과정

오픈AI의 새로운 이미지 생성 모델은 멀티모달 AI 모델인 챗GPT-4o와 결합하여 텍스트와 이미지 통합 생성이 가능한 첫 모델로 개발되었다. 이를 통해 텍스트 프롬프트뿐만 아니라 대화의 맥락이나 사용자가 업로드한 이미지를 시각적 영감으로 활용할 수 있게 됐다.

멀티모달 모델의 강점 결합

오픈AI의 멀티모달 담당자인 가브리엘 고는 "우리는 텍스트에 대한 지능을 가진 GPT-4의 강점과 최고의 이미지 생성 모델의 시각적 지능을 결합한 모델을 만들고자 했다”며, 이번 모델이 그 목표를 달성한 결과물이라고 언급하였다. 새로운 모델은 GPT-4의 지식을 활용하여 이미지와 텍스트를 통합적으로 생성할 수 있다.

기능 및 성능

텍스트 정확성 개선

GPT-4o 이미지 생성 모델은 기존 모델과 달리 이미지 내 텍스트를 정확하게 생성하는 능력이 크게 향상되었다. 예를 들어, 고래 각종의 이름과 이미지를 정확히 매칭하여 포스터를 생성한다든지, 레스토랑 메뉴를 제작하는 등의 작업에서도 훨씬 더 명확한 텍스트를 표현할 수 있다.

복잡한 객체 및 요청 처리

기존 모델이 처리하기 어려웠던 복잡한 요청도 새 모델은 쉽게 수행할 수 있다. 예를 들어, 삼각형 바퀴를 가진 자전거와 같은 비정형적인 요청도 처리가 가능하다. 모델은 총 20개의 다른 객체를 포함한 복잡한 프롬프트도 정확히 처리할 수 있다. 또한, 이미지의 스타일 일관성도 유지하면서 대화 중에도 이미지를 정교하게 수정할 수 있다.

새로운 접근 방식을 통한 생성

GPT-4o는 상단에서 하단으로, 왼쪽에서 오른쪽으로 이미지를 생성하는 새로운 접근 방식을 사용한다. 이는 기존의 확산 모델보다 느리지만, 훨씬 더 높은 정확도를 제공한다. 이 모델은 특정 부분을 편집하거나 새롭게 생성하는 요청도 정확하게 따라 작업한다.

사용 사례 및 예시

오픈AI는 여러 시연을 통해 챗GPT-4o 이미지 생성 모델의 실력을 보여주었다. 예를 들어, 과학 이론을 설명하는 만화 페이지를 생성하거나, 다양한 이미지와 텍스트를 결합한 기념 주화 등의 예제들이 있다. 또한, 상세한 프롬프트에 따라 레스토랑 메뉴를 생성하기도 한다.

한계 및 개선 사항

오픈AI는 이 모델이 아직 완벽하지 않음을 인정하였다. 모델은 긴 이미지나 포스터의 하단을 잘라내는 문제, 비라틴 문자의 텍스트를 정확히 렌더링하지 못하는 문제, 작은 크기의 정보가 잘 드러나지 않는 문제 등이 있다. 이러한 문제들은 계속해서 개선될 예정이다.

안전 및 레이블링

오픈AI는 GPT-4o가 생성한 모든 이미지는 C2PA 메타데이터를 포함하여 AI 생성 이미지임을 확인할 수 있도록 하였다. 또, 불법 콘텐츠나 위험한 이미지를 생성하지 않도록 강력한 제한을 두고 있으며, 사람이 등장하는 이미지에는 더욱 엄격한 제재를 가한다.

결론

GPT-4o 이미지 생성 모델의 도입은 텍스트와 이미지 생성의 새로운 패러다임을 이끌며, 사용자가 더 정교하고 정확한 이미지를 생성할 수 있는 도구를 제공하게 되었다. 이는 AI 기술이 다양한 분야에서 더욱 광범위하게 활용될 수 있는 가능성을 열었다.