본문으로 바로가기

Gemini 2.5 Flash Image 핵심 기능 한눈에 보기 (Nano banana)

요약

다양한 이미지 생성과 편집

Gemini 2.5 Flash Image는 복수의 이미지를 자연스럽게 하나로 합치거나 이미지를 원하는 대로 편집할 수 있게 도와줍니다. 예를 들어, 여러 이미지를 섞어서 새로운 장면을 만들거나, 간단한 지시로 특정 부분만 바꿀 수 있어 창의적인 작업이 더욱 쉬워집니다.

캐릭터의 일관성 유지

이미지 작업에서는 동일한 캐릭터나 사물이 여러 장면에도 똑같이 보이게 만드는 게 어렵습니다. 이 모델은 한 번 만든 캐릭터를 다양한 배경이나 각도, 상황에 자연스럽게 넣을 수 있어 브랜딩이나 제품 홍보에 적합합니다.

자연어로 간편한 이미지 편집

이제 “사진에서 배경을 흐리게 해줘”, “티셔츠의 얼룩을 지워줘”처럼 말하거나 텍스트로 쓰기만 해도 이미지의 특정 부분을 수정할 수 있습니다. Gemini 2.5 Flash Image는 사용자의 지시에 따라 부분적인 이미지 변형도 손쉽게 해줍니다.

현실 세계에 대한 이해력

기존 이미지 생성 모델은 디자인만 뛰어난 경우가 많았지만, Gemini 2.5 Flash Image는 실제 사물과 상황을 깊이 이해하고 결과에 반영합니다. 예를 들어, 손으로 그린 다이어그램도 해석해서 교육 자료로 활용할 수 있습니다.

손쉬운 앱 제작과 배포

Google AI Studio의 빌드 모드를 통해 개발자는 직접 앱을 만들고, 프롬프트 하나만 입력해도 이미지 편집 프로그램을 제작할 수 있습니다. 만든 앱은 바로 배포하거나 코드를 깃허브에 저장해 확장할 수 있어 접근성이 뛰어납니다.

저렴하고 빠른 이미지 생성

이 모델은 1백만 출력 토큰당 30달러로, 한 이미지당 약 0.039달러에 생성할 수 있습니다. 빠른 응답 속도와 경제성 덕분에 대규모 작업에도 적합합니다.

기업 및 개발자 지원 플랫폼

Gemini API와 Google AI Studio에서 바로 사용 가능하며, 엔터프라이즈의 경우 Vertex AI에서도 이용할 수 있습니다. OpenRouter.ai와 fal.ai 같은 글로벌 플랫폼과 협력해 개발자들이 손쉽게 모델에 접근할 수 있도록 지원 중입니다.

디지털 워터마크로 투명성 제공

모델이 만든 모든 이미지에는 보이지 않는 SynthID 워터마크가 삽입됩니다. 덕분에 AI 생성 또는 편집 여부를 누구나 쉽게 판별할 수 있습니다.

Python 예제 코드

아래는 Gemini 2.5 Flash Image를 이용해 프롬프트와 이미지를 가지고 새 이미지를 생성하는 샘플 코드입니다.

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

향후 발전 방향

구글은 더 긴 텍스트를 이미지로 보여주는 기능, 더 정확한 캐릭터 표현, 실제와 같은 세부 묘사 개발에 집중하고 있습니다. 앞으로 더 똑똑하고 사실적인 이미지 모델을 기대해도 좋습니다.


출처 : Introducing Gemini 2.5 Flash Image, our state-of-the-art image model - Google Developers Blog