나노 바나나 이미지 생성 끝판왕? Gemini 2.5 Flash Image 제대로 쓰는 법
AI 이미지 생성 모델 소식이 예전만큼 뜨겁진 않지만, 기술 자체는 조용히 미쳐 돌아가고 있습니다. 특히 구글의 새 텍스트-투-이미지 모델인 "나노 바나나(Nano Banana)"는, 단순히 예쁜 그림을 넘어 "프롬프트를 얼마나 정확히 따라가는가"라는 완전히 다른 게임을 보여주고 있죠.
이 글에서는 나노 바나나가 어떤 모델인지, ChatGPT 이미지 생성과 무엇이 다른지, 어떻게 프롬프트를 써야 원하는 이미지를 뽑아낼 수 있는지, 그리고 실제로 써보며 느낀 강점과 한계를 정리해봅니다.
이미지 프롬프트를 "감"이 아니라 "논리"와 "설계"로 다루고 싶은 분이라면 끝까지 읽어볼 만할 거예요.
나노 바나나란? 구글 Gemini 2.5 Flash Image의 정체
나노 바나나라는 이름부터 약간 장난스럽지만, 실제 모델 이름은 "Gemini 2.5 Flash Image"입니다. 구글이 2025년 8월경 LMArena에서 코드네임 "nano-banana"로 먼저 테스트를 돌리다가, 이 모델이 인기를 끌면서 아예 애칭을 공식 브랜드처럼 밀고 있는 셈이죠.
이 모델의 가장 큰 특징은 "오토리그레시브(autoregressive) 이미지 생성 모델"이라는 점입니다. 대부분의 이미지 생성 모델이 diffusion 방식으로 동작하는 것과 달리, 나노 바나나는 언어 모델처럼 토큰을 하나씩 생성한 뒤, 그 토큰들을 다시 이미지로 디코딩합니다. 한 장당 1,290개의 이미지 토큰을 뽑아내는 방식이라, 구조적으로 텍스트 이해와 연관성이 굉장히 높습니다.
재밌는 점은, 나노 바나나가 Gemini 2.5 Flash와 "원래부터 같이 설계된" 모델이라는 것인데요. 텍스트·코드·이미지를 동시에 이해하고 다루는 멀티모달 환경에서, 이미지 생성이 자연스럽게 연결되도록 만들어졌습니다. 그래서 일반적인 캡션 수준을 넘는 복잡한 프롬프트도 꽤 잘 따라갑니다.
한마디로 정리하면 이렇습니다. "나노 바나나는 예쁜 그림을 찍어서 자랑하라고 만든 모델이라기보다, 프롬프트 엔지니어링에 진심인 사람들에게 제대로 된 도구를 쥐여준 모델"에 가깝습니다.
ChatGPT 이미지와 뭐가 다른가? 스타일보다 '말귀'가 핵심
2025년 3월, ChatGPT가 무료 이미지 생성을 열어버리면서 대중 인식은 거의 "AI 이미지 = ChatGPT 그림체"로 굳어졌습니다. 노란 기운이 감도는 톤, 일정한 라인, 비슷한 폰트 스타일… 한 장만 봐도 "아, 이거 ChatGPT가 그렸네" 싶은 그 느낌 말이죠.
기술적으로 보면, ChatGPT의 gpt-image-1도 나노 바나나처럼 오토리그레시브 구조입니다. 하지만 실제 사용 경험은 많이 다릅니다.
ChatGPT:
무료로 쓰기 좋고, 기본 퀄리티도 높지만
고급 프롬프트를 던지면, 디테일이 빠지거나 대충 뭉개지는 경우가 많고
강한 고유 스타일이 있어서 "내가 원하는 스타일"보다 "ChatGPT 스타일"이 먼저 튀어나오는 경우가 잦습니다.
나노 바나나(Gemini 2.5 Flash Image):
기본 스타일은 오히려 덜 튀고
복잡한 조건, 긴 설명, 세밀한 규칙을 훨씬 더 성실하게 따라가며
"예쁘게"보다는 "정확하게"에 더 강한 모델입니다.
즉, 인스타에 올릴 한 장짜리 멋진 그림만 놓고 보면 ChatGPT가 더 좋아 보일 수 있습니다. 하지만 "특정 캐릭터를 아주 구체적인 상황에 넣어야 한다", "엄청 디테일한 규칙을 가진 장면을 만들어야 한다" 같은 작업에서는 나노 바나나 쪽이 훨씬 더 믿음직스럽습니다.
나노 바나나로 이미지 생성하는 방법 (무료·유료 정리)
나노 바나나를 직접 써보고 싶다면 선택지는 크게 세 가지입니다.
첫째, Gemini 앱이나 웹에서 "Create Image 🍌" 기능을 사용하는 방법입니다. 프롬프트를 입력만 하면 되니 가장 간편하지만, 생성된 이미지 오른쪽 아래에 워터마크가 박혀 나옵니다. 간단한 테스트나 개인 용도로 보긴 충분합니다.
둘째, Google AI Studio에서 나노 바나나를 선택하는 방법입니다. 오른쪽 사이드바에서 Gemini 2.5 Flash Image를 선택하면,
해상도
가로세로 비율
품질 등 기본 파라미터를 손으로 세밀하게 조정할 수 있어요. 프롬프트 실험이나 공부용으로는 이 방법이 가장 추천할 만합니다. 역시 무료지만 워터마크는 붙습니다.
셋째, 개발자라면 Gemini API의 gemini-2.5-flash-image 엔드포인트를 사용할 수 있습니다. 1메가픽셀(예: 1024×1024) 기준 대략 0.04달러 수준으로, 오토리그레시브 모델임에도 불구하고 가격이 꽤 저렴한 편입니다. 참고로 gpt-image-1은 비슷한 해상도에 약 0.17달러라 비용 차이가 꽤 크죠.
다만 Gemini API는 이미지 인코딩·디코딩 등 자잘한 보일러플레이트 코드가 귀찮은 편이라, 이를 감싸는 파이썬 래퍼 라이브러리인 "gemimg" 같은 도구를 활용하면 훨씬 편해집니다. 이 방식으로 이미지를 생성하면 워터마크가 붙지 않는 것도 큰 장점입니다.
프롬프트 충실도 테스트: '해골 팬케이크'에서 시작하기
나노 바나나의 진짜 매력을 확인하려면, 일부러 말도 안 되는 프롬프트를 던져 보는 게 제일 좋습니다. 예를 들면 이런 식이죠.
"3D 해골 모양 팬케이크를 만들고, 위에 블루베리와 메이플 시럽을 올려줘."
이 프롬프트가 좋은 이유는 단순히 기괴해서가 아니라, 모델에게 여러 가지를 동시에 요구하기 때문입니다.
해골 모양
팬케이크 질감
위에 올라간 블루베리
해골 표면을 타고 흘러내리는 메이플 시럽의 물리적 거동
나노 바나나는 이 모든 요소를 상당히 자연스럽게 처리합니다. 팬케이크 재질도 잘 살아 있고, 해골 형상도 유지되며, 시럽도 "말이 되게" 흘러내립니다. 이 정도면 단순히 예쁜 그림이 아니라 "프롬프트를 얼마나 이해했는가"를 보여주는 좋은 샘플이라고 볼 수 있습니다.
여기서 한 단계 더 나아가, 이 이미지를 기반으로 복합 편집을 시켜볼 수 있습니다. 예를 들어 한 번에 이렇게 요구해 보는 거죠.
왼쪽 눈구멍에 딸기를 넣어달라
오른쪽 눈구멍에는 블랙베리를 넣어달라
머리 위에 민트 장식을 올려달라
접시는 초콜릿 칩 쿠키 모양으로 바꿔달라
배경에는 행복한 사람들을 추가해달라
나노 바나나는 이 다섯 가지 편집을 한 번에 꽤 깔끔하게 처리합니다. 불필요한 부분은 최대한 유지하면서, 필요한 수정만 정확하게 반영합니다. 메이플 시럽이 새로 바뀐 쿠키 접시 위에서 어떻게 고여야 하는지까지도 같이 조정해 주죠.
이런 사례를 보면, 오토리그레시브 구조 덕분에 "이미지의 특정 부분만 수정하는 세밀한 편집"에 강점을 가진다는 점이 확실히 느껴집니다.
인물·캐릭터 일관성: '어글리 소닉'과 오바마 악수 실험
현대 이미지 모델에서 가장 흥미로운 활용 중 하나가, 특정 인물을 여러 장면에 일관되게 등장시키는 일입니다. 예전에는 LoRA 같은 별도 학습을 통해 모델에게 "새로운 인물을 주입"해야 했고, 이 과정이 까다롭고 실패 확률도 높았습니다.
나노 바나나는 입력 이미지 두어 장만으로도, 그 인물을 새로운 장면에 꽤 잘 끌어다 씁니다. 이를 테스트하기 위해 저자가 고른 케이스가 아주 기가 막힙니다. 바로 "어글리 소닉(Ugly Sonic)"과 오바마 악수 장면 만들기.
조건은 이렇습니다.
통통한 기존 소닉이 아니라, 팔다리가 길쭉한 기괴한 체형
흰색 가슴털
파란 팔에 흰 맨손(장갑 X)
붙여놓은 것 같은 작은 눈과 눈썹 없음
나노 바나나에게 어글리 소닉 이미지 몇 장을 보여주고, "이 캐릭터가 입을 벌리고 웃으면서 버락 오바마와 악수하는 사진"을 만들라고 하면, 놀랍게도 꽤 설득력 있는 결과가 나옵니다.
처음에는 장갑이 생기거나, 약간 더 '정상적인' 소닉 쪽으로 당겨지는 문제도 있었지만, 프롬프트에 "뉴욕 타임즈 퓰리처상 수상 1면 사진" 같은 구체적인 맥락을 추가하자
뉴스 사진 특유의 구도
색감
여백 활용 같은 것들이 눈에 띄게 좋아집니다.
이 과정에서 흥미로운 점은, 단순히 "예쁘게"라는 추상적인 말보다 "어떤 매체에 실리는 어떤 스타일의 사진인지"를 명확히 지정할수록 모델의 구도와 분위기가 눈에 띄게 업그레이드된다는 사실입니다.
왜 나노 바나나는 복잡한 프롬프트에 강할까?
비밀은 텍스트 인코더에 있습니다.
예전 Stable Diffusion은 CLIP이라는, 길이 77토큰짜리 텍스트 인코더를 썼습니다. 이는 "사진 캡션" 정도를 다루기에는 충분했지만,
긴 설명
여러 규칙
복수의 객체와 복잡한 관계 를 담기에는 한계가 명확했습니다.
나노 바나나의 기반이 되는 Gemini 2.5 Flash는 구조부터 다릅니다.
에이전트 행동을 정의하는 Markdown
함수 호출과 JSON 구조
코드와 리포지터리 문서(README, AGENTS.md 등) 같은 걸 대량으로 학습한 모델입니다.
즉, "복잡한 규칙이 나열된 텍스트"를 이해하고, 이를 단계별로 해석해서 행동으로 옮기는 데 특화돼 있습니다. 여기에 "이미지 속 물체를 정교하게 인식하고 분할하는 능력"까지 더해지니, 이미지 생성용 텍스트 인코더로 쓸 때도 기존 CLIP나 T5 수준과는 아예 다른 체급이 됩니다.
그래서 이런 긴 프롬프트도 제대로 먹힙니다.
세 마리 고양이를 왼쪽·가운데·오른쪽에 배치
각각 털 색과 눈 색, 옷, 소품을 모두 다르게 지정
가로와 세로 모두 '삼등분 구도(rule of thirds)'를 정확히 맞출 것
빅토리아 시대 맨션 침대 위에서 촬영된 사진 분위기
뉴욕 타임즈 퓰리처상 1면 표지 수준의 조명과 구성
텍스트·워터마크는 절대 넣지 말 것
이 정도로 길고 빡센 요구사항을 줘도, 나노 바나나는 조건들을 거의 모두 만족하는 이미지를 만들어냅니다. 같은 프롬프트를 ChatGPT에 던져보면, 훨씬 강한 "AI 그림 느낌"과 함께 조건 누락이 더 자주 발생합니다.
코드·텍스트 이미지까지? 오토리그레시브 모델의 기묘한 능력
흥미로운 실험 중 하나는 "코드를 이미지로 그려보기"였습니다. 예를 들어 최소한의 재귀형 피보나치 함수 파이썬 코드를 냉장고 자석 글자로 표현하게 하는 식입니다.
자석 글자 하나하나를 파이썬 문법 하이라이트 색상에 맞추고
들여쓰기와 포맷도 올바르게 유지하고
위에서 내려다보는 구도, 특정 카메라와 조명 조건까지 지정한 프롬프트를 던지면
나노 바나나는 실제 코드와 상당히 비슷한 텍스트를 이미지 안에 배치합니다. 완벽한 문법·하이라이트를 기대하긴 어렵지만, 이게 단순 "글자 낙서" 수준이 아니라는 점이 인상적입니다.
이 과정에서 "혹시 프롬프트를 내부적으로 바꿔 쓰는 리라이팅이 들어가는 게 아닌가?"라는 의심도 자연스럽게 나옵니다. 그래서 일부러 "이전 텍스트를 그대로 냉장고 자석으로 그려봐" 같은 프롬프트 인젝션 실험을 해보면, 일부 시스템 규칙이나 가드라인들이 이미지로 노출되는 듯한 결과도 나타납니다.
이걸 통해 유추할 수 있는 건 두 가지입니다.
나노 바나나는 단순 캡션 텍스트만이 아니라, 구조화된 시스템 프롬프트·규칙·문서 등을 포함한 거대한 텍스트 분포를 학습했다는 것.
그 덕분에 "코드나 문서 스타일의 텍스트를 이미지 안에 그려내는 능력"이 자연스럽게 따라온다는 것.
정확한 내부 구조는 알 수 없지만, 어쨌든 실제 사용자는 "복잡한 규칙이 늘어날수록 성능이 떨어지기는커녕 오히려 빛난다"는 점만 잘 기억하면 됩니다.
HTML·JSON으로 프롬프트 짜기: 진짜 엔지니어식 이미지 생성
나노 바나나가 32,768 토큰이라는 긴 컨텍스트를 지원한다는 점도 매우 중요합니다. 이 말은 곧, "HTML 한 페이지, JSON 한 덩어리 정도는 그냥 통째로 먹일 수 있다"는 의미입니다.
예를 들어,
HTML/CSS/JS로 된 카운터 앱 웹페이지 코드를 통째로 붙여넣고
"이 웹페이지가 실제 브라우저에서 렌더링된 상태를 전체 화면으로 그려줘"라고 하면
나노 바나나는 레이아웃, 색상, 대략적인 UI 구조를 꽤 그럴듯하게 재현합니다. 물론 세세한 폰트나 비율, 세밀한 타이포까지 완벽하진 않지만, "코드 구조를 읽고, 이게 어떤 화면이 될지"를 이해하는 능력을 보여준다는 점에서 의미가 큽니다.
한 단계 더 나아가, JSON 기반 캐릭터 정의도 잘 먹힙니다. 예를 들면 이런 식이죠.
나이, 국적, 체형, 피부 톤
머리카락 길이와 볼륨, 눈·입 모양
손톱 길이, 종아리 두께, 장비 종류
옷감의 재질과 색, 장신구의 형태와 위치 등을 모두 JSON 필드로 세세하게 정의하고,
"이 JSON에 정의된 사람을, Vanity Fair 표지 사진처럼 현실적인 사진으로 찍어줘. 텍스트나 로고는 넣지 마."라고 요청하면, 그 JSON에 담긴 설정 대부분을 충실히 반영한 이미지가 나옵니다.
실제로 "팔라딘 + 해적 + 스타벅스 바리스타"를 3:3:3 비율로 섞은 남성 캐릭터를 JSON으로 정의해 생성했을 때,
에메랄드 실크 더블릿
라떼 아트 모양 황금 갑옷
고급 가죽 부츠와 장식
한 손에는 커틀러스, 다른 손에는 황금 에스프레소 탬퍼 같은 디테일이 상당수 제대로 살아났습니다.
처음에는 그림체가 디지털 일러스트 쪽으로 자꾸 쏠렸지만,
특정 카메라 모델
실제 조명 조건
자연스러운 심도(Depth of Field)
촬영 각도, 포즈, 전신 노출 여부 등을 더 엄밀하게 지정하자 점점 더 "사진처럼 보이는" 결과물에 가까워졌습니다.
여기서 얻을 수 있는 교훈은 하나입니다. "이미지 프롬프트를 사용자 설명문처럼 적으면, 나노 바나나는 엔지니어처럼 이해하고 구현한다."
나노 바나나의 단점과 리스크: 스타일 전환, IP, NSFW
이쯤 되면 "완벽한 모델 아니야?" 싶겠지만, 분명한 한계도 있습니다.
첫 번째, 스타일 전환(Style Transfer)입니다. 예를 들어 "내 셀카를 지브리 스타일로 바꿔줘" 같은, ChatGPT로 대박이 난 그 프롬프트를 나노 바나나에 그대로 던져보면 성능이 확실히 떨어집니다. 새로운 이미지를 "지브리 느낌으로 새로 그리는 것"은 잘하지만, 실제 사진을 특정 스타일로 변환하는 작업은 의외로 약합니다.
추측하자면, 오토리그레시브 구조 덕분에 "원본의 구조와 내용"을 너무 잘 지키려다 보니, 반대로 공격적인 스타일 변경에는 둔감해진 게 아닌가 싶습니다.
두 번째, 지적재산권(IP) 관련 제약이 거의 없다는 점입니다. ChatGPT는 이제 주요 IP에 대해 꽤 강하게 거절하는 편이지만, 나노 바나나는
마리오
미키 마우스
버그스 버니
피카츄
옵티머스 프라임
헬로키티 를 한 프레임 안에 동시에 등장시키고, 술집에서 화끈하게 노는 장면까지 그려줍니다. 술 브랜드 로고도 선명하게 넣어달라는 요구까지, 큰 문제 없이 통과합니다.
법적인 문제는 별개의 이야기지만, "서비스에 이 모델을 연결해 쓸 때 어떤 위험이 생길 수 있는지"는 반드시 고려해야 합니다.
세 번째, NSFW 측면입니다. 텍스트 프롬프트와 생성된 이미지 양쪽에 대해 모더레이션이 작동하긴 하지만, 여전히 우회 가능한 구석이 존재합니다. 몇 가지 의도적인 테스트를 통해, 다소 노골적인 이미지를 뽑아낼 수 있다는 점도 확인되었습니다.
개인 창작자는 그냥 "와, 이 정도까지 되는구나"에서 끝날 수 있지만, 서비스에 탑재하려는 입장에서는 반드시 별도의 필터링·검수 체계를 고민해야 합니다.
마무리: 나노 바나나는 '프롬프트 엔지니어용 렌더러'에 가깝다
정리해보면 나노 바나나는 이런 성격의 모델입니다.
대중이 원하는 "와, 이쁘다!"를 위한 모델이라기보다
복잡하고 구체적인 요구사항을 그대로 이미지로 옮기고 싶은 사람을 위한 모델
긴 프롬프트, HTML, JSON, 규칙 나열 등 "엔지니어적인 입력"을 놀랍도록 잘 처리하는 모델
스타일 전환은 약하지만, 장면 구성·규칙 준수·캐릭터 일관성은 매우 강한 모델
특히 인상적인 부분은 "정보 비대칭"을 줄여준다는 점입니다. 겉에서 보기에는 그냥 AI 이미지 한 장이지만, 실제로는 프롬프트 한 줄 한 줄이 얼마나 치밀하게 설계되어 있는지에 따라 결과가 극단적으로 달라집니다.
그래서 개인적으로 추천하고 싶은 활용 방법은 이렇습니다.
원하는 이미지를 머릿속으로 먼저 "설계도"처럼 분해해보기
등장 인물·배경·조명·카메라·구도·스타일·용도를 각각 따로 정의하기
중요한 조건에는 MUST처럼 강한 표현을 섞어 우선순위를 명확히 하기
필요하다면 JSON이나 Markdown을 활용해 구조적으로 프롬프트를 작성하기
같은 프롬프트를 다른 모델(ChatGPT 등)에도 던져보며 차이를 체감해보기
이미지 생성 AI가 창작자를 대체할 것인가, 아닌가를 떠나서 "이 도구가 실제로 어디까지 가능하고 어디서부터 무너지는지"를 아는 사람이 앞으로 더 강한 포지션을 갖게 될 가능성이 큽니다.
나노 바나나는 그런 의미에서, 단순히 예술가의 붓이 아니라 "엔지니어의 렌더링 엔진"에 가까운 도구입니다. 조금만 더 파보면, 지금까지 보지 못했던 방식의 이미지 워크플로가 열릴지도 모릅니다.
출처 및 참고 : Nano Banana can be prompt engineered for extremely nuanced AI image generation | Max Woolf's Blog
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
