메인 콘텐츠로 건너뛰기
page thumbnail

Flux 2와 나노바나나, 오픈소스 AI 이미지·영상 누가 유리할까?

DODOSEE
DODOSEE
조회수 263
요약

클립으로 정리됨 (생성형 AI 활용)

출처 및 참고 : https://www.youtube.com/watch?v=D0_QGrdtvEg

Generated imageFlux 2가 드디어 공개됐습니다. 동시에 새로운 오픈소스 비디오 모델과, 나노바나나를 겨냥한 중국발 이미지 모델, 정체를 알 수 없는 영상 모델까지 한꺼번에 등장했습니다. 한 번에 정리해 보겠습니다.

Flux 2, 어떤 점이 달라졌나

Black Forest Labs는 그동안 Flux 1 → Flux Tools → Flux Context → Flux 2라는 흐름으로 모델을 계속 확장해 왔습니다.

  • 2024년 8월: 기본 이미지 모델인 Flux 1 공개

  • 2024년 11월: Flux Tools 출시

    • 인페인팅(부분 수정) 성격의 Fill,

    • Depth, Canny 기반 제어 기능 제공

  • 2025년 5월: 이미지 편집용 Flux Context 공개

  • 그리고 지금, Flux 2가 새로 추가됐습니다.

Flux 2가 전면에 내세우는 핵심은 다음과 같습니다.

  • 최대 4메가픽셀 해상도에서 현실감 있는 이미지 생성

  • 손·발·천·로고·소형 물체 같은 디테일이 더 정확해짐

  • 조명, 공간 배치에 대한 이해가 늘어 실사 느낌 강화

  • JSON 형식 프롬프트 지원 (다른 이미지 모델도 형식상 가능하지만, Black Forest Labs는 이를 하나의 장점으로 강조)

  • HEX 컬러 코드를 이해하고 재현 가능

모델 라인업도 세분화돼 있습니다.

  • Flux 2 Pro

  • Flux 2 Flex

  • Flux 2 Dev

  • Flux 2 Klein (오픈소스 버전, 곧 공개 예정)

  • Flux 2 VAE (현재 Hugging Face에서 사용 가능)

접근 경로도 다양합니다. 영상 기준으로는 출시 직후부터 여러 플랫폼에 올라와 있었고, 일주일 내에 거의 모든 주요 서비스에서 사용할 수 있을 것이라는 전망이 나왔습니다.

실제 이미지 결과: 디테일·스타일 성향은?

영상에서 소개된 예시를 기준으로 Flux 2의 결과물을 정리해 보면 특징이 꽤 분명합니다.

  1. Area 51 수트 남자 + 늑대 이미지

  • 이전 영상에서 등장했던 파란 비즈니스 수트 남자와 늑대를 다시 활용해 테스트

  • 이번에는 Area 51의 창고에서 수상한 상자를 연 상황으로 설정

  • Flux 2는 요청한 요소를 모두 반영했고,

    • 수트의 질감,

    • 얼굴 조명,

    • 주변 먼지 입자와 빛 표현이 상당히 자연스럽게 나왔습니다.

  • 피부 질감이 예전보다 훨씬 덜 왁스처럼 보인다는 평가도 있었습니다.

  • 이어서 해당 캐릭터가 어딘가로 순간이동하는 장면도 생성했는데, 서사적으로 캐릭터가 "다음 모험으로 넘어갔다"는 식의 연출에 잘 어울리는 결과였습니다.

  1. 파리 카페에서 커피 마시는 우주비행사

  • 파리 카페 야외석,

  • 커피를 마시는 우주비행사,

  • 그를 향해 손짓하는 사람들,

  • 뒤쪽에는 캐릭터 한 명이라는 조건으로 생성

  • 손 모양이 많이 무너지는 기존 모델들의 문제와 달리, 손가락 표현이 전반적으로 안정적이었습니다.

  • 우주복 헬멧의 반사 표현도 꽤 섬세했습니다.

  • 다만, 커피컵 손잡이를 빼먹고, 받침 접시도 같이 들어 있는 컵을 만들었고, 우주비행사가 커피를 양손에 하나씩 들고 있는 설정이라 세부 정합성은 다소 어색했습니다.

  1. 해적 주점의 난장판

  • 해적 선술집에서 벌어진 시끄러운 밤이라는 설정으로 생성

  • 인물과 물건이 빽빽하게 들어간 장면인데도,

    • 전경·중경·배경에 다양한 인물과 액션이 자연스럽게 채워져 있습니다.

  • 일부 인물은 AI 특유의 어색한 비율이 보이지만,

    • "해적들이 어느 정도로 취한 상태인지 알 수 없으니, 이 정도는 감안 가능하다"는 식의 코멘트가 붙었습니다.

여기까지만 보면 Flux 2는 풍부한 디테일과 다이나믹한 장면 구성에 강점을 보이지만, 동시에 약간의 일러스트 성향도 드러납니다. 이 부분이 다음 섹션에서 중요하게 이어집니다.

Flux 2, 레퍼런스 이미지를 줄수록 강해진다

Flux 2는 기본 프롬프트만 사용하면 살짝 게임 그래픽이나 일러스트에 가까운 느낌으로 흐르는 경향이 있습니다. 이를 보완하는 방법으로 영상에서는 이미지 레퍼런스 활용을 제안합니다.

  1. 폴아웃 풍 보금자리 주민(Vault Dweller)

  • 단순 텍스트 프롬프트로 생성했을 때는 언리얼 엔진 느낌의 게임 그래픽에 가까웠습니다.

  • 같은 프롬프트를 Midjourney로 만든 레퍼런스 이미지와 함께 넣자,

    • 결과물이 훨씬 자연스럽고,

    • 원본 캐릭터의 특징을 상당 부분 유지한 채 재해석된 이미지가 나왔습니다.

  1. FBI 요원 + 미국 북서부 다이너

  • 북서부 소도시 다이너에서 커피를 마시는 FBI 요원이라는, 영상 채널에서 자주 쓰이던 미학을 테스트

  • 왼쪽에 Midjourney로 만든 레퍼런스 이미지, 오른쪽에 Flux 2 결과를 배치해 비교

  • Flux 2 결과에서

    • 인물의 외형과 분위기,

    • 두 잔의 커피라는 요소가 잘 유지됐고,

    • 다이너 내부의 조명과 공기감도 자연스러웠습니다.

  • 비를 맞으며 다이너 앞에 서 있는 FBI 요원 장면에서도,

    • 원본 레퍼런스 인물이 그림자 속에 있어 정보가 많지 않은데도

    • Flux 2가 꽤 비슷한 인상을 재구성하는 모습을 보였습니다.

정리하면, Flux 2는 단일 프롬프트만으로도 결과가 나쁘지 않지만, 레퍼런스 이미지를 함께 넣을 때 진가가 드러나는 타입에 가깝습니다. 특히 캐릭터 일관성을 유지하려 할 때, 레퍼런스를 활용하면 시퀀스 전체의 인물 연속성이 꽤 안정적으로 나옵니다.

여러 레퍼런스를 한 번에: Flux 2 vs 나노바나나

영상에서는 Flux 2와 Nano Banana Pro(나노바나나 프로)를 직접 맞붙이는 실험도 있었습니다. 다만 화자는 두 모델이 지향점이 다르기 때문에 단순 승부 구도로 보는 건 적절하지 않다고 선을 긋습니다. 그 전제를 깔고 결과를 비교했습니다.

  1. 두 캐릭터 + 한 장소를 합성하는 테스트

  • 두 명의 캐릭터 이미지하나의 장소 이미지를 레퍼런스로 넣고,

  • 두 사람이 그 장소에 함께 있는 장면을 생성

  • Flux 2 결과:

    • 두 캐릭터가 실제로 그 공간에 들어와 있는 느낌이 강했습니다.

    • 다만, 장소의 색감이 원본과 조금 달라진 점은 있습니다.

  • Nano Banana Pro 결과:

    • 장소의 색감과 톤은 원본과 더 일치하지만,

    • 캐릭터가 조금 복붙된 듯한 느낌이 남았습니다.

  • 캐릭터 보존 측면만 보면 Flux 2 쪽이 조금 더 낫다는 평가였습니다.

  1. Flux 2에서 발생한 추가 팔(3번째 팔) 문제

  • 여러 이미지를 조합한 과정에서 캐릭터 한 명에게 팔이 3개인 결과가 한 번 나왔습니다.

  • 화자는 오히려 이런 실수를 오랜만에 봐서 반가웠다고 농담을 했고,

  • 편집 단계에서 "남자의 세 번째 팔을 제거해 달라"는 식으로 다시 프롬프트를 넣어 수정해 문제를 해결했습니다.

  • 즉, 모델 자체가 완벽해진 것은 아니지만, 후편집과 조합을 고려하면 충분히 보정 가능한 수준이라는 뜻에 가깝습니다.

  1. 카메라를 반대편으로 돌려보기: 180도 룰 테스트

  • 목표: 같은 두 인물을 두고, 카메라를 방의 반대편으로 옮긴 시점의 장면을 만들 수 있는지 확인

  • Flux 2 결과:

    • 배경이 아예 똑같이 반복되지는 않고, 반대쪽 벽을 본 듯한 새로운 배경을 보여줍니다.

    • 다만, 프롬프트에서 명시적으로 180도 룰을 깨 달라 요청했는데도,

      • 남자는 여전히 왼쪽, 여자는 오른쪽에 서 있는 구도가 유지됐습니다.

  • Nano Banana Pro 결과:

    • 방 안의 테이블이 양쪽 이미지에서 일관되게 등장해 공간 이해도는 조금 더 높은 인상을 줍니다.

    • 그리고 실제로 두 인물의 위치를 반대로 뒤집는 데 성공해, 요청대로 180도 룰을 깨는 장면을 생성했습니다.

  1. 여러 이미지를 하나의 캔버스로 묶어 레퍼런스 제공

  • 세 장의 이미지를 한 캔버스에 붙여 하나의 레퍼런스로 넣는 실험도 진행

  • Flux 2 결과는

    • 전반적인 미적 완성도와 분위기가 화자의 취향에 더 잘 맞는 편으로 나왔습니다.

  • Nano Banana Pro 결과도 나쁘지 않았지만,

    • 화자는 개인적으로 Flux 2 결과 쪽에 더 손을 들어줬습니다.

이 부분을 종합하면:

  • 공간 이해와 카메라 구도 회전은 나노바나나가 한 발 앞서 있고,

  • 캐릭터 일관성과 다중 레퍼런스 조합의 미학적 완성도는 Flux 2가 강점을 보이는 구도에 가깝습니다.

커뮤니티 예시로 본 Flux 2의 편집 능력

영상에서는 커뮤니티 생성 사례도 함께 소개합니다. 여기서는 Flux 2의 편집·보정 능력이 더 잘 드러납니다.

  • Brent Lynch:

    • 1940년대 누아르 탐정 장면을 Flux 2로 제작

    • 모델이 담배 연기를 어색한 위치에 배치하는 습관이 보였는데,

      • 예를 들어, 바로 옆에 재떨이가 있는데도 마치 바닥에 불 붙은 담배를 버린 것처럼 보이는 연기가 표현되는 식입니다.

  • Alex GU Media:

    • 동일한 이미지에서 여성의 드레스 색을 빨간색으로 교체하는 간단한 편집을 시연

    • 인물과 배경, 조명, 소품 등 나머지 요소는 그대로 유지되고,

    • 드레스 색만 바뀌는 결과가 안정적으로 나왔습니다.

    • 이런 작업은 몇 년 전만 해도 포토샵에서 수작업으로 한참 걸리던 작업이라는 점을 상기시키는 예시였습니다.

  • Heather Cooper:

    • 등대가 보이는 사진 스타일 이미지를 Flux 2로 생성

    • 35mm 필름 그레인,

    • 스크래치(필름 손상 표현),

    • 등대 주변의 빛 번짐(블룸) 등이 꽤 설득력 있게 재현됐습니다.

전체적으로 봤을 때, Flux 2는 생성뿐 아니라 기존 이미지의 특정 요소만 바꾸는 편집에도 유용한 툴로 자리 잡을 가능성이 있습니다. 특히 오픈소스 버전(Klein)이 공개되면, 이런 편집 기능을 워크플로우에 맞춰 커스터마이즈하려는 시도가 많이 나올 것으로 보입니다.

Flux 2와 나노바나나, 굳이 승부를 가릴 필요가 있을까

영상의 화자는 "Flux 2가 나노바나나를 이겼다 / 못 이겼다" 식의 단순 비교에 선을 긋습니다.

  • 두 모델이 비슷한 문제를 해결하지만, 완전히 같은 지향점을 가진 것은 아니다라는 입장입니다.

  • 특히 중요한 차이는 Flux 2의 오픈소스 계획입니다.

    • Flux 2 Klein이 공개되면,

    • 다양한 연구자와 개발자가 모델을 다른 방향으로 튜닝하고, 기능을 붙이고, 파생 버전을 만드는 생태계가 형성될 가능성이 큽니다.

그래서 화자는 "둘 중 하나만 남는다"는 관점보다, 서로 다른 장점이 있는 모델이 병존하는 환경이 오히려 사용자에게 이익이라는 방향으로 정리합니다. 선택지가 많을수록 자신의 워크플로우에 맞는 조합을 찾기 수월해진다는 점을 강조하는 뉘앙스에 가깝습니다.

오픈소스 비디오 모델: Hunan Video 1.5

이미지 쪽이 Flux 2와 나노바나나 중심이라면, 영상에서는 오픈소스 비디오 모델도 하나 짚고 넘어갑니다. 이름은 Hunan Video 1.5입니다.

이 모델의 주요 정보는 다음과 같습니다.

  • 텍스트 → 비디오, 이미지 → 비디오 지원

  • 상대적으로 가벼운 모델을 지향

  • 요구 사양: NVIDIA GPU 14GB VRAM 정도

  • 5~10초 길이의 영상 생성 가능

  • 해상도:

    • 기본 480p, 720p,

    • 업스케일을 통해 최대 1080p까지

    • 단, 14GB GPU로 바로 1080p 생성은 현실적으로 어렵고,

      • 낮은 해상도로 만든 뒤 슈퍼해상도(업스케일)로 올리는 구조

  • 로컬 실행 가능,

  • Comfy Cloud에서도 이용 가능

영상 제작자는 Hunan Video 1.5를 직접 깊게 테스트할 시간은 아직 없었다고 언급합니다. 다만, 로컬에서도 돌릴 수 있는 경량형 오픈소스 비디오 모델이라는 점 때문에, 최소한 이름은 짚고 넘어갈 만하다고 판단한 것으로 보입니다.

또한, 본인은 Comfy Cloud 사용을 막 시작한 상태이고, 초보자용 가이드도 조만간 제작할 계획이라고 밝힙니다.

나노바나나 왕좌를 노리는 ByteDance의 Cadream Lab

이미지 모델 쪽에서 또 하나 눈에 띄는 소식은 ByteDance(바이트댄스) 계열 서비스의 Cadream(카드림)Lab 모델입니다.

영상에서는 이 모델을 나노바나나 왕좌에 도전하는 후보 정도로 다룹니다.

  • 이 소식은 BD Squz(또는 Blue Dragon)이라는 사용자가 먼저 포착한 것으로 소개됩니다.

  • Cadream의 Lab 모델은 기능적으로 나노바나나와 비슷한 류의 "일러스트-실사 하이브리드" 이미지 생성을 목표로 합니다.

몇 가지 포인트가 있습니다.

  1. 기본 해상도

  • Lab 모델은 기본 출력 해상도가 2K 수준입니다.

  • 즉, 디폴트가 이미 고해상도라는 점이 구조적인 장점입니다.

  1. 동시 생성 이미지 수

  • 한 번에 최대 4장의 이미지를 동시에 생성할 수 있습니다.

  • 프롬프트 한 번으로 여러 버전을 비교하며 고를 수 있다는 것이 나노바나나 대비 실질적인 사용성 장점으로 언급됩니다.

  1. 재질 변경(리텍스처링) 예시

  • 영상에서는 기존 이미지를 입력 이미지로 넣고, 나노바나나와 Lab 모델을 동시에 테스트합니다.

  • 입력 이미지 기준: 한 장

  • 출력 이미지:

    • 나노바나나 결과 1장,

    • Lab 모델 결과 2장 (총 2장)

  • Lab 모델이 질감과 패턴을 바꿔 재질을 재구성하는 능력에서 꽤 준수한 결과를 보여줍니다.

  1. 포즈 레퍼런스 적용 능력

  • 상당히 부자연스러운 포즈를 레퍼런스로 넣는 테스트도 진행했습니다.

    • 영상에서 "우리 모두가 항상 이렇게 앉아 있다"고 농담을 할 만큼 현실적이지 않은 자세입니다.

  • 나노바나나 결과와

  • Lab 모델의 두 가지 결과를 비교했을 때,

    • Lab 모델도 포즈 레퍼런스를 꽤 잘 따라가는 편으로 나왔습니다.

  • 특히 동시에 여러 장을 뽑아 비교할 수 있다는 점이 이런 실험에서 장점으로 작용합니다.

  1. 접근성

  • 현재 이 Lab 모델은 중국 내에서만 사용 가능하다고 합니다.

  • ByteDance의 서구권 플랫폼인 Dreamina(드리미나)에는 아직 올라오지 않았습니다.

  • 다만, 일반적으로 중국 내에서 먼저 시작된 기능이 이후 Dreamina로 넘어오는 패턴이 있기 때문에,

    • 화자는 나중에 Dreamina에서도 이 모델을 사용할 수 있을 가능성이 높다고 보고 있습니다.

나노바나나에 적응해 있는 사용자 입장에서는, 동일한 작업을 다른 스타일로 처리해 볼 수 있는 대체 옵션이 생기는 셈입니다.

정체불명 비디오 모델: Whisper Thunder

영상 후반부에서는 Whisper Thunder라는 이름의 정체불명 영상 모델도 다룹니다.

  • Artificial Analysis Arena라는 벤치마크/리더보드에서 결과물만 등장하고 있고,

  • 개발사나 구조 등 구체 정보는 공개되지 않은 상태입니다.

공개된 결과물 기준으로 특징을 정리하면 다음과 같습니다.

  • 해상도: 720p, 길이는 약 5초짜리 영상

  • 특히 패닝(좌우 이동)과 트래킹 샷 같은 카메라 움직임이 들어간 장면에서 안정적입니다.

예시 프롬프트는 꽤 독특합니다.

  1. 버터로 만들어진 남자가 부엌에서 녹기 시작하는 장면

  • 화자는 이 프롬프트를 본인이 고른 것이 아니고,

    • Artificial Analysis 리더보드 쪽에서 올라오는 프롬프트를 그대로 가져온 것이라고 설명합니다.

  • 결과물은 5초 분량이지만,

    • 물성 표현과 형태 변화가 꽤 자연스러워 보였습니다.

  1. 지하철역에서 연주하는 밴드

  • 드럼 풀 세트를 지하철역에서 두드리는 장면이 등장하는 영상입니다.

  • 사람들의 움직임과 악기, 카메라 워킹이 동시에 얽혀 있어서

    • AI 영상 모델이 형태 붕괴(occlusion, morphing, vanish 등)를 일으키기 쉬운 환경인데,

    • Whisper Thunder는 이 상황에서도 큰 붕괴 없이 안정적인 프레임을 유지했습니다.

  • 특히 트렌치코트를 입은 남성이 화면 앞을 가로지르는 장면처럼,

    • 인물이 다른 인물을 가리는 상황에서도 인물들이 겹치며 사라지거나 뒤틀리는 일이 많지 않았다고 평가합니다.

  • 다만 화자는 이 드러머의 연주에 대해 "비트는 그리 안정적이지 않다"고 농담을 덧붙입니다.

현재로서는 이 모델의 출처나 상용화 계획이 공개되지 않았고, 화자는 계속 지켜보면서, 실체가 드러나면 다시 소개하겠다는 수준에서 마무리합니다.

짚고 넘어가야 할 몇 가지 (40대 IT/AI 관심 입장에서)

마지막으로, 40대 IT/AI 관심 사용자 관점에서 이 내용을 어떻게 받아들일지 몇 가지 포인트를 정리해 봅니다.

  1. Flux 2: 하드웨어와 워크플로우를 고려한 선택

  • Flux 2는 4MP 고해상도복잡한 장면 구성에 강점을 보여줍니다.

  • 다만, 이런 수준의 이미지를 빠르게 뽑으려면 GPU 자원이 어느 정도 뒷받침되어야 합니다.

  • 영상에서 언급된 예시를 보면, Flux 2를 제대로 활용하려면

    • 레퍼런스 이미지를 적극적으로 같이 쓰는 방식이 가장 효율적입니다.

  • 완전한 제로 프롬프트 성능보다는,

    • Midjourney나 기존 작업물 → Flux 2 리믹스 구조가 더 현실적인 활용 방식에 가깝습니다.

  1. 나노바나나 vs Flux 2: 결국 "어떤 작업을 하느냐"가 중요

  • 공간 이해와 카메라 회전은 나노바나나에 약간 더 손을 들어줄 만한 결과였습니다.

  • 반대로, 캐릭터 일관성과 미적 결과물, 특히 다중 레퍼런스 조합에서의 느낌은 Flux 2가 더 낫다는 평가가 있었습니다.

  • 개인 작업 기준으로는

    • 짧은 시퀀스 내에서 인물 일관성이 중요한 작업

    • 기존에 만들어둔 일러스트·렌더를 조금 더 실사에 가깝게 보정하고 싶은 경우 같은 시나리오에서 Flux 2가 더 적합해 보입니다.

  1. 오픈소스 비디오 모델: Hunan Video 1.5의 현실적 의미

  • 14GB VRAM이면 구동 가능하다는 점은,

    • 집에 RTX 4070급 GPU를 갖춘 사용자에게는 충분히 현실적인 기준입니다.

  • 5~10초 길이, 480p/720p 기준이라면

    • 짧은 B-roll 클립이나 프로토타입 영상 제작에는 쓸 만한 수준으로 보입니다.

  • 다만, 긴 러닝타임과 완성도 높은 편집을 노린다면

    • 여전히 후처리와 업스케일, 편집 툴과의 연동이 필수이기 때문에,

    • 혼자서 모든 파이프라인을 다루기엔 진입 장벽이 있는 편입니다.

  1. Cadream Lab와 Whisper Thunder: 아직은 관찰 단계

  • Cadream Lab 모델은 성능 자체보다는

    • "중국 서비스 → 서구 서비스로 이전되는 흐름"을 감안했을 때,

    • 몇 달 후쯤 Dreamina에서 새 옵션이 하나 늘어날 가능성이 있다는 점이 더 중요해 보입니다.

  • Whisper Thunder는 결과만 보면 꽤 준수하지만,

    • 계약 구조, 사용 조건, 상용 서비스 여부가 전혀 공개되지 않은 상태라

    • 지금 단계에서 실무 도입 가능성을 논하기는 어렵습니다.

  1. 누가 어떤 모델을 먼저 써보는 게 합리적일까

  • 반복해서 인물을 등장시키는 일러스트/콘셉트 작업이 많은 사람에게는

    • Flux 2 + 레퍼런스 이미지 조합이 가장 실용적인 선택에 가깝습니다.

  • 짧은 텍스트 기반의 영상 클립이 필요하지만, 고가 클라우드 요금제가 부담스러운 경우

    • Hunan Video 1.5 같은 로컬 오픈소스 비디오 모델을 검토해 볼 수 있습니다.

  • 반대로,

    • 긴 러닝타임 영상,

    • 정확한 스토리보드와 카메라 워크,

    • 대중에게 바로 공개하는 수준의 안정성이 필요하다면

    • 이번에 등장한 모델들만으로는 아직 충분하지 않을 가능성이 큽니다.

전체적으로 보면, 이번에 언급된 모델들은 "현업 전체를 갈아엎을 완성품"이라기보다,

  • 다양한 실험을 할 수 있는 새로운 옵션이 추가된 것에 가깝습니다. Flux 2 오픈소스 버전이 나왔을 때 어떤 커스텀 모델과 툴체인이 나올지, 그리고 중국발 모델들이 서구 플랫폼까지 포함해 어떤 식으로 생태계에 합류할지 지켜보는 것이 현실적인 관전 포인트로 보입니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.