Flux2-Klein: 인터랙티브 비주얼 인텔리전스를 향하여

개요

FLUX.2 [klein]은 텍스트-이미지 생성과 이미지 편집을 하나의 컴팩트 아키텍처로 통합한 최신 비전 생성 모델 패밀리다.¹

실시간에 가까운 응답 속도, 높은 화질, 소비자용 GPU에서도 동작 가능한 효율성을 목표로 설계되었으며, 인터랙티브 비주얼 인텔리전스를 위한 기반 모델을 지향한다.

핵심 특징

FLUX.2 [klein]의 가장 큰 특징은 세 가지 작업을 단일 모델로 처리한다는 점이다.

텍스트로부터의 이미지 생성(Text-to-Image), 기존 이미지 기반의 편집(Image-to-Image), 여러 참조 이미지를 활용한 멀티-레퍼런스 생성까지 모두 지원하며, 이 모든 작업을 서브-세컨드(0.5초 미만) 수준의 지연으로 수행한다.¹

모델 크기 대비 화질이 매우 높고, 특히 베이스(Base) 변형은 출력 다양성이 우수해 파인튜닝과 커스텀 파이프라인에 적합하다.

모델 패밀리 구성

FLUX.2 [klein] 모델은 크게 9B와 4B 두 계열로 나뉘며, 각자 디스틸된(distilled) 버전과 베이스(Base) 버전이 존재한다.¹

9B 모델은 플래그십 소형 모델로, 품질과 지연 시간의 파레토 프론티어를 정의하는 것을 목표로 한다. 텍스트-이미지, 단일 레퍼런스 편집, 멀티-레퍼런스 생성에서 자신보다 5배 큰 모델과 대등하거나 그 이상 수준의 품질을, 0.5초 미만의 지연으로 달성하도록 설계되었다.

4B 모델은 보다 대중적인 접근성을 가진 변형으로, RTX 3090/4070급 소비자용 GPU(약 13GB VRAM)에서도 구동 가능하다. 크기는 작지만 텍스트-이미지, 이미지-투-이미지, 멀티-레퍼런스를 모두 지원하며, 로컬 개발과 엣지 배포를 염두에 두고 설계되었다.

베이스 9B/4B 모델은 디스틸 과정을 거치지 않은 풀-캐퍼시티(foundation) 버전으로, 속도보다는 완전한 학습 신호 보존과 커스터마이즈 가능성에 초점을 두고 있다. 이로 인해 디스틸 버전에 비해 생성 다양성이 더 높으며, 연구, 파인튜닝, LoRA 학습, 커스텀 파이프라인 구축에 적합하다.

성능 및 최적화

FLUX.2 [klein]은 품질(Elo) 대비 지연(latency)과 VRAM 점유 측면에서 경쟁 모델 대비 우수한 효율을 보인다.¹

Qwen 계열 모델과 비교해 비슷하거나 더 높은 품질을 훨씬 낮은 지연과 메모리로 달성하며, Z-Image를 능가하면서도 텍스트-이미지와 멀티-레퍼런스 편집을 모두 지원한다.

추가로 NVIDIA와 협업해 FP8 및 NVFP4 양자화 버전을 제공한다. FP8은 최대 1.6배 빠른 속도와 최대 40% VRAM 절감을, NVFP4는 최대 2.7배 속도 향상과 최대 55% VRAM 절감을 목표로 한다. 이를 통해 더 폭넓은 RTX 하드웨어에서 모델을 운용할 수 있다.

라이선스와 배포

4B 계열 모델(디스틸 및 베이스)은 Apache 2.0 라이선스로 완전 공개되어 상업적 활용과 커스터마이즈에 유리하다.¹

9B 계열 모델은 FLUX Non-Commercial License(기존 FLUX [dev] NCL에서 명칭만 변경)에 따라 비상업적 용도로 제공된다.

모든 변형에 대해 API와 오픈 웨이트가 제공되며, 개발자는 프로덕션용 클라우드 API를 사용하거나, 로컬 환경에 직접 가중치를 배포해 사용할 수 있다.

인터랙티브 비주얼 인텔리전스를 향하여

FLUX.2 [klein]의 목표는 단순히 더 빠른 이미지 생성이 아니다.

에이전트가 실시간으로 이미지를 생성·편집·조합하면서 시각적 피드백을 루프에 통합할 수 있게 하는, 인터랙티브 비주얼 인텔리전스의 기반을 제공하는 데 초점을 둔다.¹

이를 통해 실시간 디자인 도구, 에이전틱 시각 추론, 인터랙티브 콘텐츠 제작 등 새로운 유형의 애플리케이션을 가능하게 하는 인프라 역할을 지향한다.

참고

¹FLUX.2 [klein]: Towards Interactive Visual Intelligence