Auraflow (오라 플로우)

Auraflow는 텍스트를 이미지로 변환할 수 있는 대규모 오픈 소스 인공지능 모델로, Generative Media Company인 Fal AI에 의해 개발되었습니다. 이 모델은 Apache 2.0 라이선스를 따르고 있어 개발자들이 자유롭게 수정, 학습 및 상업적으로 이용할 수 있도록 허용합니다. Stable Diffusion 3(SD3)과 비교해도 그 성능이 뒤지지 않습니다.

LoRA를 도입한 스테이블 디퓨전의 유명한 인물인 Simo 가 참여해서 만든 모델입니다.

특징 및 기능

텍스트-이미지 변환

Auraflow는 텍스트 기반 프롬프트를 통해 이미지를 생성하는 기능이 있습니다. 예를 들어, "a cat that is half orange tabby and half black, split down the middle. Holding a martini glass with a ball of yarn in it. He has a monocle on his left eye, and a blue top hat, art nouveau style"(주황색과 검은색이 반반 섞인 고양이가 실타래가 담긴 마티니 잔을 들고 있는 모습) 같은 복잡한 묘사도 정확히 구현해냅니다[1].

Auraflow - 스테이블 디퓨전 3를 능가하는 오픈소스 이미지 모델 image 1

사용할 수 있는 곳

AuraFlow | AI Playground | fal.ai

Comfy를 통해 다운로드 받아 사용

사용가능한 허깅 페이스 스페이스

Auraflow Demo - a Hugging Face Space by multimodalart

AuraFlow with Captioner - a Hugging Face Space by gokaygokay

fofr/aura-flow – Run with an API on Replicate

기술적 세부사항 및 성능

Auraflow는 다양한 크기와 해상도(256x256, 512x512, 1024x1024)의 이미지를 사전 학습하여 GenEval 점수 0.64를 기록했습니다. 또한 텍스트 프롬프트를 최적화하는 파이프라인을 통해 이 점수를 0.703까지 향상시켰습니다[1][4].

오픈 소스 라이선스

Auraflow는 Apache 2.0 라이선스를 채택하고 있어 개발자들이 라이선스 문제 없이 자유롭게 이용할 수 있습니다. 이러한 점은 오픈 소스 AI 커뮤니티에 활력을 불어넣으며, 독창적이고 혁신적인 개발을 촉진합니다[2][5].

높은 성능의 학습 및 최적화

Fal AI 팀은 Auraflow 개발에 있어 다양한 최적화 기법을 적용했습니다. 모델의 플롭스(floating point operations per second) 사용률을 15% 향상시켰으며, torch.compile을 통해 학습 최적화를 도입하여 추가 10~15%의 성능 향상을 이뤘습니다[1].

사용법

Auraflow를 사용하려면 아래의 코드를 실행하면 됩니다:

from diffusers import AuraFlowPipeline
import torch

pipeline = AuraFlowPipeline.from_pretrained(
    "fal/AuraFlow",
    torch_dtype=torch.float16
).to("cuda")

prompt = "close-up portrait of a majestic iguana with vibrant blue-green scales, piercing amber eyes, and orange spiky crest. Intricate textures and details visible on scaly skin. Wrapped in dark hood, giving regal appearance. Dramatic lighting against black background. Hyper-realistic, high-resolution image showcasing the reptile's expressive features and coloration."
image = pipeline(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=50, 
    generator=torch.Generator().manual_seed(666),
    guidance_scale=3.5,
).images[0]

이를 통해 고해상도 이미지를 생성할 수 있습니다[2].

모델 비교

Auraflow와 Stable Diffusion 3(SD3)의 성능 비교

인상주의 스타일:
- Auraflow: 대화형 스타일을 잘 구현했으나 세부 묘사는 약간 부족함.
- SD3: 세부 묘사에 강점이 있으나 대화형 스타일은 덜 표현됨.
- 결과: 무승부. 각 모델의 강점이 상이함[5].
현실주의 스타일:
- Auraflow: 생동감 있는 도시 풍경을 잘 구현했으나 세부 요소가 약간 부족함.
- SD3: 세부와 명쾌함에 강점이 있어 더욱 현실감 있는 이미지를 제공.
- 결과: SD3 승. 현실감 표현에서 우세함[5].

Auraflow는 특히 미세한 세부 묘사 및 정확한 프롬프트 추종에서 탁월한 성과를 보입니다. 반면, SD3는 더 정밀하면서도 매끄러운 이미지를 제공하는 데 강점을 가지고 있습니다.

앞으로의 계획

Fal AI는 Auraflow의 첫 번째 버전이자 베타 릴리스를 통해 커뮤니티의 참여를 유도하고, 지속적인 모델 개선을 진행할 예정입니다. 특히 하드웨어 요구사항을 낮춘 더 작고 빠른 모델을 개발하여 더 많은 사용자들이 접근할 수 있도록 할 계획입니다[1][4].

참고 문헌

[1]. AuraFlow v0.1 소개, 대규모 정류 흐름 모델에 대한 개방형 탐색

[2]. 팔/오라플로우 · 허깅페이스 모델

[3]. Fal 팀은 진정한 의미의 최대 오픈 소스 텍스트-이미지 모델인 AuraFlow를 출시했습니다! ComfyUI에서 사용 가능 - MXDIA

[4]. Auraflow 소개: Stable Diffusion 3을 능가하는 오픈 소스 AI

[5]. Auraflow를 만나보세요: Stable Diffusion 3을 능가하는 것을 목표로 하는 진정한 오픈 소스 AI 이미지 생성기