텍스트-이미지 모델 학습 설계, 소거 실험이 알려준 6가지 교훈

텍스트-투-이미지(Text-to-Image) 모델을 “더 잘” 학습시키는 법은 의외로 감으로 해결되지 않습니다. 같은 모델·같은 데이터라도 학습 설계(목적함수, 정렬 기법, 라티트/토큰 처리 방식, 캡션 전략, 수치 정밀도 같은 실무 디테일)에 따라 수렴 속도와 품질이 크게 갈립니다.

이번 글은 PRX 계열 실험을 바탕으로, 소거 실험(ablations)이 실제로 어떤 결론을 줬는지 핵심만 뽑아 “내가 내일 학습 파이프라인에 적용할 수 있는 형태”로 정리한 글입니다¹. 중간중간 Stable Diffusion 같은 대표적 라티트 확산 모델의 구조(텍스트 인코더–디노이저–VAE)가 왜 이런 결론과 맞물리는지도 함께 풀어볼게요².

베이스라인부터 ‘깨끗하게’ 깔아야 실험이 말해준다

소거 실험의 첫 번째 함정은, 비교 기준이 흔들리면 결론이 전부 무너진다는 점입니다. PRX 실험은 1.2B 파라미터 모델을 두고, “추가 목적함수/속도 최적화 없이” 표준 구성으로 기준점을 먼저 만들었습니다¹.

이 접근이 중요한 이유는 간단합니다. 학습이 잘 안 되면 사람은 본능적으로 레시피를 덧붙입니다. 정렬 하나, 규제 하나, 라우팅 하나…. 그런데 그러면 뭐가 진짜 약이고 뭐가 그냥 장식인지 영영 알 수가 없어요. 그래서 실험의 출발선은 최대한 단순해야 합니다.

또 지표도 한 가지로 결론 내리면 위험합니다. FID처럼 이미지 분포 유사도를 보는 값, CLIP/DINO 임베딩 기반 거리처럼 “의미 정렬”을 보는 값이 서로 다르게 말할 때가 많거든요¹. 이 글에서도 “품질”을 한 단어로 뭉개지 않고, 어떤 기법이 무엇을 올리고 무엇을 깎는지 관찰 포인트를 분리해서 이야기하겠습니다.

표현 정렬(REPA)은 ‘초반 부스터’이지 끝까지 밟는 가속페달이 아니다

학습 초반, 모델은 텍스트를 보고 대충 구도 잡는 법부터 배웁니다. 이때 이미지 표현을 강한 비전 인코더(DINOv2/v3 같은 frozen 인코더)의 표현 공간에 맞춰 끌어주는 정렬(Representation Alignment)을 걸면, 품질이 눈에 띄게 좋아졌습니다¹. 특히 DINOv3 기반이 개선 폭이 컸다고 정리됩니다¹.

다만 재미있는 포인트가 하나 있습니다. REPA를 계속 켜두면 중후반에 오히려 성능이 떨어질 수 있어, “초기 burn-in 구간에서만 쓰고 꺼라”는 권고가 나왔다는 점입니다¹. 쉽게 비유하면 이렇습니다. 초반엔 과외 선생님이 옆에서 손잡고 “이렇게 그리는 거야”를 가르쳐주면 빨리 늘지만, 나중엔 본인이 스타일을 확장해야 하는데 선생님이 계속 정답지만 들이밀면 표현이 경직될 수 있습니다.

그리고 iREPA처럼 패치 기반 공간 정렬을 손본 변형도 일부 설정에서 더 잘 수렴했지만, 모든 인코더/상황에 만능은 아니었습니다¹. 결론은 명확합니다. 정렬은 ‘도핑’이 아니라 ‘튜닝’입니다. 구간을 나눠 켰다 껐다까지가 설계의 일부예요.

라티트 정렬(REPA-E/오토인코더 정렬)은 “품질 6점”을 살 수 있는 구간이다

Stable Diffusion 류 모델을 떠올려보면, 픽셀을 바로 다루기보다 VAE가 라티트로 압축하고, 그 라티트에서 확산(디노이징)을 합니다². 그래서 라티트가 애초에 “이미지 의미를 잘 담는 공간”이면, 디노이저가 훨씬 편해집니다.

PRX 실험에서도 정렬을 디노이저가 아니라 오토인코더 단계부터 넣는 방식(REPA-E, Flux2-AE 등)이 FID를 약 6점 개선했다고 정리됩니다¹. 여기서 실무적으로 중요한 건 트레이드오프입니다. Flux2-AE는 속도 저하가 더 컸고, REPA-E-VAE가 품질 대비 균형이 좋은 선택지로 언급됩니다¹.

즉 “조금 느려져도 확실히 좋아지는” 레버가 필요하다면 라티트 정렬이 꽤 강력한 카드입니다. 반대로 처리량이 생명인 서비스 환경이라면, 정렬을 어디까지 허용할지(특히 학습 비용과 추론 비용을 분리해서) 계산이 필요합니다.

목적함수 실험의 메시지: ‘대박 한 방’보다 ‘싼 보조 규제자’가 유용할 때가 많다

학습 목적함수를 바꾸면 세상이 바뀔 것 같지만, 실제론 “조금 좋아지거나, 조금 나빠지거나, 조건부로만 이득”인 경우가 많습니다. 그래서 목적함수 실험은 기대치를 관리해야 합니다.

예를 들어 Contrastive Flow Matching은 구현이 비교적 간단하면서 조건부 학습에서 미세 개선을 주지만, FID는 약간 악화되는 식의 결과가 관찰됩니다¹. 이건 실무에서 꽤 쓸모 있는 결론이에요. “메인 엔진을 갈아엎는 혁신”이 아니라, 비용 낮은 보조 규제자로 붙여서 특정 성질(텍스트-이미지 경계 강화 같은)을 살짝 보정하는 용도로요.

또 x-prediction(JiT) 계열은 256×256 라티트에서는 큰 이득이 없었지만, 1024×1024 픽셀을 직접 학습하는 고해상도 세팅에서 빠르고 안정적으로 학습이 가능했다는 포인트가 큽니다¹. 고해상도에서 VAE를 생략하거나 구조를 단순화하고 싶다면, “학습 방식 선택”이 곧 “아키텍처 선택의 자유도”로 이어진다는 뜻이니까요.

토큰 라우팅(TREAD)은 고해상도에서 ‘효율’이 아니라 ‘게임 체인저’가 된다

요즘 텍스트-이미지 모델은 디퓨전 U-Net만 있는 게 아니라, 트랜스포머/토큰 기반 설계(혹은 그 변형)가 점점 강해지고 있습니다. 토큰이 많아지면 계산량이 폭발하니, 중요한 토큰만 더 집중적으로 계산하는 라우팅/희소화가 매력적이죠.

PRX 정리에서 흥미로운 결론은, 256×256에서는 TREAD/SPRINT가 “조금 빨라지지만 품질이 떨어지는” 애매한 결과였다는 점입니다¹. 그런데 1024×1024 고해상도 픽셀 기반 학습에서는 처리량과 품질이 모두 크게 개선됐고, 특히 TREAD가 품질 면에서 눈에 띄었다고 합니다¹.

이건 직관적으로도 맞습니다. 해상도가 올라가면 토큰 수가 늘고, 그때부터 라우팅은 단순 최적화가 아니라 ‘학습을 가능하게 하는 장치’가 됩니다. 마치 도심 운전에서는 내비게이션이 편의 기능이지만, 처음 가는 해외에서 렌터카 몰 땐 생존 장비가 되는 것처럼요. 토큰 라우팅은 고해상도에서 그 급으로 중요해집니다.

캡션·데이터·파인튜닝: 성능을 결정짓는 건 결국 “학습 재료”다

모델 구조를 아무리 멋지게 짜도, 학습 재료가 부실하면 결과는 솔직합니다. PRX 실험에서 “길고 구체적인 캡션”이 수렴과 품질에 결정적으로 중요했고, 짧은 캡션만 쓰면 성능이 크게 떨어졌다고 못 박습니다¹.

여기서 많은 팀이 놓치는 게 하나 있어요. 캡션을 길게 쓰는 건 단지 단어 수를 늘리는 게 아니라, 모델이 ‘무엇을 맞춰야 하는지’의 좌표계를 자세히 주는 겁니다. 조명, 재질, 배경 맥락, 카메라 시점, 관계(누가 무엇을 들고 있는지) 같은 정보가 많을수록, 텍스트 조건부 생성은 흔들리지 않습니다.

데이터 믹스 전략도 실무 감각과 딱 맞닿아 있습니다. 합성(synthetic) 데이터는 구조·구도를 빨리 배우게 해주지만 텍스처는 실사(real)가 더 강하다는 관찰이 있었고, 그래서 초반엔 합성으로 뼈대를 만들고 후반엔 실사를 섞는 전략이 이상적이라고 정리됩니다¹.

또 소규모 파인튜닝(예: 수천 쌍 규모)만으로도 스타일과 사진 품질이 확 좋아질 수 있다는 사례가 제시됩니다¹. “거대한 재학습만이 답”이 아니라, 마지막 10%는 의외로 작은 파인튜닝이 가져오는 경우가 많다는 뜻입니다. 이 대목은 주제 맞춤 생성(특정 제품 사진 톤, 특정 캐릭터 스타일 등) 하는 팀에게 특히 현실적인 힌트예요.

실무 디테일: 옵티마이저와 BF16 저장 방식이 품질을 박살낼 수도 있다

논문에서 가장 억울한 실패 원인은 보통 “알고리즘이 아니라 설정 실수”입니다. PRX 정리에서도 Muon 옵티마이저가 AdamW 대비 더 빠른 수렴과 꾸준한 품질 개선이 관찰돼 실험적으로 도입할 만하다고 언급합니다¹.

그리고 더 중요한 경고가 있습니다. BF16을 쓰더라도 “가중치 저장은 FP32 보장”이 필수이며, weight 자체를 bfloat16으로 저장하면 품질이 크게 무너질 수 있다는 내용입니다¹. 이건 재현성/체크포인트 전략에서 정말 자주 터지는 지뢰입니다. 학습이 잘 되다가 재시작 후 이상해지면, 알고리즘을 의심하기 전에 저장 정밀도를 먼저 보세요.

시사점: 소거 실험이 남긴 진짜 레시피는 “단계별 설계”입니다¹. 정렬(REPA)은 초반에만 써서 빨리 자리 잡게 하고, 라티트 정렬은 속도와 맞바꾸는 확실한 품질 레버로 고려할 만합니다. 고해상도로 갈수록 x-prediction과 토큰 라우팅(TREAD)은 옵션이 아니라 생산성을 결정하는 핵심 도구가 됩니다.

하지만 끝판왕은 언제나 데이터입니다. 긴 캡션, 합성+실사 믹스, 그리고 작더라도 목표가 선명한 파인튜닝이 “점수표에 바로 찍히는 개선”을 만듭니다. 마지막으로, BF16/체크포인트 같은 운영 디테일은 모델 품질을 조용히 망가뜨릴 수 있으니 실험 노트에 반드시 체크리스트로 남겨두세요.

다음에 학습을 설계한다면, 저는 이렇게 시작할 것 같습니다. ① 클린 베이스라인 확보 ② 초반 정렬로 수렴 가속 ③ 중후반 정렬 off로 자유도 회복 ④ 고해상도 전환 시 라우팅/예측 방식 재선택 ⑤ 캡션/데이터 믹스로 마감. 소거 실험이 준 교훈은 결국 “마법의 한 방”이 아니라 “구간별로 다른 레버를 쓰는 운영 능력”이었습니다.

참고

¹텍스트-이미지 모델을 위한 학습 설계: 소거 실험에서 얻은 교훈

²Stable Diffusion - Wikipedia