Pure PyTorch로 Stable Diffusion 3.5를 처음부터 다시 구현했습니다.

2025-06-14

기사 제목: "나는 순수 PyTorch로 Stable Diffusion 3.5를 처음부터 다시 구현했다"
miniDiffusion은 Stable Diffusion 3.5 모델을 최소한의 종속성으로 순수 PyTorch로 구현한 것임.
교육, 실험, 해킹 목적으로 설계되었고, 최소한의 코드로 Stable Diffusion 3.5를 재창조하는 데 초점을 맞춤.
주요 파일:
- dit.py, dit_components.py, attention.py: Stable Diffusion 모델 코드.
- noise.py: Euler Scheduler 포함.
- t5_encoder.py, clip.py: 텍스트 인코더 포함.
- tokenizer.py: 토크나이저 포함.
- metrics.py: Fréchet inception distance 구현.
- common.py, common_ds.py: 훈련 및 데이터셋 도우미 함수.
주요 폴더:
- model 폴더: 모델 체크포인트 및 로그 저장.
- encoders 폴더: 다른 모듈의 체크포인트 저장.
경고: 실험적인 기능이 있으며 더 많은 테스트가 필요함.
핵심 이미지 생성 모듈:
- VAE, CLIP, T5 텍스트 인코더 구현
- Byte-Pair 및 Unigram 토크나이저 구현
SD3 구성 요소:
- Multi-Modal Diffusion Transformer 모델
- Flow-Matching Euler Scheduler
- Logit-Normal Sampling
- Joint Attention
훈련 및 추론 스크립트 제공
시작 방법:
- 레포지토리 클론: git clone "https://github.com/yousef-rafat/miniDiffusion"
- 필수 패키지 설치: pip install -r requirements.txt
- 모델 체크포인트 설치: Hugging Face Token 필수
MIT 라이선스 하에 교육 및 실험 목적으로 제작됨.

4github.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.