VFusion3D: Video Diffusion Model로부터 확장 가능한 3D 생성 모델 학습
- 제목: VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
- 학회: European Conference on Computer Vision (ECCV), 2024
- 저자: Junlin Han, Filippos Kokkinos, Philip Torr
- 기관: GenAI, Meta, University of Oxford
- 발표일: 2024년 8월 8일
- 발표 내용:
- VFusion3D는 소량의 3D 데이터와 대량의 합성 멀티뷰 데이터를 이용해 학습된 대규모 3D 생성 모델이다.
- 첫 번째로 확장 가능한 3D 생성/재구성 모델을 탐구하는 작업.
- 설치 및 환경 설정:
- GitHub 저장소 클론 및 폴더 이동
- Python 3.8.19, PyTorch 2.3, CUDA 12.1를 기본으로 설정하는 간단한 설치 스크립트 제공.
- 빠른 시작:
- 사전 학습된 모델 가중치 다운로드 및 설정.
- 샘플 입력 이미지를 assets/40_prompt_images에서 제공.
- 추론:
- 추론 스크립트를 실행하여 3D 자산 생성.
- --export_video 및 --export_mesh 플래그 설정 가능.
- 다른 이미지 폴더에서 실행하려면 --source_path와 --dump_path 수정.
- 로컬 Gradio 앱 사용 가능.
- 문제 해결 팁:
- GPU 메모리 부족 시, --render_size 파라미터를 256 또는 128로 줄일 것.
- 결과가 만족스럽지 않을 경우, 정면 및 거의 정면 이미지를 사용하는 것이 최적.
- 특정 보기 각도 입력 맞춤 설정:
- lrm/inferrer.py 파일 수정 필요.
- canonical_camera_extrinsics 설정 변경.
- 인용: 사용 시 논문 인용 필요.
- 라이선스:
- CC-BY-NC 라이선스
- OpenLRM은 Apache License, Version 2.0
- 특정 구성 요소는 NVIDIA의 사유 라이선스.
3github.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.