VFusion3D: Video Diffusion Model로부터 확장 가능한 3D 생성 모델 학습

2024-08-10

제목: VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
학회: European Conference on Computer Vision (ECCV), 2024
저자: Junlin Han, Filippos Kokkinos, Philip Torr
기관: GenAI, Meta, University of Oxford
발표일: 2024년 8월 8일
발표 내용:
- VFusion3D는 소량의 3D 데이터와 대량의 합성 멀티뷰 데이터를 이용해 학습된 대규모 3D 생성 모델이다.
- 첫 번째로 확장 가능한 3D 생성/재구성 모델을 탐구하는 작업.
설치 및 환경 설정:
- GitHub 저장소 클론 및 폴더 이동
- Python 3.8.19, PyTorch 2.3, CUDA 12.1를 기본으로 설정하는 간단한 설치 스크립트 제공.
빠른 시작:
- 사전 학습된 모델 가중치 다운로드 및 설정.
- 샘플 입력 이미지를 assets/40_prompt_images에서 제공.
추론:
- 추론 스크립트를 실행하여 3D 자산 생성.
- --export_video 및 --export_mesh 플래그 설정 가능.
- 다른 이미지 폴더에서 실행하려면 --source_path와 --dump_path 수정.
로컬 Gradio 앱 사용 가능.
문제 해결 팁:
- GPU 메모리 부족 시, --render_size 파라미터를 256 또는 128로 줄일 것.
- 결과가 만족스럽지 않을 경우, 정면 및 거의 정면 이미지를 사용하는 것이 최적.
특정 보기 각도 입력 맞춤 설정:
- lrm/inferrer.py 파일 수정 필요.
- canonical_camera_extrinsics 설정 변경.
인용: 사용 시 논문 인용 필요.
라이선스:
- CC-BY-NC 라이선스
- OpenLRM은 Apache License, Version 2.0
- 특정 구성 요소는 NVIDIA의 사유 라이선스.

3github.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약 한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기