Tencent Hunyuan 모델과 HunyuanVideo
hunyuan (훈위안)
개요
훈위안(Hunyuan, 混元, 혼원, 모든 것이 혼합된 근원적 상태)은 텐센트에서 개발한 대규모 비디오 생성 및 자연어 처리에 특화된 오픈 소스 AI 모델입니다. 이 모델은 높은 성능과 효율성을 자랑하며, 특히 비디오 생성과 관련된 다양한 혁신적인 기능을 포함하고 있습니다. 텐센트의 혼원 모델은 텍스트에서 비디오를 생성하거나 이미지에서 비디오를 생성하는 등의 작업을 처리할 수 있습니다.
Tencent Hunyuan Large
텐센트에서 개발한 오픈소스 LLM 이다. Hunyuan-Large(Hunyuan-MoE-A52B)는 3890억 개의 총 파라미터와 520억 개의 활성 파라미터를 가진 Transformer 기반 MoE 모델이다.
HunyuanVideo
소개
HunyuanVideo는 텐센트에서 개발한 오픈 소스 비디오 생성 모델로, 약 130억 개의 매개 변수(13B)를 통해 고해상도 5초짜리 비디오를 생성할 수 있습니다. 이 모델은 비디오 생성의 품질, 동작 다양성, 텍스트-비디오 일관성, 그리고 생성 안정성에서 탁월한 성능을 보입니다. HunyuanVideo는 이미지를 이용해 비디오를 생성할 수 있으며, 사용자의 텍스트 프롬프트를 기반으로 비디오를 생성합니다.
사이트
https://aivideo.hunyuan.tencent.com/ (중국 전화번호 필요)
데모 스크린샷
fal.ai 에서 API를 통해 사용 가능. (비디오 당 0.4 달러 약 4분)
Hunyuan Video | Text to Video | AI Playground | fal.ai
설치 및 실행 가이드
요구 사항
HunyuanVideo 모델 실행을 위한 기본 요구 사항은 다음과 같습니다:
GPU 메모리: 720px1280px129f 해상도의 비디오 생성 시 60GB, 544px960px129f 해상도의 비디오 생성 시 45GB 이상의 GPU 메모리가 필요합니다.
운영 체제: Linux
환경 구축 및 설치
리포지토리 클론:
git clone https://github.com/tencent/HunyuanVideo cd HunyuanVideo
Conda 환경 설정:
conda env create -f environment.yml conda activate HunyuanVideo
pip 종속성 설치:
python -m pip install -r requirements.txt
사전 모델 다운로드 및 추론
사전 훈련된 모델을 다운로드하고 설치한 후 추론을 시작할 수 있습니다. 예를 들어, 명령줄을 사용해 비디오를 생성하는 방법은 다음과 같습니다:
cd HunyuanVideo
python3 sample_video.py \
--video-size 720 1280 \
--video-length 129 \
--infer-steps 50 \
--prompt "A cat walks on the grass, realistic style." \
--flow-reverse \
--use-cpu-offload \
--save-path ./results
참고
[1]. GitHub - Tencent/HunyuanVideo: HunyuanVideo: 대규모 비디오 생성 모델을 위한 체계적인 프레임워크


