hunyuan (훈위안)

개요

훈위안(Hunyuan, 混元, 혼원, 모든 것이 혼합된 근원적 상태)은 텐센트에서 개발한 대규모 비디오 생성 및 자연어 처리에 특화된 오픈 소스 AI 모델입니다. 이 모델은 높은 성능과 효율성을 자랑하며, 특히 비디오 생성과 관련된 다양한 혁신적인 기능을 포함하고 있습니다. 텐센트의 혼원 모델은 텍스트에서 비디오를 생성하거나 이미지에서 비디오를 생성하는 등의 작업을 처리할 수 있습니다.

Tencent Hunyuan Large

텐센트에서 개발한 오픈소스 LLM 이다. Hunyuan-Large(Hunyuan-MoE-A52B)는 3890억 개의 총 파라미터와 520억 개의 활성 파라미터를 가진 Transformer 기반 MoE 모델이다.

데모

HunyuanVideo

소개

HunyuanVideo는 텐센트에서 개발한 오픈 소스 비디오 생성 모델로, 약 130억 개의 매개 변수(13B)를 통해 고해상도 5초짜리 비디오를 생성할 수 있습니다. 이 모델은 비디오 생성의 품질, 동작 다양성, 텍스트-비디오 일관성, 그리고 생성 안정성에서 탁월한 성능을 보입니다. HunyuanVideo는 이미지를 이용해 비디오를 생성할 수 있으며, 사용자의 텍스트 프롬프트를 기반으로 비디오를 생성합니다.

사이트

https://aivideo.hunyuan.tencent.com/ (중국 전화번호 필요)

Tencent Hunyuan 모델과 HunyuanVideo image 1

데모 스크린샷

fal.ai 에서 API를 통해 사용 가능. (비디오 당 0.4 달러 약 4분)

Hunyuan Video | Text to Video | AI Playground | fal.ai

설치 및 실행 가이드

요구 사항

HunyuanVideo 모델 실행을 위한 기본 요구 사항은 다음과 같습니다:

GPU 메모리: 720px1280px129f 해상도의 비디오 생성 시 60GB, 544px960px129f 해상도의 비디오 생성 시 45GB 이상의 GPU 메모리가 필요합니다.
운영 체제: Linux

환경 구축 및 설치

리포지토리 클론:

git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

Conda 환경 설정:

conda env create -f environment.yml
conda activate HunyuanVideo

pip 종속성 설치:

python -m pip install -r requirements.txt

사전 모델 다운로드 및 추론

사전 훈련된 모델을 다운로드하고 설치한 후 추론을 시작할 수 있습니다. 예를 들어, 명령줄을 사용해 비디오를 생성하는 방법은 다음과 같습니다:

cd HunyuanVideo

python3 sample_video.py 
    --video-size 720 1280 
    --video-length 129 
    --infer-steps 50 
    --prompt "A cat walks on the grass, realistic style." 
    --flow-reverse 
    --use-cpu-offload 
    --save-path ./results

참고

[1]. GitHub - Tencent/HunyuanVideo: HunyuanVideo: 대규모 비디오 생성 모델을 위한 체계적인 프레임워크

[2]. GitHub - Tencent/Tencent-Hunyuan-Large