Moonshot AI의 오픈 소스 Kimi-VL은 단 28억 개의 매개변수로 텍스트, 이미지 및 비디오를 처리합니다.

2025-04-27

중국 스타트업 Moonshot AI의 Kimi-VL은 이미지, 텍스트, 비디오를 효율적으로 처리하는 오픈 소스 AI 모델이다.
Kimi-VL은 긴 문서 처리, 복잡한 추론, 사용자 인터페이스 이해에서 두각을 나타내며, mixture-of-experts 아키텍처를 사용해 각 과제를 수행할 때 모델의 일부만 활성화한다.
이 모델은 2.8억 개의 활성 파라미터로 더 큰 시스템과 비슷한 결과를 제공하며 다양한 벤치마크에서 좋은 성과를 보인다.
최대 128,000개의 토큰 문맥 창을 가지며 긴 책이나 비디오 대본을 처리할 수 있다.
Kimi-VL은 LongVideoBench와 MMLongBench-Doc 테스트에서 일관되게 높은 점수를 기록했다.
이미지 처리 능력이 뛰어나며, 전체 스크린샷이나 복잡한 그래픽을 분할하지 않고 분석할 수 있다.
수학적 이미지 문제와 손글씨 노트를 처리할 수 있으며, 알베르트 아인슈타인에 대한 참조를 식별하고 그 중요성을 설명했다.
Kimi-VL은 유저 인터페이스를 해석하고 디지털 작업을 자동화하는 소프트웨어 어시스턴트 기능도 있다.
Qwen2.5-VL-7B 및 Gemma-3-12B-IT와 같은 다른 오픈 소스 모델에 비해 효율적이다.
MMBench-EN 및 AI2D에서 큰 상업 모델과 맞먹거나 더 나은 점수를 기록했다.
강화 학습을 통해 복잡한 수학적 추론을 포함한 작업에서 성능을 높였다.
Kimi-VL-Thinking은 MathVision 벤치마크에서 큰 모델과 비교하여 더 나은 성과를 보인다.
비디오 및 문서 처리 작업에서 높은 점수를 받은 Kimi-VL-A3B도 있다.
언어 집약적이거나 틈새 작업에서는 현재 한계가 있으며 더 긴 문맥에서도 기술적 어려움이 있다.
앞으로 더 큰 모델 버전 개발, 더 많은 훈련 데이터 및 미세 조정 개선을 계획하고 있다.
Moonshot AI는 올해 초 Kimi k1.5를 출시했으며, 이는 복합 추론을 위한 멀티모달 모델로 kimi.ai 웹 인터페이스에서 사용할 수 있다.
Hugging Face에서 Kimi-VL의 데모를 확인할 수 있다.

5the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기