Tencent의 오픈 소스 모델 Hunyuan-A13B는 빠르고 느린 추론을 결합합니다.

  • 텐센트는 새로운 언어 모델 Hunyuan-A13B를 오픈 소스로 공개했으며, 이 모델은 작업의 복잡성에 따라 빠르거나 느린 "사고"로 전환할 수 있는 동적 추론 접근 방식을 도입했습니다.
  • Hunyuan-A13B는 실시간으로 추론 깊이를 조정할 수 있는 것이 주요 특징입니다. 간단한 질의에 대해서는 빠른 모드로 최소한의 추론을 통해 신속한 응답을 제공합니다.
  • 복잡한 질문에는 다단계 사고가 포함된 깊은 추론 과정을 활성화합니다. 사용자는 특별한 명령("/think"와 "/no_think")을 통해 이 행동을 전환할 수 있습니다.
  • 80억 개의 매개변수가 포함된 Mixture of Experts(MoE) 아키텍처를 사용하지만, 추론 중에는 130억 개만 활성화됩니다. 최대 256,000 토큰의 컨텍스트 창을 지원합니다.
  • Hunyuan-A13B는 20조 개의 토큰으로 훈련되었으며, STEM 분야에서 2,500억 개의 토큰을 수집해 과학적 작업의 신뢰성을 높였습니다.
  • 이 모델은 수학 교재, 시험, GitHub의 오픈 소스 코드, 논리 퍼즐 모음, 중등부터 대학 수준까지의 과학 텍스트로 구성된 훈련 데이터를 포함합니다.
  • Hunyuan-A13B-Instruct는 OpenAI, Deepseek, Alibaba의 모델과 비교해 경쟁력을 갖췄습니다. 2024년 미국 수학 경시대회 AIME에서 87.3%의 정확도를 기록했습니다.
  • 설정 테스트에서 Hunyuan-A13B는 에이전트 기반 작업에서 선두를 달리고 있으며, 128,000 토큰 컨텍스트에서도 성능이 안정적으로 유지됩니다.
  • 모델은 Apache 2.0 라이선스로 Hugging Face와 GitHub에서 사용할 수 있으며, 다양한 배포 프레임워크에 대한 Docker 이미지를 제공합니다.
  • 텐센트는 코드 생성용 ArtifactsBench와 에이전트 작업 평가용 C3-Bench라는 새로운 벤치마크 데이터셋을 출시했습니다.
  • 다른 주요 AI 연구소의 트렌드와 일치하는 동적 추론 전략을 채택했으며, 적응형 추론을 지원하는 Claude 3.7 Sonnet과 Qwen3과 같은 최근 모델을 반영합니다.

3the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기