중국 AI 스타트업 DeepSeek, OpenAI o1 능가하는 DeepSeek R1 추론 모델 공개
DeepSeek R1
개요
DeepSeek은 중국의 헤지펀드 High-Flyer Capital Management에서 지원하는 인공지능(AI) 스타트업으로, 추론에 중점을 둔 대형 언어 모델인 R1-Lite-Preview를 공개했습니다. 이 모델은 최신 추론 능력을 갖추고 있으며, 특히 OpenAI의 o1-preview 모델을 성능 면에서 뛰어넘는 결과를 보여주고 있어 주목받고 있습니다. 현재 DeepSeek Chat을 통해 웹 기반 AI 챗봇으로 이용 가능합니다.
주요 기능
투명한 추론 과정
DeepSeek-R1-Lite-Preview는 "Chain-of-Thought"(CoT) 추론 기능을 갖추고 있어, 사용자가 질문에 어떻게 답변을 도출했는지 단계별로 추적할 수 있습니다. 이 기능은 사용자에게 모델의 논리적 단계를 실시간으로 보여주며, 프로세스를 설명함으로써 더 큰 신뢰성을 부여합니다 .
성능 벤치마크
DeepSeek는 벤치마크 AIME(American Invitational Mathematics Examination)와 MATH에서 OpenAI의 o1-preview 모델과 대등하거나 더 나은 성능을 보인다고 주장합니다. 실제로 DeepSeek-R1-Lite-Preview는 이러한 벤치마크에서 고득점을 기록하였으며, 성능 그래프는 모델이 문제 해결에 더 많은 시간이나 "생각 토큰"을 할당할수록 정확성이 향상됨을 보여줍니다.
실시간 문제 해결 능력
또한 이 모델은 실시간 문제 해결과 논리적 추론을 요하는 작업에서 탁월한 성능을 발휘합니다. 테스트 중에 복잡한 수학 문제와 트릭 질문을 성공적으로 해결하여 다른 AI 모델들이 종종 어려움을 겪는 영역에서 뛰어난 능력을 입증했습니다.
접근성과 공개 계획
현재 R1-Lite-Preview는 DeepSeek Chat을 통해 무료로 이용할 수 있으며, 고급 기능인 "Deep Think" 모드는 하루 50회 메시지 제한이 있습니다. DeepSeek는 앞으로 R1 시리즈 모델과 관련 API를 오픈 소스로 공개할 계획입니다. 이는 AI 기술 개발과 혁신을 지원하는 기업의 역사와 일치하는 움직임입니다.
한글의 경우 아직 할루시네이션이 있다.
영어의 경우 CoT와 응답을 잘한다.
모델 공개와 독립적 테스트
하지만 아직 DeepSeek는 모델의 전체 코드를 공용으로 공개하지 않아 독립적인 제3자 분석이나 벤치마킹 테스트가 불가능합니다. 또한 모델이 어떻게 훈련되고 구조화되었는지에 대한 블로그 게시물이나 기술 논문도 발표되지 않았습니다.
한계와 논란
DeepSeek-R1-Lite-Preview는 뛰어난 성능에도 불구하고 몇 가지 한계를 갖고 있습니다. 예를 들어, 틱택토와 같은 논리 문제 해결에 어려움을 겪고, 중국 정부의 규제로 인해 민감한 정치적 주제에 대해서는 답변을 거부합니다. 또한, 일부 안전장치를 우회하는 것이 비교적 용이하다는 지적이 있습니다.
결론
DeepSeek-R1-Lite-Preview는 AI 추론 능력 분야에서 발전을 이루어낸 것으로 보입니다.
앞으로 모델의 오픈 소스 공개와 API 출시가 예정되어 있어 AI 기술의 접근성과 혁신을 더욱 촉진할 것으로 기대됩니다. DeepSeek의 이러한 움직임은 AI 분야에서의 새로운 기준을 설정하고, 복잡한 문제 해결과 논리적 추론이 필요한 다양한 분야에서 유용하게 사용될 것입니다.
참고
DeepSeek (딥시크 챗)
DeepSeek-R1-Lite-Preview가 출시되었습니다: 강력한 추론 능력을 발휘합니다! (딥시크 문서)