OpenAI 코드명 스트로베리였던 OpenAI o1 시리즈 공개 - 고급 추론 능력
o1-preview
OpenAI o1은 강화 학습을 통한 훈련을 통해 복잡한 추론을 수행하는 새로운 대형 언어 모델입니다. 이 모델은 답변을 생성하기 전에 Chain of Thought(연쇄 사고 과정)을 거치며, 이를 통해 문제 해결 능력을 크게 향상시킵니다.
OpenAI 에서 응답하기 전에 생각하는 시간을 가지는 모델입니다. 이 모델은 향상된 추론 능력으로 과학, 코딩, 수학 등 복잡한 일들이나 어려운 문제를 풀 수 있습니다.
ChatGPT 에서 이 시리즈의 첫번째 모델을 공개했습니다. ChatGPT 플러스 및 팀 플랜 사용자들이 사용 가능합니다. API에서도 티어 5부터 사용 가능합니다. 이용가능 티어는 곧 확대될 예정이라고 합니다.
이 모델은 응답하기 전에 생각할 시간을 더 가지도록 훈련되었다고 합니다. 마치 사람이 그러하듯이 말이죠. 훈련 과정에서 생각 프로세스를 다듬거나, 다른 전략을 시도하거나, 실수를 인지하도록 훈련했다고 합니다.
OpenAI 의 테스트에서는 박사 과정의 학생과 물리, 화학, 생물학에서 비슷한 벤치 마크를 수행했다고 합니다. 그리고 특히 수학과 코딩에 뛰어났다고 하네요. 국제 수학 올림피아드 문제를 푸는 것에 있어서 GPT-4o는 13% 정도의 문제만 맞혔다고 합니다. 그런데 이 추론 모델은 83%를 맞혔다고 합니다. 또 이 모델의 코딩 능력은 콘텐스트에서 측정했는데 상위 89%에 도달했다고 합니다. 즉 상위 11%에 속하는 성적을 거두었습니다.
초기 모델로서 ChatGPT를 유용하게 만드는 웹 검색이나 파일 및 이미지 업로드와 같은 많은 기능이 아직 없다고 합니다. 그래서 많은 일반적인 경우에는 GPT-4o가 가까운 시일 내에 더 능력 있게 될 것이라고 합니다.
하지만 복잡한 추론 능력에 있어서 굉장한 발전이고 AI의 새로운 레벨의 능력을 보여준다고 합니다.
연구 포스트 : https://openai.com/index/learning-to-reason-with-llms/
연구 포스트 요약 : OpenAI o1 리서치 포스트 요약
시스템 카드 : https://openai.com/index/openai-o1-system-card/
적용 분야
향상된 추론 능력은 과학, 코딩, 수학 등 유사한 여러 분야에서 복잡한 문제를 해결하는 데 유용합니다.
예시:
의료 연구자들은 세포 시퀀싱 데이터를 주석 달 때 사용할 수 있습니다.
물리학자들은 양자 광학을 위한 복잡한 수학 공식을 생성할 수 있습니다.
개발자들은 다양한 분야에서 다단계 워크플로를 구축하고 실행할 수 있습니다.
OpenAI o1-mini
o1 시리즈는 복잡한 코드를 생성하거나 디버깅하는데 유용합니다. 개발자들에게 좀 더 유용한 해결책을 제공하기 위해서 OpenAI o1 mini 를 공개했습니다. 더 빠르고 저렴한 모델이고 코딩에 효과적인 모델입니다. o1-preview 보다 80% 저렴합니다. 추론을 필요로 하지만 넓은 월드 지식이 필요하지 않은 애플리케이션에게 강력한 옵션을 제공합니다.
사용해 보기
모델 피커에서 선택 후 사용할 수 있습니다.
런칭 초기에는 o1-preview 에는 주 당 30개의 메시지 제한, o1-mini 에는 주당 50개의 제한이 있습니다. 이 제한은 늘리려고 한다고 하고, 또한 프롬프트에 맞는 모델을 자동으로 선택할 수 있게 하려고 한다고 합니다.
또한 o1-mini 를 ChatGPT 무료 사용자들에게 공개하려고 계획하고 있다고 합니다.
응답하기 전 4초 동안 생각하는 모습.
출처 : https://openai.com/index/introducing-openai-o1-preview/
API 에 대한 설명
o1-preview : o1 모델에 대한 초기 베타 버전.
o1-mini : O1의 빠르고 저렴한 버전으로, 방대한 일반 지식이 필요하지 않은 코딩, 수학, 과학 작업에 특히 능숙한 모델입니다.
이미지 입력, 함수 호출, 또는 일관된 빠른 응답 시간이 필요한 애플리케이션의 경우, GPT-4o 및 GPT-4o mini 모델이 여전히 적합한 선택이 될 것입니다. 그러나 깊은 추론이 요구되고 더 긴 응답 시간을 감당할 수 있는 애플리케이션을 개발하려면 o1 모델이 훌륭한 선택이 될 수 있습니다.
컨텍스트 윈도우는 128K 입니다.
이렇게 앞단에서 Reasoning 토큰을 사용하는 것을 알 수 있습니다. 이 추론 토큰은 API 에서는 보이지 않습니다. 하지만 컨텍스트 윈도우를 차지하고 아웃풋 토큰으로 요금이 부과됩니다.
컨텍스트 토큰은 128,000 토큰이지만 아웃풋 토큰에는 최대 상향 리밋이 있습니다.
o1-preview: 최대 32,768 토큰
o1-mini: 최대 65,536 토큰