DL Paper Brief-est Summary : Let's verify Step by Step

오픈AI 따끈따끈한 신상 논문, 수학문제들을 모으고 문제 푸는 LLM이다.

한창 ChatGPT 하입시절에 수학문제 풀게 해봤더니 (당연히 연산력이 좋을수 없으니) 생각보다 문제 유형을 단박에 알아내서 수준높은 reasoning 실력을 보여줬다.

오픈AI 팀답게 base GPT-4를 사용했고, 이 모델은 token prediction pretrained만된 즉 챗GPT 신드롬을 만든 기술인 RLHF는 거치지 않은 베이스 모델이라고 한다.

거기에 두가지 방법론(ORM, PRM)을 이용하여 각각 finetuning시켰다.

두가지를 비교하였는데 ORM, PRM, 각각 Outcome-supervised reward models, Process-supervised reward models. 즉 결과 중심 vs. 과정 중심의 리워드 모델을 트레이닝 시켰고 당연히 후자가 결과가 좋았다. 78.2%, 개인적으로 본인들이 만든 데이터셋이라 다른 비교 모델 accuracy가 없어 비교할 수 없는점은 아쉬웠다.

저자들이 밝혔듯, 베이스모델(두루두루 상식과 reasoning 능력을 갖춘 LLM 모델, not yet RLHF) 을 가지고 특정분야에만 착안한 모델셋과 방향성을 통해 Reward model만들고 최종 특화 LLM을 만드는 방향이 다음 스텝이 될거같다.

당연히 이러한 LLM에 어떤 스텝바이스텝 로직으로 해결책을 찾는 방법론은 여러 업계에 적용이 가능하지 않을까 생각한다.

일단 '수학' 콴다앱 AI기반 수학플랫폼(AI를 통해 활자 혹은 문제를 정확히 인식하여 문제풀이 제공, 만약 적절한 답 찾지못하면 수학 전문 선생과 연결하여 문제풀이 방식인듯?)

당장 LLM에 적용할시 더 완벽한 로직 스텝바이스텝 정확한 답변을 내놓을 수 있다면 회사는 어떻게 변화해야하는가?

갖춘 플랫폼을 토대로 쉽게 주저앉지는 않겠지만 LLM과 같은 파괴적인 기술력은, 기존에 나름 쌓아뒀던 스타트업들의 기술력이 무의미하게 만들어버리는 것은 아닐까?

생각해보면 오픈AI보다 훨씬 많은 돈을 인공지능에 쏟아붇고도, Transformer를 최초로 만들어냈음에도 결국 GPT 계열에 밀려서 심지어 수백조 기업가치까지 깎아버린 수모를 '구글'도 겪었거늘.

DL Paper Brief-est Summary : Let's verify Step by Step

키워드만 입력하면 나만의 학습 노트가 완성돼요.