GPT-4는 16개의 인공지능 모델이 협업하는 전문가 모드이다.

들리는 소문에 의하면 GPT-4는 각각 1110억개 이상의 파라미터를 가진 16개의 인공지능이 연결된 전문가의 혼합 아키텍처(MoE)를 기반으로 하고 있다고 한다. 이를 계산하면 약 1.76조개의 파라미터를 가지는 셈이다. 데이터셋은 13조개의 토큰으로 훈련되었고 훈련 비용만 6300만달러가 들었다고 한다.

출처 : GPT-4 is 1.76 trillion parameters in size and relies on 30 year old technology

MoE (Mixture of Experts) 모델은 "전문가"라고 불리우는 여러가지 모델이 협업을 하는 형태이다. 가중치를 결정하는 gating network에 의해 작동하게 되며, 이를 통해 각 모델은 전문성을 가질 수 있게 된다.

물론 이는 OpenAI의 공식 이야기는 아니다. OpenAI는 GPT-4에 대한 스펙을 공개하지 않고 있다. 정보의 출처는 조지 호츠(George Hotz)인데 그는 iPhone이나 플레이스테이션 해킹으로 알려진 해커이며 현재 자율주행 스타트업의 CEO 이다. PyTorch의 공동 창업자 중 한 명 Soumith Chintala도 이에 대해 이야기 하고 있다. 트윗

조지 호츠의 이야기를 좀 더 자세히 들어보면 하나의 추론에 대해 16번 반복(16-iter inference)하여 응답을 생성하고 이를 활용해 최종 응답을 개선하거나 좀 더 복잡한 응답을 할 수 있게 된다.

Distillation (증류) 기법은 작은 모델이 큰 모델을 따라할 수 있게 만드는 프로세스이다. 이를 활용해서 좀 더 효율적인 운용을 할 수 있게 된다. 조지 호츠는 아마도 GPT-4는 증류 기법을 사용하고 있을 것이라고 한다. (probably distilled to be more efficient.)

물론 공식 확인된 이야기는 아니지만 OpenAI에서 너무 이야기를 안하기 때문에 동작원리를 추측해 볼 수 있는 이야기라 공유를 해본다. 왜 GPT-4가 1조개 이상의 파라미터를 가진다고 하는 이야기가 나오는지 이해가 되는 대목이다.

예측을 해보는데 앞으로 전문성을 가진 여러 대형 언어 모델들이 작은 인공지능 모델을 활용해 커뮤니케이션을 하는 형태가 많이 사용될 수 도 있을 것 같다.

솔직히 말해서 현재 GPT-4는 현재 최강의 모델이고 사용할 수 있어서 좋다.