LLM의 역사와 혁신적인 기술 RLHF

틸노트 AI 마스터 가이드

LLM의 역사

LLM이 발전하게 된 계기는 구글이 2017년 발표한 논문 Attention is All You Need 에서 등장한 트랜스포머 (Transformer) 기술입니다. 여기에서 모든 것이 시작되었습니다.

트랜스포머 기술은 Self Attention 이라는 기술을 사용합니다. 이 기술은 문장 내 단어간의 관계를 파악하는데 사용됩니다. 각 단어간의 관계에서 어떤 단어가 중요한지 파악하고 이를 바탕으로 문장의 의미를 이해합니다. 이 과정에서 모든 단어를 동시에 고려함으로써 병렬처리가 가능하게 되었습니다. 이러한 개념은 기존 순차적으로만 처리가 가능했던 RNN 등에 비해 높은 성능을 가져다 주었습니다.

트랜스포머 기술을 사용해 늘어난 데이터 처리 능력으로 LLM은 방대한 양의 텍스트를 학습할 수 있었습니다. 그리고 놀랍게도 학습량이 늘어날 수 록 성능은 더 좋아지게 되었습니다. 그리고 이는 OpenAI의 GPT (Generative Pre-trained Transformer), 구글의 BERT (Bidirectional Encoder Representations from Transformers)와 같은 LLM 인공지능 모델의 발전으로 이어지게 됩니다.

OpenAI는 2018년 GPT-1을 출시하고 2019년 GPT-2를 거쳐, 2020년 GPT-3를 연이어 출시합니다. 그리고 2022년 GPT-3.5의 파인튜닝 버전에 톡특한 기술인 RLHF를 결합하여 ChatGPT를 내놓게 됩니다.

혁신적인 기술 RLHF

RLHF란 무엇일까요? Reinforcement Learning from Human Feedback의 약자입니다. 사람의 피드백과 강화 학습을 결합한 독특한 형태입니다.

먼저 방대한 양의 데이터로 학습된 pretrained model이 나오면 사람이 직접 시범을 보여 파인튜닝을 합니다. 이를 Supervised Finetuning 이라고 합니다.

그리고 이 모델이 생성한 답변에 사람이 무엇이 더 좋은 답변인지 랭킹을 매겨 Reward Model 을 학습합니다.

그리고 처음 파인튜닝된 SFT 모델과 reward model을 활용하여 강화학습을 진행합니다. 여러 프롬프트로 답변을 생성한 후 높은 리워드가 나온 토큰들이 더 자주 나오게 확률을 조정하여 정책을 생성하는 것입니다.

쉽게 말하면 사람이 예시와 무엇을 선호하는지 알려주고 이를 활용해서 강화 학습을 진행한 것이라 할 수 있습니다. 사람이 무엇을 좋아하는지 학습한 셈이죠.

이 RLHF를 활용해서 인공지능 모델을 발전시키고 여기에 채팅 형식의 UI를 붙여서 공개한 것이 ChatGPT 입니다.

LLM의 한계가 있을 때 이를 포기하지 않고 창의적이고 혁신적인 방법으로 개선한 것입니다. 저는 이 부분이 참 인상 깊었습니다.

LLM의 한계와 기회

처음에 ChatGPT는 2021년 9월까지의 정보를 기반으로 학습되었습니다. 따라서 최근의 정보는 반영하지 못합니다. 이를 극복하기 위해서 인터넷 검색 데이터를 활용하는 방법 (bing, bard 등)이 있는데 이는 나중에 다뤄보도록 하겠습니다. 2023년 11월에 학습 데이터가 2023년 4월까지의 최신 데이터를 반영하는 것으로 업데이트 되었습니다.

또 ChatGPT가 생성하는 정보는 100% 정확하지 않습니다. 기본 원리가 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하는 것이기 때문입니다. 즉 논리적으로 맞다면 사실을 지어낼 수 있습니다. 이를 환각(hallucination)이라고 부릅니다. 이러한 한계를 이해하고 사용하는 것이 중요합니다.

그럼에도 불구하고 ChatGPT와 같은 인공지능을 잘 사용한다면 엄청난 생산성의 향상을 이끌어 낼 수 있고 새로운 패러다임을 만날 수 있습니다. 저 또한 생산성의 직접적인 향상을 주는 서비스는 아이폰 이후로 정말 오랜만이었습니다. 저는 ChatGPT를 코딩, 질문, 학습, 글쓰기 등에 거의 매일 사용하며 진짜로 생산성이 높아진 것을 체감했습니다. 이 멋진 변화를 여러분과 함께 나누고 싶습니다.

그렇다면 인공지능의 등장으로 앞으로의 세상은 도대체 어떻게 바뀌게 될까요? 스타트업 업계의 유명한 인물인 폴그레이엄은 이렇게 말했습니다.

"적어도 모든 것이 바뀌게 될 것입니다." (At the very least, it's going to change everything.)