DaramGPT: Knowledge Distillation으로 가벼운 GPT 만들기

📖 책 소개

대규모 모델을 압축하면 원본 모델의 성능은 거의 잃지 않으면서 많은 파라미터 수로 인한 단점들을 해소할 수 있습니다. 이번 연구에서는 Knowledge Distillation 기법을 활용하여 한국어 언어 생성 모델을 작게 압축하는 과정을 다루고자 합니다.