증류는 AI 모델을 더 작고 저렴하게 만듭니다.
- 중국 AI 회사 DeepSeek가 올해 초 챗봇 R1을 출시하여 큰 주목을 받음.
- R1은 유명 AI 기업들의 모델과 경쟁하는 성능을 가지면서도 소량의 컴퓨터 파워와 비용으로 개발됨.
- 이로 인해 엔비디아 등 서양 기술 회사들의 주식이 급락함.
- DeepSeek가 OpenAI의 모델로부터 무단으로 지식을 사용하여 챗봇을 개발했다는 주장이 있음.
- 디스틸레이션이라는 기술을 사용했다는 의혹이 있었으나, 사실 디스틸레이션은 이미 널리 사용되는 기술임.
- 디스틸레이션은 구글의 Geoffrey Hinton 등의 연구에서 시작되었으며, 복잡한 모델을 더 작고 효율적으로 만드는 데 기여함.
- 디스틸레이션은 잘못된 답변들 사이의 미세한 차이를 사용하는 '다크 지식'을 통해 모델의 효율성을 증대시킴.
- 디스틸레이션은 초기에는 주목받지 못했으나 데이터 양 증가로 인해 효과적임이 입증됨.
- BERT 모델의 디스틸레이션 버전인 DistilBERT가 비즈니스 및 연구에서 널리 사용됨.
- 디스틸레이션 기술은 구글, OpenAI, 아마존 등에서도 서비스로 제공됨.
- 디스틸레이션은 실질적인 소크라틱 방법을 통해 닫힌 소스 모델의 데이터를 얻는 것은 어렵지만, 다른 형태로 학습에 사용될 수 있음.
- 이후 연구들에서 디스틸레이션이 체인 오브 생각 추론 모델의 훈련에 효과적임이 발견됨.
- Berkeley의 NovaSky 연구팀은 디스틸레이션을 사용하여 저비용으로 비슷한 성능의 모델을 개발함.
- 디스틸레이션은 AI의 근본적인 기술로 자리잡음.
4quantamagazine.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.