AI 모델은 재귀적으로 생성된 데이터로 학습할 때 붕괴됩니다.
- 제목: "AI 모델은 반복적으로 생성된 데이터로 학습할 때 무너진다"
- LLM(대형 언어 모델)은 원래 주로 인간이 생성한 텍스트로 학습되었으나, 미래 모델들은 웹에서 긁어온 데이터로 학습될 가능성이 높음.
- 이전 모델이 생성한 데이터로 학습할 경우 '모델 붕괴'라는 퇴행적 과정이 발생.
- 이 과정은 임의로 다른 모델들이 생성한 데이터를 학습하며 발생.
- 모델 붕괴는 진정한 데이터 분포를 잊게 만듦.
- 초기에 데이터 분포의 꼬리를 잃고, 후기에 분포가 매우 작은 분산을 가지는 점 추정치로 수렴함.
- 모델 붕괴의 주요 원인은 통계적 근사 오류, 기능적 표현 오류, 기능적 근사 오류.
- LLM뿐만 아니라 GMM, VAE 모델에서도 모델 붕괴가 관찰됨.
- 미래의 모델은 인류가 생성한 원본 데이터에 접근하는 것이 중요.
- 모델 붕괴의 예방을 위해서는 LLM이 생성한 데이터와 그렇지 않은 데이터를 구분하는 방안 필요.
- 데이터 오염은 원본 데이터와의 학습에서 발생.
- LLM이 생성한 데이터는 인터넷에서 수집되는 데이터의 질을 저하시킬 수 있음.
- 모델 붕괴의 이론적 직관 설명과 수학적 모델 제공.
- 실험을 통해 모델 붕괴 현상 증명.
- 초기 데이터 없이 학습하여 성능 저하 사례.
- 학습 데이터의 일부를 유지하며 성능 저하를 최소화하는 방안 제시.
- 반복적 학습은 성능 저하를 발생시키며, 모델 붕괴를 막기 어렵다는 결과 도출.
3nature.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.