AI 훈련 데이터 부족과 사용 문제

뉴욕 타임즈에 따르면 GPT-4가 유튜브 비디오 백만 시간 이상을 바탕으로 학습했다고 합니다. OpenAI는 이러한 일들을 공정 사용이라고 생각한다고 합니다. 구글에서는 이런 행동이 서비스 약관을 위배하는 것이라고 합니다. 하지만 서비스 약관에 따르면 구글은 자사의 모델인 gemini 등을 훈련시키는데 유튜브 데이터를 사용할 수 있다고 주장합니다. 출처 반면 빅테크 회사들은 AI 모델을 훈련시키기 위해 인터넷에서 새로운 데이터 소스를 찾고 있습니다. AI 모델이 빠르게 학습함에 따라 2026년까지 고품질 데이터가 소진될 수 있다고 합니다.

Google은 Google Docs, Sheets, Slides에서 사용 가능한 소비자 데이터를 활용하는 것을 고려하고 있으며, 메타는 출판사를 인수하는 아이디어를 고려했습니다. OpenAI는 여러 퍼블리셔들과 기사를 훈련에 활용할 수 있도록 글로벌 계약을 체결하고 있습니다. 또 OpenAI는 인공지능이 생성한 합성 데이터를 사용하는 방법도 고려하고 있다고 합니다. 출처