생성형 AI와 책: 앤스로픽·메타 사례로 보는 데이터 확보 전쟁과 저작권 논쟁
핵심 요약
생성형 AI 기업들은 성능 향상을 위해 방대한 양의 책 데이터를 확보하려 했고, 그 과정에서 합법·불법 경로가 뒤섞이며 큰 논란과 소송이 발생했다.
법원은 'AI 학습 자체'는 상당 부분 공정 이용일 수 있다고 보면서도, 데이터를 얻는 방식(특히 해적판·토렌트 이용)에 대해서는 위법 가능성을 열어두고 있다.
이 사례들은 앞으로 AI를 개발·활용할 때 "무엇을, 어떻게 가져와 학습시키는가"가 가장 큰 법적·윤리적 쟁점이 될 것임을 보여준다.
AI 기업들이 책에 집착한 이유
생성형 AI는 언어를 잘 다루려면 좋은 텍스트를 많이 경험해야 한다.
인터넷에는 글이 많지만, 댓글·SNS처럼 어투가 파편적이고 질이 낮은 내용도 많다.
반대로 책은 구조가 탄탄하고 문장이 다듬어져 있으며, 긴 논리 전개와 다양한 스타일을 담고 있어 "언어를 제대로 배우기 좋은 교과서"에 가깝다.
앤스로픽 내부에서도 "인터넷 말투" 대신 "글을 잘 쓰는 법"을 익히게 하려면 책이 필수라는 인식이 있었다.
메타 역시 경쟁 모델을 만들려면 대규모 도서 데이터가 필요하다고 판단했고, 이를 "경쟁력을 위한 필수 자산"처럼 취급했다.
결국 빅테크들은 책을 AI 성능 경쟁의 핵심 연료로 간주하며, 누가 더 많이, 더 빨리 확보하느냐를 두고 숨가쁜 경쟁을 벌이게 된다.
앤스로픽의 두 단계 전략: 해적판 다운로드와 '프로젝트 파나마'
앤스로픽은 먼저 그림자 도서관(리브젠, Pirate Library Mirror)에서 대규모로 해적판 책을 내려받았다.
공동창업자가 직접 11일 동안 대량 다운로드했고, 내부에서는 새 해적판 사이트를 두고 "때마침 잘 나왔다"는 식의 메시지를 주고받았다.
이후 회사는 방향을 바꿔 "프로젝트 파나마"를 추진한다.
이는 실제 종이책을 대량으로 사들여, 제본을 잘라 페이지를 스캔한 뒤, 조각난 책은 재활용하는 방식으로 데이터를 얻는 작업이었다.
이 프로젝트를 위해 앤스로픽은 수십만~수백만 권 규모의 책 스캔을 목표로 했고, 중고서점·대형 중고 유통업체를 통해 책을 확보했다.
이 방식은 비용과 수고가 많이 들지만, 최소한 "정가를 지불하고 책을 구입한 뒤 스캔한다"는 점에서 저작권 침해 리스크를 줄이려는 시도로 볼 수 있다.
메타의 토렌트 다운로드와 내부 불안
메타는 도서 데이터 확보를 위해 토렌트 기반 해적판 컬렉션(리브젠 등)을 활용하려 했다.
토렌트는 파일을 받는 동시에 다른 사람에게도 일부를 업로드하는 구조라, 단순히 '받기만 한 것'보다 저작권 침해 책임이 더 무거워질 수 있다.
일부 엔지니어는 회사 노트북으로 토렌트를 쓰는 것 자체가 "이상하다", "법적으로 문제될 수 있다"고 우려를 표했다.
내부 대화에서는 "왜 아마존 서버를 쓰냐"는 질문에 "회사로 추적되는 걸 피하기 위해서"라는 답이 오갈 정도로, 리스크 인식이 분명히 있었다.
그럼에도 내부 이메일에는 최고경영진에게 보고·승인까지 거친 후 리브젠 사용을 허용했다는 내용이 등장한다.
다만, 메타는 법원에서 "토렌트로 데이터를 받았지만, 그것이 곧 저작물의 불법 배포는 아니다"라고 주장하며, 법적 책임 범위를 최소화하려 하고 있다.
법원의 관점: 공정 이용과 '데이터 확보 방식'의 분리
현재까지 나온 몇몇 판결은 중요한 기준선을 제시한다.
법원은 대체로 "책을 AI 학습용으로 쓰는 것 자체"는 공정 이용에 해당할 수 있다고 본다.
판사는 AI 학습을 "아이들에게 글쓰기 교육을 시키는 것"에 비유했다.
AI가 책을 그대로 복제해 판매하는 것이 아니라, 통계를 바탕으로 새로운 문장을 생성하므로, 원래 책과 "용도와 성질이 변형된(trans formative)" 사용이라는 논리다.
그러나 데이터 확보 과정은 별도의 문제다.
앤스로픽의 경우 실제 책을 돈 주고 사서 스캔한 부분은 허용 범위에 가깝게 보지만, 해적판 그림자 도서관에서 무단 다운로드한 행위에 대해서는 저작권 침해 가능성을 인정하고 집단소송을 허용했다.
즉, 요약하면 "무엇을 하느냐(학습)는 상당 부분 괜찮을 수 있지만, 그걸 어떻게 얻었느냐(취득 경로)에 따라 불법이 될 수 있다"는 구조다.
15억 달러 합의와 저작권자의 보상 문제
앤스로픽은 재판을 이어가기보다, 출판사·저자들과 약 15억 달러 규모의 합의에 도달했다.
이 과정에서 회사를 사실상 "해적판 다운로드 책임"에 대한 집단적 보상 구조로 정리한 셈이다.
그 결과, 그림자 도서관에서 내려받힌 책의 저자는 한 권당 약 3,000달러 정도를 받을 수 있는 것으로 추산된다.
이는 AI 기업이 얻은 잠재적 이익에 비하면 적을 수 있지만, 최소한 "무단 사용에 따른 금전 보상"이라는 기준을 세운 사례로 의미가 있다.
동시에 창작자 단체나 권리 옹호자들은, AI 업계가 창작물에 의존해 막대한 가치를 만들면서도 그 대가를 충분히 지불하지 않았다고 비판한다.
이번 사건을 계기로 "창작자가 정당한 대가를 받고, 사용 여부를 스스로 선택할 수 있는 구조"를 만들자는 요구가 더욱 커지고 있다.
연구 문화에서 상용 서비스로: '관성'이 부른 충돌
대규모 데이터를 활용하는 AI 연구는 오랫동안 학계에서 진행되었고, 연구 목적으로 저작물을 사용하는 것은 비교적 관대하게 여겨져 왔다.
연구자들은 웹 크롤링이나 책 스캔을 통해 모델을 만들면서, 이를 "발전된 형태의 공정 이용"으로 받아들이는 관습을 형성했다.
문제는 이 관행이 거의 그대로 상용 서비스로 옮겨졌다는 점이다.
챗GPT 같은 서비스가 대중화되었을 때, 이미 저작권이 있는 데이터로 학습된 모델들이 상업적으로 사용되고 있었고, 뒤늦게 이해관계자들이 문제를 제기하게 되었다.
법학자는 이를 "연구 단계에서 형성된 관성을, 상업 서비스에도 그대로 적용한 착각"이라고 평가한다.
기업들은 이미 막대한 비용을 들여 데이터 파이프라인을 구축했기 때문에, 중간에 멈추거나 다시 허가를 받는 것이 현실적으로 어렵다는 점도 충돌을 키운 요인이 됐다.
앞으로의 AI 개발·활용에서 배울 점
이번 사례는 AI를 개발하거나 활용하는 누구에게나 몇 가지 교훈을 던진다.
첫째, "AI가 잘 되려면 데이터가 많아야 한다"는 말이 곧 "아무 데이터나 마음대로 써도 된다"는 뜻은 아니다.
둘째, 학습 행위가 공정 이용일 수 있다 해도, 데이터 취득 과정이 불법이면 전체 프로젝트가 위험해진다.
따라서 데이터를 수집할 때는 출처, 라이선스, 계약 관계를 명확히 하고, 필요하다면 유료 라이선스를 고려해야 한다.
셋째, 창작자와의 관계 설정이 중요하다.
앞으로는 "옵트아웃(사용 거부)"이나 "옵트인(동의 후 사용)" 시스템, 사용량에 따른 로열티 모델 등, 창작자의 선택권과 수익을 보장하는 구조를 설계하는 기업이 장기적으로 신뢰를 얻을 가능성이 크다.
인사이트
생성형 AI 시대의 핵심 질문은 "AI가 얼마나 똑똑해질 수 있는가"를 넘어 "그 똑똑함을 위해 누구의 무엇을 어떻게 썼는가"로 이동하고 있다.
법원은 AI 학습 자체에 대해서는 비교적 유연하지만, 취득 과정이 부정하면 막대한 비용과 평판 손실을 감수해야 한다는 신호를 분명히 보내고 있다.
실무적으로는, 작은 프로젝트라도 다음 두 가지를 습관처럼 점검하는 것이 좋다.
첫째, 사용하는 데이터의 출처와 라이선스를 문서로 남긴다.
둘째, 저작권 논란이 있는 출처(해적판, 불분명한 토렌트, '무료 대량 데이터' 사이트 등)는 애초에 배제하고, 가능한 한 합법적·계약 기반 데이터로 모델을 키워야 한다.
창작자의 권리를 존중하면서도 AI 기술을 발전시키는 길은 생각보다 더 느리고 비싸 보일 수 있다.
그러나 앤스로픽·메타 사례가 보여주듯, 그 비용을 아끼려고 지름길을 택하면, 훗날 훨씬 더 비싼 대가를 치르게 될 가능성이 크다.
출처 및 참고 : Anthropic ‘destructively’ scanned millions of books to build Claude - The Washington Post