
AI 모델과 오픈소스 라이선스, GPL은 어디까지 전파될까? 최신 이슈와 논쟁 총정리
요즘 AI, 인공지능 관련 소식이 넘쳐나죠. 그만큼 'AI는 어디까지 자유로울까?', '오픈소스 코드로 배운 AI, GPL 라이선스를 따라야 할까?'라는 논쟁도 치열합니다. 오늘은 "AI 모델에 GPL 라이선스(코드 공유와 공개를 강제하는 오픈소스 규정)가 전파된다"는 이론의 현재 상태와, 왜 이게 중요한지, 최근 법적 다툼과 국제적 논의까지 흥미롭게 파헤쳐봅니다.
AI 모델에 GPL이 전파된다는 이론, 뭔가요?
간단하게 말하면, AI 개발에 오픈소스 코드(GPL 라이선스가 붙은 코드 등)를 학습데이터로 활용하면, 그 AI 모델 역시 GPL을 따라야 한다는 주장입니다. 예를 들어, 모델을 배포할 때 소스코드를 공개해야 하거나, 새로운 사용자에게도 같은 자유를 보장해야 한다는 거죠. 한때 GitHub Copilot(코드 자동 완성 모델)이 등장하며 이 논쟁이 크게 불붙었지만, 최근엔 그 뜨거움이 좀 사그라든 분위기입니다.
현재까지 이어지는 두 곳의 핵심 법적 분쟁
1. Doe v. GitHub : Copilot과 오픈소스 라이선스
미국에서는 개발자들이 'Copilot'의 개발사(GitHub, Microsoft, OpenAI)가 공개 코드(GPL, MIT 등)로 AI를 훈련했으면서도 라이선스 조건을 무시했다며 집단 소송을 걸었습니다. 핵심 쟁점은, Copilot이 생성한 코드가 원작자의 이름도, 라이선스 고지도 없이 배포된다는 점입니다. 미국 법원은 "금전적 손해는 분명치지만, 라이선스 위반 행위에 대한 금지 조치를 요구할 만한 근거는 있다"고 판단해 소송이 진행 중입니다.
하지만 이 소송이 "AI 모델 자체가 GPL의 영향을 받으므로 전체를 공개하라"는 식의 결론을 내린 적은 없습니다. 본질적으로 "모델 제공이나 코드 생성이 라이선스를 위반하면 불법"이라는 문제의식을 다루는 상황입니다.
2. GEMA v. OpenAI : 독일의 저작권 재판, 모델 속 ‘기억’ 문제
독일에서는 저작권 단체 GEMA가 OpenAI를 상대로 'ChatGPT가 유명 노래 가사를 거의 그대로 뱉어낸다'며 소송을 제기했습니다. 독일 뮌헨 지법은 AI 모델 내부에 "재현 가능한 형태"로 저작물이 녹아 있다면, 그것 자체가 저작권 침해(‘복제’)에 해당한다고 판시했습니다.
이 판결은 만약 모델 내부에 원본 데이터가 거의 그대로 보존·출력된다면, 그 모델의 배포까지도 저작권 위반이 될 수 있다는 새 관점을 제공합니다. 다만, 특별한 경우(가사 복제 등)라서 일반적인 AI 모델에는 바로 적용하긴 어렵다는 설명도 병행했습니다.
각국의 법률: 일본의 입장은 조금 다르다
일본은 2018년 개정 저작권법으로 "AI 학습 목적의 데이터 복제는 정보 분석이면 대체로 허용된다"고 명시해, 학습 단계의 복제는 저작권 침해가 아니라고 봅니다. 단, 만약 AI가 학습한 데이터의 창작적 표현을 자주, 거의 그대로 ‘복제’하면 그때는 저작권 위반 가능성이 생깁니다. 그리고, 라이선스는 계약법으로 따로 책임질 수 있으므로, GPL이 AI 모델에 바짝 적용된다는 공식 해석은 아직 없습니다.
왜 많은 전문가들이 'GPL 전파 이론'에 반대할까?
법적 논점
일반적으로 저작권법상 ‘AI 모델’은 학습데이터의 통계·추상 정보만 저장하며, 원본 코드와 달리 사람이 직접 인식할 수 있는 창작성이 없습니다. 복제의 기준도 엄격해서, 모델 전체가 특정 코드의 “파생물”로 보기 어렵다는 입장이 많죠. 대표적으로 영국에서도 "AI 모델 자체는 저작권 침해가 아니다"라는 판결이 있었습니다.
GPL 조항 해석
GPL은 원래 ‘파생 소프트웨어’에 강제하는 라이선스로, AI 모델이 ‘소프트웨어’인지, 어느 범위까지 원본 코드를 담고 있는지 명확하지 않습니다. 모델 속 가중치(Weights)는 사람이 읽거나 수정하기 어렵고, 학습 데이터 전체가 소스 코드라고 할 수도 없습니다.
기술적 현실
실제 AI 모델은 거대한 데이터셋을 ‘흔적’ 정도로만 기억합니다. 출력물 일부가 우연히 훈련 데이터와 닮은 경우가 있을 수 있지만, 전체 모델을 "GPL 코드를 품었다"고 일반화하는 건 지나친 해석입니다. AI 개발사들도 "모델은 개별 데이터를 복제하지 않고, 통계적으로 활용할 뿐"이라 주장합니다.
실무와 정책
이론이 법적으로 인정된다면, 수많은 오픈소스·사유 라이선스가 모델에 겹겹이 쌓여 결국 누구도 모델을 자유롭게 배포하지 못하게 됩니다. 실제로 기업들이 GPL 코드의 AI 학습을 기피하거나, 오픈 프로젝트가 데이터 공급원으로서 힘을 잃을까 우려도 큽니다.
오픈소스 단체들은 어떤 해법을 내놨을까?
'Open Source Initiative'(OSI)는 2024년 '오픈소스 AI'의 요건을 제시했습니다. 모델 가중치와 훈련·실행 코드는 오픈소스로 제공하되, 훈련 데이터 공개는 ‘정보 설명’ 수준만 요구합니다. '모든 데이터 전면 공개'는 도입하지 않은 유연한 접근이죠.
'Free Software Foundation'(FSF)도 AI와 라이선스 자유를 보장하기 위한 별도의 조건을 만들려 노력합니다. 하지만 현재로선 “모델 파라미터가 소스코드와 동일하게 자유로운 편집 대상이 아니라, 다시 학습(retraining)이 현실적”이라는 입장이라, 기존 GPL만으로 AI 자유를 충분히 보장하지는 못합니다.
앞으로의 흐름: 투명성과 현실적 자유 추구
오늘날 AI 분야는 여전히 법적, 정책적, 기술적 변화의 한가운데 있습니다. 완전히 판례가 쌓이지 않은 만큼, 앞으로의 재판 결과나 각국의 정책, 오픈소스 커뮤니티의 합의가 실제 모델 배포·사용의 경계를 결정하게 될 것입니다.
마지막으로, AI와 오픈소스의 '자유'를 제대로 구현하려면 법적 강제보다 투명한 정보 공개와 개방된 개발 생태계가 더 현실적인 해답이 될 수 있습니다. 기업이나 개발자가 라이선스 리스크를 피해 GPT, Copilot 등 최신 AI 모델을 써야 하는 시대. 이제는 공식적인 가이드라인과 자율적 모범 사례가 더욱 중요해졌습니다.
AI의 자유와 오픈소스 정신, 두 마리 토끼를 잡고 싶다면 무작정 ‘전파’만 요구하기보다, 어떤 정보와 투명성이 필요한지, 실사용자와 개발자 모두가 납득할 수 있는 기준을 고민하는 게 앞으로 가장 중요한 숙제 아닐까요?
참고
[1] The Current State of the Theory that GPL Propagates to AI Models Trained on GPL Code - Open Source Guy
[2] Artificial intelligence and copyright - Wikipedia
[3] Switzerland government release full FOSS LLM under Apache 2.0, argue for AI as Public Utility - Feddit.online
[4] OpenAI Lawsuits: Toughest Legal Battles Facing Sam Altman, ChatGPT - Business Insider
