메인 콘텐츠로 건너뛰기

위키백과가 아마존·메타·마이크로소프트와 손잡은 진짜 이유

“AI가 답해 주는데, 굳이 위키백과까지 갈 필요가 있을까?”

우리가 검색 대신 챗봇에게 묻는 시대, 위키백과가 조용히 큰 결정을 내렸습니다. 25번째 생일을 맞은 위키미디어 재단이 아마존, 메타, 마이크로소프트, 미스트랄 AI, 퍼플렉서티 등 주요 AI 기업들과 새 파트너십을 공식 발표한 겁니다12345.

겉으로 보면 “AI 회사들이 위키백과 데이터를 돈 주고 쓰게 됐다” 정도의 뉴스처럼 보이지만, 안을 들여다보면 앞으로의 AI·검색 생태계, 그리고 ‘공짜 지식’의 미래까지 연결되는 꽤 큰 변화입니다.

이 글에서는

  1. 위키미디어 재단이 어떤 회사들과, 무엇을 약속했는지

  2. 왜 지금 이런 AI 파트너십이 필요한지

  3. 우리의 검색·AI 사용 경험에 어떤 변화가 올지

세 가지를 중심으로 쉽게 정리해 보겠습니다.


1. 누가 누구와 손잡았나: 새로운 AI 파트너십의 구체적인 내용

이번 발표의 주인공은 위키백과 자체가 아니라, 위키미디어 재단의 상업용 제품인 Wikimedia Enterprise(위키미디어 엔터프라이즈) 입니다23.

이 서비스는 한마디로 말하면 “위키백과를 대규모로 가져다 쓸 수 있는 유료 데이터·API 패키지”입니다. 일반 이용자는 웹사이트에서 글을 읽지만, AI 회사·검색엔진·음성비서는 엄청난 양의 데이터를 구조화된 형태로, 그리고 초고속으로 가져가야 하죠. 바로 그 용도입니다34.

이번에 공식적으로 파트너로 공개된 기업은 다음과 같습니다23465.

  • 기존 공개 파트너:
    구글(알파벳)

  • 이번에 새로 공개된 주요 AI·빅테크 파트너:
    아마존, 메타, 마이크로소프트, 미스트랄 AI, 퍼플렉서티

  • 그 외 이미 합류했던/새로 추가된 파트너들:
    에코시아(Ecosia), 플라이아스(Pleias), 프로라타(ProRata), 노믹(Nomic), 리프 미디어(Reef Media) 등

이 기업들은 단순히 “위키백과를 참고한다” 수준이 아니라, Wikimedia Enterprise의 ‘고급 유료 고객’ 입니다. 즉,

  • 위키백과와 다른 위키미디어 프로젝트의 데이터를

  • 자신들의 검색엔진, AI 챗봇, 음성비서, 추천 시스템, RAG(검색 결합 생성AI) 등에

  • 정식 라이선스와 전용 API를 통해 사용하는 구조입니다234.

위키미디어 재단은 이미 2022년 구글과 비슷한 형태의 계약을 맺었고25, 그 후 1년여 동안 다른 기업들과 관계를 정리한 뒤 이번에 한 번에 공개한 셈입니다.


2. 왜 지금일까? ‘공짜로 긁어가던 시대’의 끝

사실 빅테크와 AI 기업들은 오래전부터 위키백과를 마음껏 이용해 왔습니다. 크롤러와 봇을 이용해 사이트를 긁어가(L scraping) AI 학습데이터나 검색결과 요약, 지식 패널 등에 사용하는 게 일상이었죠47.

문제는 그 비용을 누가 내고 있었냐 입니다.

위키백과는 비영리 모델이라, 서버·대역폭·보안·엔지니어 인건비 같은 유지비 대부분을 전 세계 이용자들의 소액 기부에 의존해 왔습니다. 하지만 AI 붐이 터지면서 상황이 급격히 바뀌었습니다.

  • 2024년 이후, 대규모 자동 스크래핑으로 인한 대역폭 사용량과 서버 부하가 크게 증가했고4

  • 트래픽 통계를 자세히 들여다보니, 사람이 아니라 봇·스크래퍼가 상당 부분을 차지하고 있었습니다4.

  • 심지어 사람이 위키백과에 직접 방문하는 비율은 약 8% 줄었는데, 이건 “검색·챗봇에서 요약만 보고 사이트엔 안 들어오는” 패턴과도 연결됩니다4.

즉,
“사람은 줄고, 기계(봇)는 늘고, 비용은 폭증하는” 구조가 되어 버린 겁니다.

AI 모델과 검색 요약 기능은 위키백과의 지식을 가져다 쓰면서, 정작 사용자들을 위키백과 사이트로 보내주지 않습니다. 광고 수익이 있는 것도 아니니, 기부는 줄고 비용은 늘고… 비영리 재단 입장에선 버티기 힘든 그림입니다4.

그래서 나온 해법이 바로 유료 라이선스 + 엔터프라이즈 API 입니다345.

  • 큰 회사들은 돈을 내고, 정제된 데이터를, 안정적인 API로 가져가고

  • 그 돈으로 위키백과의 서버·인프라·커뮤니티를 지속 가능하게 만들겠다는 전략입니다.

위키미디어 엔터프라이즈 대표인 레인 베커는 “이제 빅테크도 위키백과의 작업을 지속시키기 위해 재정적으로 책임을 져야 한다”는 취지로 설명합니다45.
위키백과 창립자 지미 웨일스도 “AI가 위키백과 데이터로 훈련되는 건 좋지만, 그 비용은 공정하게 부담해야 한다”는 입장입니다4.


3. 위키미디어 엔터프라이즈란 무엇인가: AI 시대의 ‘데이터 파이프라인’

그렇다면 AI 회사들이 돈을 내고까지 쓰고 싶어하는 Wikimedia Enterprise는 정확히 어떤 서비스일까요?

이 서비스는 “위키백과 프리미엄 데이터 공급망” 같은 역할을 합니다3.

위키미디어 재단이 소개하는 주요 기능은 다음과 같습니다3.

  • On-demand API
    특정 문서 최신 버전을 바로 가져오는 API. 예를 들어 “서울” 문서를 요청하면, 현재 버전의 내용을 구조화된 데이터로 받는 식입니다.

  • Snapshot API
    전 세계 300개 이상 언어판 위키백과를 언어별 ‘통짜 데이터 파일’로 시간 단위(1시간마다) 제공합니다. 검색엔진·AI 학습용으로 통째로 다운로드해서 쓰기 좋습니다.

  • Realtime API
    기사 수정·추가·삭제가 일어날 때마다 실시간으로 스트리밍해 주는 API. 빠른 업데이트가 중요한 서비스에 유용합니다.

이 API들을 통해 기업들은

  • 수십·수백 테라바이트에 달하는 위키백과와 다른 위키미디어 프로젝트 데이터를

  • 자신들 시스템에 맞는 구조로

  • 중복 없이 효율적으로 수집하고 관리할 수 있습니다3.

특히 대규모 언어 모델(LLM) 학습에 위키백과는 여전히 가장 중요한 공개 데이터셋 중 하나입니다.
위키미디어 재단도 “위키백과는 여전히 LLM을 훈련하는 데 가장 높은 품질의 데이터셋 중 하나”라고 강조합니다37.

결국 Wikimedia Enterprise는

  • AI·검색·음성비서·RAG 시스템들이 위키백과를 ‘공짜로 몰래 긁는’ 대신,
    ‘공식적으로 돈 내고 안정적으로 연결되는’ 파이프라인

으로 바꿔주는 역할을 맡게 됩니다.


4. “지식은 인간이 만든다”: AI 시대, 위키백과의 존재 이유

이번 발표에서 가장 인상적인 대목은 기술 이야기가 아니라 “철학”이었습니다.

위키미디어 재단 CPO/CTO인 셀레나 데켈먼은 이렇게 말합니다.

“위키백과는 인간이 만든 지식이며, 지식에는 인간이 필요하다. AI 시대일수록 인간이 만든 위키백과 지식이 더 중요하다.”23

실제로 위키백과는

  • 300개 이상의 언어로

  • 약 6,500만 개의 문서를

  • 한 달에 거의 150억 회 이상 조회되는
    세계 10대 웹사이트 중 유일한 비영리 사이트입니다2365.

그리고 이 거대한 지식 창고를 유지하는 사람들은 전 세계 약 25만 명의 자원봉사 편집자들입니다65.
돈을 받고 글을 쓰는 것도 아니고, 광고를 붙여서 수익을 내는 것도 아닙니다.

AI가 점점 더 그럴듯한 답을 내놓고, 검색결과에 ‘한 줄 요약’만 떠도
그 요약의 상당 부분은 여전히 어디선가 누군가가 무료로, 기부로, 자원봉사로 쌓은 지식을 기반으로 합니다.

이번 25주년을 맞아 재단이 함께 공개한 프로젝트들도 이런 메시지를 강조합니다2.

  • 전 세계 위키백과 자원봉사자를 다룬 비디오 다큐 시리즈

  • 위키백과의 과거·현재·미래를 한눈에 보는 “Wikipedia 25년 타임 캡슐”

  • 창립자 지미 웨일스가 직접 일부 내레이션 참여

  • 1월 15일 16:00(UTC)에 유튜브, 틱톡, 인스타그램에서 진행되는 라이브 스트리밍 생일 파티(게스트, 게임, 엔터테인먼트 포함)

또한 재단은 최근

  • 자체 AI 도입 방향

  • 기술 인프라 업그레이드

  • 게임·숏폼 비디오 같은 새로운 실험들

도 함께 진행하고 있다고 밝혔습니다2.
AI를 막연히 거부하기보다, “어떻게 잘 쓰고, 어떻게 공정하게 공존할 것인가”에 초점을 맞추고 있는 셈입니다7.


5. 우리에게 어떤 변화가 올까? 검색·AI 사용자 관점에서 본 영향

이제 중요한 질문입니다.

“이거 다 좋은데, 나 같은 일반 이용자한테는 뭐가 달라지지?”

1) AI 챗봇 답변의 ‘출처와 품질’이 더 좋아질 가능성

AI 챗봇들이 Wikimedia Enterprise를 통해 위키백과를 쓴다는 건,

  • 더 최신의 데이터를

  • 더 구조화된 형태로

  • 더 안정적으로 공급받는다는 뜻입니다.

따라서 우리가 챗봇·음성비서에게 질문했을 때,

  • 더 사실에 가까운 답변

  • 출처를 명확히 붙인 답변

  • 언어별/주제별 커버리지가 넓은 답변

을 받을 가능성이 커집니다2365.

기업 입장에서도, “정식 계약을 맺고 쓰는 데이터”인 만큼
출처 표기·라이선스 준수·투명성 같은 책임을 더 신경 쓸 수밖에 없습니다.

2) 위키백과가 당장 유료로 바뀌거나 하지는 않는다

많은 분들이 걱정하는 부분이기도 한데,
이번 파트너십은 일반 이용자의 무료 접근과는 별개입니다.

  • 사용자: 여전히 무료로 문서를 읽고, 편집하고, 인용할 수 있습니다.

  • 기업: 대규모 학습·검색·서비스용으로 쓰려면 엔터프라이즈 API에 비용을 지불하는 구조입니다34.

오히려 이런 기업용 유료 모델이 안정적으로 자리 잡으면,
개인 사용자에게 추가 부담을 요구할 필요가 줄어드는 효과도 기대해볼 수 있습니다.

3) AI가 위키백과를 대체하는 게 아니라, ‘앞단’에 서게 된다

앞으로는 검색창보다 AI 챗봇에 먼저 묻는 경우가 많아질 겁니다.
그렇다면 위키백과는 “보이지 않는 뒤편의 지식 엔진” 역할을 더 많이 하게 됩니다.

당장 눈에 보이는 건 AI 챗봇이지만,

  • 그 챗봇 뒤에는

  • 위키백과, 각종 오픈데이터, 학술 논문, 뉴스 아카이브 등
    수많은 데이터베이스가 연결돼 있습니다.

이번 위키미디어–AI 기업 파트너십은
“그 중에서도 위키백과가 어떤 위치와 대우를 받을 것인가”를 둘러싼 첫 번째 큰 합의라고 볼 수 있습니다.


시사점: ‘AI 시대의 공짜 지식’을 어떻게 지킬 것인가

정리해 보면, 이번 위키미디어 재단과 아마존·메타·마이크로소프트·퍼플렉서티 등의 AI 파트너십은 단순한 비즈니스가 아닙니다.

  1. 위키백과가 더 이상 “무한정 공짜로 긁어 써도 되는 자원”이 아니며

  2. AI·빅테크 기업들도 그 가치를 인정하고 비용을 내기 시작했고

  3. 그 수익은 다시 위키백과의 인프라와 커뮤니티를 유지하는 데 쓰이게 된다는 점에서

AI 시대의 지식 공공재를 지키기 위한 새로운 실험입니다.

개인 사용자 입장에서 할 수 있는 일도 분명합니다.

  • 중요한 정보를 확인할 땐, 여전히 원문 위키백과나 1차 출처를 직접 확인하기

  • 위키백과를 자주 쓴다면, 작은 금액이라도 정기 기부를 고려하기

  • AI의 답변을 그대로 믿기보다, “이 지식이 어디서 왔는지” 한 번 더 살펴보기

AI가 아무리 똑똑해져도,
그 뒤에서 지식을 쌓는 건 여전히 사람입니다.

위키백과가 앞으로 25년을 더 버티고, 또 그 이후까지 살아남을 수 있을지의 열쇠는
생각보다 우리 각자의 ‘검색 습관’과 ‘기부 한 번’에 달려 있을지도 모릅니다.


참고

1Wikipedia owner signs on Microsoft, Meta in AI content training deals – The Economic Times

2Wikimedia Foundation announces new AI partnerships with Amazon, Meta, Microsoft, Perplexity, and others

3Announcing New Wikimedia Enterprise Partners for Wikipedia’s 25th Birthday

4Wikipedia signs AI training deals with Microsoft, Meta, and Amazon – Ars Technica

6Wikipedia ties up with Microsoft, Meta, Amazon to monetise AI training – Business Standard

7Artificial intelligence in Wikimedia projects – Wikipedia

#AI뉴스#인공지능

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.