GPTBot - 오픈 AI의 웹 크롤러 허용/비허용하기
OpenAI의 웹크롤러 이름은 GPTBot이라고 합니다. 이 GPTBot은 다음과 같이 표시됩니다.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot은 웹을 크롤링해서 추후 모델을 학습하는데 사용할 자료를 모으는 역할을 합니다.
GPTBot 비허용하기
사이트의 robots.txt 에 다음과 같이 블록을 추가하면 됩니다.
User-agent: GPTBot
Disallow: /
GPTBot 일부만 허용하기
일부만 허용하려면 다음과 같은 방식으로 허용과 비허용을 구분해주면 됩니다.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
출처 : OpenAI Platform
생각
자신의 데이터를 인공지능 학습에 사용할지 말지 선택할 수 있는 opt-out / out-in 기능이 굉장히 중요하다고 생각했는데 OpenAI에서 이런 식으로 먼저 조치를 취하는 군요. 무작정 모든 데이터는 인공지능에 학습할 수 있다고 규정하는 것보다는 사용자가 선택권을 가질 수 있도록 하는 것이 좋을 것 같습니다. 만약 학습에 사용하더라도 원 데이터 제공자에게 이익이 갈 수 있도록 설계하는 것도 정말 중요할 것 같습니다. 그러면 당연히 정보를 제공하고자 하는 사람들이 많이 늘어나겠죠. 앞으로 인공지능과 관련해서 법적인 제약이 늘어날 것으로 보이는데 어떻게 보면 OpenAI가 미리 조치한 것으로 볼 수 있습니다.
공유하기
조회수 : 890