AI가 웹 크롤링을 둘러싼 전쟁을 일으켰다

2024-09-02

Title: AI Has Created a Battle over Web Crawling
주요 내용:
- 생성형 AI 발전에 대한 기대는 방대한 데이터 세트에 의존
- 이러한 데이터 세트는 공개 데이터로 구성, 주요 AI 기업 소유 아님
- 데이터 프로비넌스 이니셔티브 보고서에 따르면, 많은 조직이 데이터 보호 조치 강화
- 웹사이트가 웹 크롤러 차단 기술 사용 증가, 특히 광고와 페이월 사용하는 사이트
- robots.txt 파일을 사용하여 크롤러 접근 제어, 그러나 법적 강제력 부족
- 주요 AI 기업은 robots.txt 파일을 존중한다고 주장하지만, 위반 사례도 있어 불투명
- 2019년 이후 특정 데이터 세트의 데이터가 상당량 철회됨
- 고품질 데이터에 대한 접근 감소는 AI 모델 성능에 영향 미칠 가능성
- AI 기업은 데이터의 지속적 신선도 유지 필요, 옛 데이터 세트 사용 한계
- 승인이 강제되지 않아 데이터 크리에이터와 비영리 개발자에게 위기
- 데이터 접근 제한 증가 예상, 더 많은 웹사이트들이 robots.txt 활용 전망
- AI 기업들은 데이터 소스의 독점적 접근을 목표로 할 가능성
- 합성 데이터의 사용 증가, 그러나 품질 관리 필요
- 향후 표준화 필요, 웹사이트의 데이터 크롤링 선호도를보다 세분화하여 표현할 수 있는 새로운 표준 개발 기대
결론: 데이터 접근 제한이 증가하는 가운데, AI 발전을 위해서는 새로운 데이터 접근 방식 및 표준화가 필요.

4spectrum.ieee.org링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기