검색
검색
AI news 검색
회원가입로그인

AI가 웹 크롤링을 둘러싼 전쟁을 일으켰다

  • Title: AI Has Created a Battle over Web Crawling

  • 주요 내용:

    • 생성형 AI 발전에 대한 기대는 방대한 데이터 세트에 의존
    • 이러한 데이터 세트는 공개 데이터로 구성, 주요 AI 기업 소유 아님
    • 데이터 프로비넌스 이니셔티브 보고서에 따르면, 많은 조직이 데이터 보호 조치 강화
    • 웹사이트가 웹 크롤러 차단 기술 사용 증가, 특히 광고와 페이월 사용하는 사이트
    • robots.txt 파일을 사용하여 크롤러 접근 제어, 그러나 법적 강제력 부족
    • 주요 AI 기업은 robots.txt 파일을 존중한다고 주장하지만, 위반 사례도 있어 불투명
    • 2019년 이후 특정 데이터 세트의 데이터가 상당량 철회됨
    • 고품질 데이터에 대한 접근 감소는 AI 모델 성능에 영향 미칠 가능성
    • AI 기업은 데이터의 지속적 신선도 유지 필요, 옛 데이터 세트 사용 한계
    • 승인이 강제되지 않아 데이터 크리에이터와 비영리 개발자에게 위기
    • 데이터 접근 제한 증가 예상, 더 많은 웹사이트들이 robots.txt 활용 전망
    • AI 기업들은 데이터 소스의 독점적 접근을 목표로 할 가능성
    • 합성 데이터의 사용 증가, 그러나 품질 관리 필요
    • 향후 표준화 필요, 웹사이트의 데이터 크롤링 선호도를보다 세분화하여 표현할 수 있는 새로운 표준 개발 기대
  • 결론: 데이터 접근 제한이 증가하는 가운데, AI 발전을 위해서는 새로운 데이터 접근 방식 및 표준화가 필요.


4spectrum.ieee.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기