네펜데스는 AI 웹 크롤러를 잡기 위한 타르 웅덩이입니다.
-
제목: 네펜테스는 AI 웹 크롤러를 잡는 타르 핏이다.
-
네펜테스는 웹 크롤러를 잡기 위한 타르 핏이다.
-
LLM(대규모 언어 모델)을 위한 데이터를 스크래핑하려는 크롤러를 주요 목표로 한다.
-
무작위로 생성되는 페이지들마다 수십 개의 링크가 있으며, 모두 타르 핏으로 돌아간다.
-
의도적인 지연을 추가하여 크롤러가 서버를 느리게 만드는 것을 방지하며, 시간 낭비를 유도한다.
-
Markov-babble을 추가하여 크롤러가 스크래핑 할 훈련 대상으로 사용할 수 있다.
-
경고:
- 악성 소프트웨어로, 사용하지 않는 것이 좋다.
- LLM 크롤러는 매우 집요하기 때문에 이 소프트웨어로 막으려는 시도는 주의를 요한다.
- 모든 웹 크롤러를 구분할 방법이 없기 때문에 검색 결과에서 사라질 수 있다.
-
최신 버전: Nepenthes 1.0
-
사용 방법:
- nginx 또는 Apache 뒤에 타르 핏을 숨기는 것이 권장된다.
- HTTP 헤더를 사용하여 타르 핏을 구성한다.
-
설치 방법:
- Docker를 사용하거나 수동 설치 가능.
- Lua (5.4 권장), SQLite(쉽게 사용하려면 적합), OpenSSL 설치 필요.
-
Markov 모듈 부트스트랩:
- 훈련된 코퍼스가 필요하며, 다양한 텍스트 소스를 활용할 수 있다.
-
통계:
- JSON 형식의 통계 엔드포인트 제공.
-
네펜테스를 방어적으로 사용:
- 사이트의 유효한 URL을 가릴 수 있으며, 크롤러의 IP 주소 목록을 이용해 차단 가능.
-
네펜테스를 공격적으로 사용:
- 크롤러를 차단하지 않고 최대한 리소스를 소비하게 끔 유도.
-
구성 파일:
- 다양한 설정 항목 지원.
-
역사:
- 버전 관리 체계 설명: 완전히 호환되는 변경은 마이너 버전이 바뀌고, 호환성에 영향을 주는 변경은 메이저 버전이 바뀐다.
- v1.0: 초기 릴리스.
4zadzmo.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.