최근 AI 프롬프트 인젝션 취약점 사례와 교훈

2025년 8월, 독립 연구자 Johann Rehberger는 유명 AI 플랫폼의 프롬프트 인젝션 취약점을 매일 공개하는 'The Month of AI Bugs' 프로젝트를 진행했습니다. 이 프로젝트는 ChatGPT, Codex, Anthropic MCPs, Cursor, Amp, Devin, OpenHands, Claude Code, GitHub Copilot, Google Jules 등 다양한 도구에서 취약점을 발견해 보안 문제의 심각성을 부각시켰습니다.

프롬프트 인젝션 취약점의 확산

프롬프트 인젝션 문제는 3년 넘게 논의되어왔으나 여전히 주요 LLM 시스템에서 광범위하게 존재하며, 실제 공격으로 주요 정보가 유출될 수 있습니다.

데이터 탈취의 주요 경로

실제로 데이터 탈취 공격 사례가 다수 확인되었습니다. 프라이빗 데이터를 노출한 모델들은 마크다운 이미지, 웹 요청, DNS 쿼리 등을 활용해 외부로 비밀 정보를 쉽게 유출할 수 있었고, 접근제어가 허술한 경우(*.azure.net 등 도메인 전체 허용)는 공격자가 탈취 지점을 손쉽게 만들 수 있었습니다.

프롬프트 인젝션의 위험 – 명령 실행과 권한 상승

일부 제품에서는 프롬프트 인젝션을 통해 설정 파일(VSCode 등)을 수정하거나 임의 명령을 추가, 원격으로 코드를 실행하는 등의 심각한 취약점도 발견되었습니다. 이로 인해 사용자의 승인 없이 시스템에서 공격자의 명령을 수행하는 문제가 발생했습니다.

AI Kill Chain 패턴의 등장

Johann은 "AI Kill Chain"이라는 공격 흐름을 제시했습니다. 프롬프트 인젝션 → 혼란된 에이전트 → 자동화 툴 실행의 연속적인 단계를 통해, 자동 승인이나 설정 조작 시 연쇄적으로 공격이 이뤄질 수 있음을 설명했습니다.

벤더 대응과 공개

취약점은 벤더(제조사)에 책임감 있게 공개되었으나, 90~120일 이내에 수정하지 않는 경우가 많았고 일부는 애초에 설계 구조 자체가 불안정하다는 평을 받았습니다.

프롬프트 인젝션 방어의 현실

신뢰되지 않은 입력을 LLM 시스템에서 완전히 차단하는 것은 현실적으로 매우 어렵습니다. 근본적 해결책 없이 서비스가 출시되고 있는 만큼, 취약점 대응 설계와 보안 체계 구축이 필수적입니다.

대표 취약점 사례 정리

ChatGPT: 도메인 허용 정책 허점으로 데이터 탈취 가능
Codex: 허술한 Allowlist로 악성 공격 경로 생성
Anthropic MCP: 디렉터리 경로 검증 취약
Cursor IDE: Mermaid 마크다운 통한 은밀한 데이터 유출
Amp/Devin/OpenHands: 각종 명령 실행 및 비밀정보 유출
Claude/GitHub Copilot: 설정 파일 조작으로 공격 심화
Google Jules: 마크다운·도구 기능 결합으로 복합 취약점 노출

이 사례들은 실제 공격 벡터와 AI 에이전트 구조의 약점을 명확히 보여주고 있습니다.

참고: The Summer of Johann: prompt injections as far as the eye can see