Gemini 모델 추출 공격 10만 번 프롬프트의 의미와 방어법

최근 구글이 “Gemini를 복제하려는 시도”를 공개했습니다. 한 공격 세션에서만 10만 번이 넘는 프롬프트가 입력됐다고 하죠¹. 이 사건이 중요한 이유는, 이제 AI는 “털리는 데이터”만이 아니라 “털리는 능력(모델 자체)”이 된다는 신호탄이기 때문입니다.

Gemini 모델 추출 공격이란? “대화로 레시피를 훔치는” 방식

이번 이슈의 핵심 키워드는 ‘모델 추출(Model Extraction)’과 ‘증류(Distillation)’입니다. 서버를 해킹해 소스코드를 빼가는 게 아니라, 합법적인 접근(웹/ API)을 이용해 질문을 대량으로 던지고 답변을 수집해요. 그 다음 “질문-답변 세트”로 더 작은 모델을 학습시켜, 원본의 말투·판단 패턴을 닮은 저가형 복제품을 만드는 방식입니다¹.

비유하자면, 유명 셰프의 주방에 잠입하는 대신 매일 레스토랑에 가서 메뉴 전부를 주문하고 맛을 기록해 레시피를 재현하는 느낌이죠. 특히 구글은 공격자들이 Gemini의 ‘추론(Reasoning)’ 패턴을 노리는 질문들을 많이 던졌다고 설명합니다². 즉, 정답만이 아니라 “어떻게 판단하는지”를 베끼려 했다는 얘기입니다.

10만 프롬프트가 보여준 것: 다국어 ‘추론 복제’가 목표였다

10만 번이라는 숫자는 단순 과시가 아닙니다. 질문을 많이 모을수록 복제품의 품질이 올라가기 때문입니다. 구글은 한 캠페인이 비영어권 언어들로 광범위한 작업을 던지며, 여러 언어에서의 추론 능력을 복제하려는 정황을 포착했다고 밝혔습니다³. 언어가 바뀌면 표현만 달라지는 게 아니라, 오류 패턴·문맥 해석 습관까지 달라질 수 있어서 “언어별 샘플 수집”은 복제 효율을 높이는 지름길입니다.

또 하나의 포인트는 공격 주체가 꼭 ‘해커’만은 아니라는 점입니다. 구글은 주로 “상업적 동기를 가진” 회사나 연구자들이 경쟁 우위를 노렸을 가능성을 시사했습니다². 즉, 앞으로는 보안팀이 막아야 할 상대가 랜섬웨어 조직만이 아니라 ‘경쟁자형 공격자’까지 포함될 수 있습니다.

Gemini 악용은 복제만이 아니다: 공격 전 과정에 AI가 끼어든다

같은 시기 구글 위협 인텔리전스 보고서 흐름을 보면, Gemini는 복제 표적이면서 동시에 공격 도구로도 악용되고 있습니다. 국가 지원 공격 그룹이 정찰(OSINT), 타깃 프로파일링, 피싱 문구 생성, 번역, 코딩/디버깅, 취약점 테스트 아이디어 등에 Gemini를 활용한 정황이 공유됐습니다⁴.

더 섬뜩한 장면은 “악성코드에 LLM API를 꽂아 넣는” 방식입니다. 예컨대 HONESTCUE는 Gemini API를 호출해 2단계 악성 기능용 C# 코드를 생성받고, 메모리에서 컴파일·실행하는 형태로 관찰됐습니다⁵. 겉보기엔 무해해 보이는 프롬프트 조각들이 모여 실제 공격 기능을 만들 수 있다는 뜻이라, 안전장치가 ‘답변 내용’만 심사하는 수준이면 빠져나갈 구멍이 생깁니다.

시사점: AI 제품/기업이 당장 점검할 3가지

첫째, “API 호출 패턴”을 보안 로그의 핵심 지표로 올려야 합니다. 모델 추출은 침투 흔적이 아니라 ‘정상 사용처럼 보이는 과다 사용’으로 시작하니까요. 속도 제한만으로는 부족하고, 작업 다양성·언어 분포·세션 반복성 같은 행동 신호로 탐지해야 합니다.

둘째, 커스텀 LLM(사내 챗봇)은 더 위험할 수 있습니다. 만약 모델이 “우리 회사만의 비밀 문서/업무 노하우”로 학습돼 있다면, 공격자는 그 지식을 증류해 가져갈 유인이 커집니다². 사내 LLM은 데이터 유출 방지(DLP)뿐 아니라 ‘능력 유출’ 관점의 방어도 필요합니다.

셋째, 안전장치는 ‘거부’가 아니라 ‘손실 최소화’까지 설계해야 합니다. 구글이 계정/인프라 차단과 방어 로직 강화를 언급했듯⁴, 현실적인 목표는 “완벽 차단”이 아니라 “비용을 높이고 품질을 떨어뜨리기”입니다. 공격자가 10만 번을 던져도 쓸모 있는 학습셋이 안 모이게 만드는 방향이죠.

AI 시대의 보안은 이제 질문 하나에도 생깁니다. 우리 서비스의 모델이든, 우리가 쓰는 모델이든, “대화가 곧 공격 표면”이라는 관점으로 점검을 시작해야 할 때입니다.

참고

¹Attackers prompted Gemini over 100,000 times while trying to clone it, Google says

²Google says attackers used 100,000+ prompts to try to clone AI chatbot Gemini

³Google fears massive attempt to clone Gemini AI through model extraction

⁴Google says hackers are abusing Gemini AI for all attacks stages

⁵Google Reports State-Backed Hackers Using Gemini AI for Recon and Attack Support