AI 에이전트 vs 인간 해커: 실전 침투 테스트에서 누가 더 강할까?

대학 네트워크 8,000대 서버가 깔린 실제 기업 수준 환경에서, 10년차급 인간 침투 테스트 전문가 10명과 여러 AI 에이전트가 정면 승부를 벌였습니다.

결과는 꽤 충격적입니다. 새로 제안된 AI 에이전트 프레임워크 ARTEMIS가 전체 2등을 차지했고, 인간 전문가 10명 중 9명을 제쳤습니다¹²³.

하지만 “AI가 이제 보안 전문가를 대체한다”는 식의 과장된 결론은 아직 이릅니다. 장점과 한계가 너무 뚜렷하기 때문입니다.

이 글에서는 다음 질문에 답해봅니다.

AI 에이전트는 실제 침투 테스트에서 어느 수준까지 왔는가?
인간 보안 전문가와 비교했을 때 강점과 약점은 무엇인가?
기업은 앞으로 침투 테스트를 어떻게 설계해야 할까? AI vs 인간, 아니면 둘 다?

실험 세팅부터 다르다: “진짜” 네트워크에서 붙어봤다

이번 연구가 특별한 이유는 단순히 “AI가 잘했다”가 아닙니다. 테스트 환경 자체가 그동안의 벤치마크와 완전히 달랐습니다.

연구팀은 실제 대형 대학 네트워크를 실험장으로 사용했습니다. 대략 8,000개의 호스트와 12개 서브넷으로 구성된, 말 그대로 “살아있는” 엔터프라이즈급 환경입니다¹. 여기에 다음 참가자들이 투입됐습니다.

실무 경험 풍부한 침투 테스트 전문가 10명
기존에 공개된 AI 에이전트 6개 (Codex, CyAgent 등)
새로 설계한 AI 멀티에이전트 프레임워크 ARTEMIS

중요한 포인트는, 이게 CTF(해킹 대회)나 일부 서비스만 떼어낸 실험이 아니라는 점입니다.

실제 네트워크에는 이런 것들이 섞여 있습니다.

오래된 레거시 시스템
관리자는 잊었지만 살아 있는 테스트 서버
각종 잘못된 설정, 크고 작은 취약점
의도하지 않았지만 역사적으로 쌓인 “보안 부채”

즉, 정답이 정해져 있는 퍼즐이 아니라 “현실 그 자체”에서 AI와 인간을 동시에 평가한 첫 번째 종합 실험이라고 볼 수 있습니다²⁴.

ARTEMIS, 인간 10명 중 9명을 이겼다: 성능 결과 총정리

핵심 숫자부터 보겠습니다.

ARTEMIS는 다음과 같은 성적표를 받았습니다¹⁵⁴.

발견한 유효 취약점: 9개
제출한 리포트 중 실제로 유효한 비율: 82%
종합 점수: 전체 2위
인간 10명 중 9명을 능가

반면 같은 환경에서 테스트된 기존 AI 에이전트들(Codex 기반, CyAgent 등)은 대부분 중·하위권에 머물렀습니다²⁴.

연구진은 취약점을 “몇 개 찾았는지”만 본 것이 아니라, 다음 요소를 모두 반영한 점수로 순위를 매겼습니다².

기술적 난이도 (복잡한 체인인가, 단순한 설정 실수인가)
비즈니스 영향도 (데이터 유출, 권한 상승, 서비스 마비 등)
MITRE ATT&CK에 기반한 공격 기법 분류

이 기준으로 봤을 때, ARTEMIS의 리포트 품질과 기술적 숙련도는 최상위 인간 참가자(1등)와 거의 비슷한 수준으로 평가되었습니다²⁵.

정리하면:

“평균적인” 인간 침투 테스터보다 강하다
“최고 수준” 인간 한 명에게는 아직 살짝 못 미친다
기존 AI 에이전트들과는 다른 레벨을 보여줬다

ARTEMIS는 뭐가 다르길래? 멀티에이전트 구조의 힘

그렇다면 ARTEMIS는 기존 AI 에이전트와 뭐가 달랐을까요? 핵심은 “멀티에이전트 + 동적 프롬프트 + 자동 분류(트리아지)”입니다¹²⁵⁴.

연구에서 소개한 ARTEMIS의 구조를 이해하기 쉽게 풀어보면 이렇습니다.

첫째, “감독관(Supervisor)” AI가 전체 전략을 짭니다.

이 감독관은 다음을 담당합니다.

지금 네트워크에서 어떤 방향으로 탐색할지 결정
새로운 서브넷을 스캔할지, 특정 서비스에 집중할지 우선순위 설정
중간 결과를 보고, 더 파볼지 패스할지 판단

둘째, “전문 하위 에이전트”들이 병렬로 뛰어다닙니다.

감독관이 일을 쪼개서 여러 에이전트에게 나눕니다.

어떤 에이전트는 포트 스캐닝과 서비스 식별 담당
어떤 에이전트는 웹 취약점 분석 담당
또 다른 에이전트는 인증 우회나 권한 상승 시나리오 검토

이 하위 에이전트들은 동시에 여러 작업을 수행할 수 있어서, 사람이 순차적으로 작업하는 것보다 훨씬 넓고 빠르게 탐색할 수 있습니다⁵⁴.

셋째, “트리아지(Triage)” 모듈이 취약점을 자동으로 분류합니다.

AI가 찾은 결과는 그대로 리포트에 넣을 수 없고, 정리가 필요합니다. ARTEMIS의 트리아지 모듈은 다음 역할을 합니다.

이게 진짜 취약점인지, 단순한 오탐인지 1차 거르기
심각도, 영향 범위, 재현 절차 등을 구조화해 정리
비슷한 이슈들을 묶어서 리포트 품질 향상

여기까지의 흐름은 인간 팀과 비슷합니다.
“리드 해커(감독관) + 여러 전문 해커(하위 에이전트) + 보고서 담당(트리아지)”
이 구조를 AI 안에 그대로 구현했다고 보면 이해가 쉽습니다.

또 하나 중요한 요소는 “동적 프롬프트 생성”입니다²⁶.

ARTEMIS는 매 순간 상황에 맞는 프롬프트를 새로 만들어 모델에게 던집니다.

네트워크 스캔 결과를 요약해서 “다음에 어디를 파야 하는지” 질문
특정 서비스 배너와 버전을 보여주고 “공격 시나리오”를 제안받음
부분적인 로그를 보여주고 “의심 패턴”을 찾게 함

이렇게 맥락을 계속 업데이트하며 프롬프트를 바꾸기 때문에, 그냥 “AI에게 한 번 물어보고 끝”인 기존 도구보다 훨씬 길고 복잡한 작업 흐름을 유지할 수 있습니다.

인간 vs AI: 누가 더 잘하는지 영역별로 나눠보니

결론부터 말하면, “어떤 작업이냐에 따라 승자가 바뀐다”입니다.
이번 연구와 관련 기사들을 종합하면, AI와 인간의 강·약점은 꽤 뚜렷하게 갈립니다¹²⁵⁴.

1) AI가 더 잘하는 영역

체계적인 나열과 누락 없는 탐색

AI 에이전트는 기본적으로 “지치지 않는 반복 작업”에 강합니다.

모든 서브넷을 일정한 규칙대로 스캔
포트, 서비스, 버전 정보를 빠짐없이 수집
비슷한 유형의 취약점 체크리스트를 기계적으로 적용

인간이 하면 어느 순간 “대충 이 정도면 됐겠지” 하면서 스킵하는 구간에서도, AI는 끝까지 파고들 수 있습니다.

병렬 작업, 즉 “동시에 여러 타깃 공격”

ARTEMIS는 최대 8개 하위 에이전트를 동시에 돌리며 서로 다른 타깃을 병렬로 탐색했습니다⁵.

인간 한 명이 같은 속도로 여러 서버를 동시에 다루기는 사실상 불가능합니다.
팀 단위로 움직이면 가능하지만, 인건비와 커뮤니케이션 비용이 폭발적으로 늘어납니다.

레거시 환경, 특정 프로토콜에 대한 집착(?)

흥미로운 사례도 있습니다. 어떤 오래된 iDRAC 서버는 최신 브라우저에서 접속이 잘 안 돼서, 많은 인간 참가자가 그냥 포기했는데, ARTEMIS는 커맨드라인 기반 접근에 능숙해 이 시스템을 끝까지 파고들어 취약점을 성공적으로 익스플로잇했습니다⁵.

“귀찮아서 포기하는 인간”과 “귀찮음이 없는 AI”의 차이가 잘 드러나는 장면입니다.

2) 인간이 압도적으로 강한 영역

GUI(그래픽 인터페이스) 기반 작업

AI 에이전트들이 가장 크게 고전한 부분입니다. 연구에서는 이를 아주 직설적으로 언급합니다.

GUI 중심의 웹 관리 콘솔
마우스로 이리저리 눌러보면서 행간을 읽어야 하는 인터페이스
흐릿한 에러 메시지와 미묘한 상태 변화

이런 것들은 아직 텍스트·터미널 위주의 AI 에이전트에게 상당히 어렵습니다¹⁵⁴.

대표적인 사례가 TinyPilot 원격 코드 실행(RCE) 취약점입니다.
인간 참가자의 약 80%가 이 GUI 기반 취약점을 성공적으로 익스플로잇했지만, ARTEMIS는 여기서 실패하고 대신 다른, 상대적으로 덜 중요한 이슈들에 집중했습니다⁵⁴.

오탐( false positive ) 필터링과 “감”

AI 에이전트들은 전반적으로 인간보다 오탐률이 높게 나왔습니다.

애매한 HTTP 응답을 공격 성공으로 오해
인증 플로우에서 발생하는 리다이렉트나 에러를 취약점으로 착각
실제 영향도가 거의 없는 설정 이슈를 과장

인간 전문가는 경험을 바탕으로 “이건 진짜 위험하다 / 이건 그냥 노이즈다”를 상당히 빠르게 구분합니다. 반면 AI는 지나치게 성실하게 모든 가능성을 취약점처럼 다뤄버리는 경향이 있습니다⁵⁴.

비정형 문제 해결, 창의적인 체인 공격

실제 침투 테스트의 꽃은 여러 취약점을 엮어서 “체인”을 만드는 것입니다.
예를 들어,

사소해 보이는 정보 노출 → 다른 시스템 계정 추론 → 피싱/세션 탈취 → 내부망 확장

이런 시나리오 구성에서 인간의 직관과 창의력은 여전히 강력합니다.
ARTEMIS는 개별 취약점 탐지와 보고는 잘했지만, “이걸 어떻게 비즈니스 관점의 큰 리스크로 엮을 것인가”에서는 최상위 인간 해커보다 살짝 뒤처졌다는 평가입니다².

돈과 시간의 문제: 시간당 18달러 vs 60달러

기업 입장에서 가장 현실적인 질문은 이겁니다.

“그래서, 사람 대신 AI를 쓰면 싸고 좋다는 거야, 아닌 거야?”

연구팀과 여러 보안 매체 분석을 정리해보면 대략 이런 그림이 나옵니다¹⁵⁴.

평균적인 미국 침투 테스트 전문가 인건비: 약 60달러/시간 수준으로 계산
ARTEMIS A1 구성 운영 비용: 약 18달러/시간
보다 고급형 A2 구성도 59달러/시간으로 인간과 비슷하거나 약간 저렴한 수준

단순히 “시간당 비용”만 보면, A1 구성 기준으로

인간 1명을 쓰는 비용으로
AI 에이전트 3세트를 동시에 돌릴 수 있는 셈입니다.

여기에 AI의 병렬 처리 능력을 더하면, “같은 돈으로 훨씬 많은 범위를, 더 자주 테스트할 수 있다”는 결론이 나옵니다.

이게 의미하는 바는 꽤 큽니다.

지금까지는 1년에 한 번, 규제 맞추기용으로만 하던 침투 테스트를
월간·분기 단위, 혹은 상시(continuous) 수준으로 가져갈 가능성이 생긴다는 것

물론 여기에는 단서가 달립니다.

AI 리포트의 오탐을 걸러줄 인간 검증 단계 필요
GUI 중심 시스템이나 복잡한 비즈니스 로직은 여전히 인간이 맡는 편이 안전
AI가 놓친 고난도 체인 공격을 인간이 보완해야 함

따라서 현실적으로는 “인간 vs AI”가 아니라 “인간 + AI”가 비용·효율 면에서 가장 합리적인 조합이 됩니다.

앞으로의 침투 테스트 전략: 어떻게 섞어 쓰는 게 베스트인가

AI 에이전트가 실제 침투 테스트 현장에서 쓸 만한 수준으로 올라온 것은 분명합니다.
하지만 아직 “완전 자동화된 레드팀”을 꿈꿀 단계는 아닙니다.

기업 보안팀, 혹은 보안 컨설팅 회사 입장에서 현실적으로 취할 수 있는 전략을 정리해 보겠습니다.

기본 탐색·스캐닝은 AI에게 맡기기

광범위한 네트워크 스캔
서비스/포트 나열
알려진 취약점(CVE) 탐지
반복적인 설정 점검

이런 작업은 AI 에이전트가 매우 잘합니다.
“지루하지만 필수적인” 일은 AI에게 던지고, 인간은 그 결과를 요약해서 보고 받는 구조가 효율적입니다.

고위험, 고난도 체인은 인간 레드팀이 담당

GUI 기반 관리 콘솔 공략
사람의 심리를 파고드는 소셜 엔지니어링
여러 취약점을 엮어 CEO 레벨 리스크로 만든 공격 시나리오

이런 부분은 아직 인간이 압도적으로 좋습니다.
실제로도, 연구에서 1등을 한 인간 참가자는 여전히 AI를 능가하는 복잡한 공격을 성공시켰습니다².

“AI → 인간 검증” 이중 구조 리포팅

AI가 찾은 취약점 중 일부는 오탐입니다.
그래서 다음과 같은 파이프라인이 현실적입니다.

1차: ARTEMIS 같은 AI 에이전트가 가능한 많은 취약점 후보를 찾아냄
2차: 인간 전문가가 이를 검토해 오탐을 제거하고, 우선순위를 재배치
3차: 중요한 것 위주로 재현 방법, 영향도 분석, 대응 방안까지 정리

이렇게 하면 AI의 “넓게, 많이”라는 장점과, 인간의 “정밀하게, 중요도 중심으로”라는 강점을 동시에 활용할 수 있습니다.

보안팀 내부의 “AI 사용 가이드” 필수

AI 에이전트를 도입할 때는 다음 같은 원칙이 필요합니다.

AI가 네트워크에서 어떤 행동까지 해도 되는지(scope) 명확화
실시간 모니터링과 로그 수집으로 오작동 감시⁵
내부 규정과 규제(예: 개인정보, 규제 산업)와의 충돌 여부 검토

연구에서도 IRB 승인과 실시간 모니터링, 대학 IT팀과의 협력을 통해 안전하게 실험을 진행했습니다⁵.
기업 내부에서도 비슷한 수준의 통제가 필수입니다.

시사점: “AI가 해커를 이긴다”가 아니라 “도구 레벨이 달라졌다”

이번 연구와 그 후속 보도들이 보여주는 메시지는 상당히 명확합니다.

AI 에이전트는 이제 “실전 침투 테스트에서 무시할 수 없는 플레이어”가 됐다.
적절한 구조(멀티에이전트, 동적 프롬프트, 자동 트리아지)를 갖추면,
평균적인 인간 전문가를 능가할 수 있다¹²⁴.
하지만 GUI, 창의적 체인, 오탐 필터링에서는 여전히 인간이 필수다.

개인적으로는 이걸 이렇게 봅니다.

예전에는 보안팀이 “사람 + 자동 스캐너(단순 도구)” 조합으로 움직였다면,
이제는 “사람 + AI 에이전트(준전문가급 도우미)” 조합으로 진화하는 단계에 들어섰다.

앞으로 몇 년 사이에 침투 테스트 리포트에서 이런 문장을 많이 보게 될지도 모릅니다.

“초기 취약점 탐색은 ARTEMIS류 AI 에이전트로 수행했고,
이후 중요 이슈에 대해서는 인간 레드팀이 수작업 검증 및 체인 공격 분석을 진행했습니다.”

AI가 인간 해커를 완전히 대체하는 미래보다,
인간 해커가 AI 에이전트를 “팀원”처럼 활용하는 미래가 훨씬 현실적이고, 또 더 강력해 보입니다.

당장 할 수 있는 실용적인 한 가지는 이겁니다.

이미 침투 테스트를 정기적으로 하고 있다면:
팀이나 외부 업체에 “AI 에이전트 활용 여부”와 “어떻게 검증하는지”를 물어보세요.
아직 제대로 된 침투 테스트를 못 하고 있다면:
AI 기반 초기 점검 + 핵심 구간만 인간 전문가 점검이라는 하이브리드 모델을 고려해보세요.
비용 대비 보안 효과가 크게 개선될 가능성이 있습니다.

참고

¹[2512.09882] Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing (arXiv 초록 및 메타데이터)
https://arxiv.org/abs/2512.09882

²Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing (HTML 본문)
https://arxiv.org/html/2512.09882v1

³AI Agents vs Humans in Penetration Testing – Insights from the ARTEMIS Study and Risks of Over-Reliance (VerSprite 블로그 목록 페이지)
https://versprite.com/blog/ai-agents-vs-humans-in-penetration-testing-insights-from-the-artemis-study-and-risks-of-over-reliance/

⁴ARTEMIS AI Agent Outperforms 90% of Human Penetration Testers in Vulnerability Detection (Cyber Press)
https://cyberpress.org/artemis-ai-agent-outperforms-90-of-human-penetration-testers-in-vulnerability-detection/

⁵New ARTEMIS AI Agent Outperformed 9 out of 10 Human Penetration Testers in Detecting Vulnerabilities (CyberSecurityNews)
https://cybersecuritynews.com/ai-agent-outperformed-human-penetration-testers/

⁶Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing (HTML – Methodology & Agent Design 상세)
https://arxiv.org/html/2512.09882v1