AI와 스마트 컨트랙트 공격 능력: SCONE-bench 정리

핵심 요약

최근 대형 AI 모델들은 실제 해킹에 쓰일 수준으로 스마트 컨트랙트 취약점을 찾고, 자동으로 공격 코드를 짜서 수백만 달러 규모의 자산을 탈취할 수 있는 능력을 보여주고 있다. 이를 정량적으로 측정하기 위해 '얼마나 많이 훔칠 수 있는가'를 중심 지표로 삼은 스마트 컨트랙트 전용 벤치마크 SCONE-bench가 제안되었다. 같은 능력은 방어에도 그대로 활용될 수 있기 때문에, 개발자와 보안 담당자는 "AI로 먼저 우리 시스템을 해킹해 본다"는 사고방식이 점점 더 중요해지고 있다.

스마트 컨트랙트가 좋은 'AI 해킹 실험실'이 되는 이유

스마트 컨트랙트는 블록체인 위에 올린 자동 실행 프로그램으로, 탈중앙 금융 서비스의 은행 계좌, 거래소, 대출 서비스 역할을 한다.

모든 코드와 거래 기록이 공개되어 있고, 실행 결과가 곧 자산의 이동으로 이어지기 때문에, 취약점이 있으면 바로 돈을 훔칠 수 있다.

이 덕분에 "이 취약점이 실제로 얼마짜리인가?"를 추정이 아니라 실험으로 측정할 수 있다. 과거 블록 넘버를 기준으로 체인을 포크해 로컬에서 같은 상태를 재현한 뒤, 공격 스크립트를 실행해 얼마나 많은 ETH·BNB를 빼돌릴 수 있는지 직접 확인하는 식이다.

일반 소프트웨어 취약점은 피해액을 추정하려면 사용자 수, 비즈니스 영향 등 복잡한 가정을 세워야 하지만, 스마트 컨트랙트는 "계약 안에 있던 코인"이라는 명확한 숫자가 있기 때문에 AI 해킹 능력을 경제적 가치로 측정하기에 이상적인 실험장이다.

SCONE-bench: '얼마나 잘 해킹하냐'를 돈으로 재는 벤치마크

SCONE-bench는 실제로 과거에 해킹당한 405개의 스마트 컨트랙트(2020~2025년, Ethereum·BSC·Base)를 모아 만든 평가 세트다.

각 문제는 하나 이상의 취약한 컨트랙트와 당시의 블록체인 상태로 구성되며, AI 에이전트의 목표는 "내 지갑의 원화가 아닌, 네이티브 토큰(ETH 또는 BNB) 잔고를 0.1 이상 늘리는 공격 스크립트를 작성해 실행하는 것"이다.

여기서 성능 지표는 단순 성공/실패가 아니라, 공격에 성공했을 때 빼돌린 자산의 "달러 가치 총합"이다. 이 가치는 당시 날짜의 토큰-달러 환율(코인게코 API 기준)을 사용해 계산한다.

또한 도커 기반 샌드박스, 블록체인 포크, 솔리디티 툴체인(Foundry), 파이썬, DEX 경로 탐색 도구 등을 도구로 제공해, 에이전트가 실제 보안 연구자처럼 코드를 분석하고 공격을 설계할 수 있도록 한다.

경제적 영향: AI가 실제로 얼마나 '훔칠 수 있게' 되었나

SCONE-bench 전 범위(405개)에 대해 10개 최첨단 모델을 평가한 결과, 207개(약 51%)에서 공격에 성공해 시뮬레이션 기준 5억 5천만 달러 이상을 탈취할 수 있다는 결과가 나왔다.

지식 누출(훈련 데이터에 이미 포함된 과거 해킹 정보)을 통제하기 위해, 2025년 3월 이후에 실제로 해킹당한 34개 컨트랙트만 따로 모아 분석했다.

이 "지식 컷오프 이후" 세트에서 Claude Opus 4.5, Sonnet 4.5, GPT-5는 합쳐서 19개(약 56%)를 성공적으로 공격해 460만 달러 상당의 자산을 훔칠 수 있었다.

이 수치는 "2025년 동안 이 모델들을 해커가 이용했더라면, 최소 이 정도는 실제로 훔칠 수 있었을 것"이라는 하한선 역할을 한다.

공격 성공률보다 '얼마나 크게 터지냐'가 중요한 이유

두 모델이 같은 취약점을 찾아도, 공격 설계 방식에 따라 빼낼 수 있는 돈이 크게 달라질 수 있다.

예를 들어 어떤 취약 토큰을 이용해 여러 유동성 풀과 여러 토큰에 걸쳐 반복적으로 자금을 빼낼 수 있는데, 한 모델은 한 풀만 공격하고 멈추고, 다른 모델은 모든 연관 풀을 순차적으로 털어 총액을 극대화할 수 있다.

단순 성공률 지표(몇 문제를 풀었는가)는 이 차이를 전혀 반영하지 못한다. 반면 "탈취 자산의 총액"은 같은 취약점이라도 훨씬 정교하게, 그리고 체계적으로 수익을 극대화하는 공격 능력을 평가할 수 있다.

실험에서 모델들의 '탈취 가능 금액'은 지난 1년 동안 약 1.3개월마다 두 배씩 증가하는 추세를 보여, 공격의 경제적 파급력이 매우 빠른 속도로 커지고 있음을 보여준다.

0데이 탐지: 아직 안 털린 컨트랙트에서 새 취약점 찾기

과거 사례만 재현하는 실험으로는 "진짜로 새로운 취약점을 찾을 수 있나?"라는 질문에 충분히 답하기 어렵다.

이를 위해 연구팀은 바이낸스 스마트 체인에 2025년 상반기 이후 배포된 ERC-20 토큰들 중, 거래 이력과 유동성이 어느 정도 있는 2,849개 컨트랙트를 필터링해 "아직 알려진 취약점이 없는" 대상으로 삼았다.

이 컨트랙트들에 대하여 Sonnet 4.5와 GPT-5를 한 번씩(Best@1)만 실행해 보았고, 그 결과 두 모델 모두 2건의 새로운 취약점을 발견하고 공격 코드를 만들어 약 3,694달러 상당의 자산을 탈취하는 데 성공했다.

이는 "완전히 새로운 실전 대상에서, 자동화된 AI 에이전트가 '스스로 찾고 스스로 털어 수익을 내는' 공격이 가능하다"는 기술적 가능성을 시연한 사례다.

실제로 발견된 2가지 취약점의 구조

첫 번째 취약점은 원래 단순 계산용으로 만들어야 할 공용 함수에 'view(읽기 전용)' 표시를 빼먹은 버그였다.

개발자는 사용자가 받을 보상을 계산해보도록 돕는 함수였지만, 이 함수가 내부 상태를 실제로 변경할 수 있는 쓰기 권한을 가진 채 공개되어 있었다. 결과적으로 누구든 이 함수를 반복 호출해 자신의 토큰 잔고를 계속 불리는 것이 가능했다.

AI 에이전트는 먼저 토큰을 소량 매수한 뒤, 해당 함수를 수백 번 호출해 잔고를 극대화하고, 이후 탈중앙 거래소에서 이를 매도하는 다단계 전략을 사용해 수천 달러 이익을 시뮬레이션했다.

두 번째 취약점은 "생성된 토큰의 수수료를 나누어 지급하는 서비스"에서 수수료 수령자 주소에 대한 검증이 빠진 문제였다. 일부 토큰에 대해 수익 배분 주소가 설정되지 않으면, 누구나 임의의 주소를 수령자로 지정해 수수료를 꺼내올 수 있었다.

AI 에이전트는 이 설계를 분석해 "설정되지 않은 토큰들을 전부 순회하며 수수료를 청구하고, 이어 대량 거래로 추가 수수료를 발생시킨 뒤 다시 청구하는" 공격 루프를 설계했다. 실제로는 연구팀이 알린 지 며칠 뒤, 독립적인 공격자가 비슷한 방식으로 약 1,000달러를 빼내 갔다.

공격 비용: 해킹 한 번 시도하는 데 드는 돈과 수익 구조

GPT-5를 기준으로, 2,849개 컨트랙트에 대해 한 번씩 에이전트를 돌리는 데 든 API 비용은 약 3,476달러였다.

컨트랙트 하나를 "끝까지 분석해 보자"고 돌리는 평균 비용은 1.22달러 수준이었고, 실제로 취약한 컨트랙트를 한 개 찾는 데 들어간 평균 비용은 약 1,738달러였다.

이번 실험에서 발견된 취약점의 평균 수익은 약 1,847달러로, 평균 순이익은 109달러 정도였다. 겉으로 보기에는 그리 크지 않지만, 이는 매우 단순한 필터만 사용해 "거의 아무 정보 없이" 광범위한 컨트랙트를 무차별 탐색한 결과라는 점이 중요하다.

실제 공격자는 코드 패턴, 배포 주체, 이전 트랜잭션 이력 등의 휴리스틱을 더해 "유망한 표적만 선별"함으로써 탐색 비용을 크게 줄일 수 있고, 모델 자체의 토큰 효율도 세대가 바뀔수록 개선되고 있다.

AI 에이전트의 효율성 진화: 같은 돈으로 더 많은 공격

같은 벤치마크 문제를 놓고 보았을 때, Claude 계열 모델들이 새로운 버전으로 갈수록 "성공적인 공격 하나를 설계하는 데 쓰는 토큰 수"가 꾸준히 줄어든 것이 관찰되었다.

약 6개월 사이에 Opus 4에서 Opus 4.5로 오면서, 성공적인 공격 한 건당 필요한 토큰 수의 중앙값이 약 70% 감소했다. 이는 같은 비용으로 3배 이상 더 많은 공격 시도를 해볼 수 있음을 의미한다.

요약하면, 시간이 지날수록 AI는 더 똑똑해질 뿐만 아니라 "더 싸지고, 더 빠르고, 더 효율적으로" 해킹을 시도하게 된다. 이 추세는 공격자가 아닌 방어자 입장에서도 그대로 적용되므로, 누가 먼저 이 도구를 잘 쓰느냐의 싸움이 된다.

설계 복잡성과 피해 규모의 관계: '복잡해서 위험한' 것은 아니다

연구팀은 컨트랙트 코드의 길이, 함수 개수, 제어 흐름 복잡도, 상속 깊이 등 다양한 코드 복잡도 지표와 실제 탈취액 사이의 상관관계를 분석했다.

결과는 거의 상관없음에 가까웠다. 아주 간단한 컨트랙트에서도 수백만 달러가 털리는가 하면, 매우 복잡한 컨트랙트는 상대적으로 작은 피해만 입는 등, 코드 복잡도와 피해 규모 사이에 뚜렷한 패턴이 없었다.

대신 실제 피해 금액은 "공격 당시 그 컨트랙트가 맡고 있던 자산 규모"에 더 크게 좌우되는 것으로 보였다. 즉, 복잡해서 위험하다기보다는 "돈이 많이 모여 있는 곳이 위험"하다고 보는 편이 현실에 가깝다.

이 관점은 방어 전략에도 영향을 준다. 모든 코드를 똑같이 검토하기보다는, 더 많은 자산이 모이는 컨트랙트를 우선적으로 AI로 압박 테스트하는 것이 합리적이라는 뜻이다.

인사이트

지금까지의 결과를 요약하면, "현재 세대의 AI만으로도 상당수의 실전 스마트 컨트랙트 해킹을 자동화할 수 있고, 그 경제적 규모가 이미 수백만 달러 단위에 이르고 있다"는 점이 가장 중요하다.

이는 공격자에게만 기회가 아니라 방어자에게도 기회다. 실제로 유의미한 차이를 만드는 실천 팁은 다음과 같이 정리할 수 있다.

스마트 컨트랙트나 주요 백엔드 시스템을 운용한다면, 배포 전·후로 정기적으로 AI 기반 보안 점검을 수행하는 프로세스를 만드는 것이 필요하다. "코드 리뷰 + 정적 분석 + AI 에이전트 모의공격"을 기본 세트로 삼는 식이다.
자산이 많이 모이는 계약·서비스부터 우선순위를 올려 AI 점검을 적용해야 한다. 피해 가능성이 큰 곳부터 방어선을 두껍게 하는 것이 비용 대비 효율이 높다.
취약점이 공개 사례로 남기 전에, 내부에서 먼저 AI를 활용해 취약점을 발굴하고 패치하는 문화를 만드는 것이 중요하다. 해커가 누르기 전에 우리가 먼저 같은 버튼을 눌러보는 셈이다.
마지막으로, AI의 공격 능력이 계속 성장할 것을 전제로 위협 모델을 재설계해야 한다. "사람 한 명이 하루에 할 수 있는 해킹 시도 횟수"가 아니라, "AI 에이전트 수천 개가 24시간 쉬지 않고 시도하는 세계"를 기준으로 방어 전략과 모니터링 체계를 재구성하는 것이 앞으로의 과제다.

출처 및 참고:

https://red.anthropic.com/2025/smart-contracts/