생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.
EVMbench 등장: AI 에이전트가 스마트컨트랙트 취약점 ‘혼자’ 뚫는 시대

최근 보안 업계에서 꽤 충격적인 소식이 나왔습니다. 새 벤치마크(EVMbench)로 테스트해 보니, AI 에이전트가 스마트컨트랙트의 주요 취약점을 사람 도움 없이도 높은 비율로 악용(익스플로잇)할 수 있다는 결과가 공개된 겁니다.1 이게 중요한 이유는, 블록체인 위 코드는 한 번 배포되면 되돌리기 어렵고, 그 위에 돈이 “진짜로” 쌓여 있기 때문입니다.
EVMbench란? 스마트컨트랙트 보안용 ‘실전 모의고사’
EVMbench는 OpenAI와 패러다임(Paradigm)이 함께 만든 오픈 벤치마크로, EVM(이더리움 가상머신) 기반 스마트컨트랙트에 대해 AI 에이전트의 실력을 “발견-수정-공격” 세 단계로 재는 평가장입니다.2
특히 눈에 띄는 지점은 교과서식 퍼즐이 아니라는 점이에요. 공개 감사(audit)에서 나온 실제 고위험 취약점들을 모으고, 각 과제를 컨테이너로 격리해 에이전트가 현실에 가까운 작업 환경에서 움직이게 했습니다. 그리고 “정답 키(answer key)”까지 제공해, 애초에 풀 수 없는 문제로 모델을 괴롭히지 않도록 설계했습니다.2
‘탐지’보다 ‘익스플로잇’이 더 잘 된다? 숫자가 말하는 변화
EVMbench는 120개의 실전 취약점을 기반으로 하고, 출처는 40건의 감사 결과(코드 감사 대회 포함)에서 큐레이션됐습니다.3 여기서 가장 화제가 된 건 익스플로잇 모드 성적입니다.
GPT-5.3-Codex가 익스플로잇 모드에서 72.2% 성공률을 기록했고3, 패러다임 쪽 설명으로는 초기에는 “치명적 자금 탈취 버그”를 20%도 못 뚫던 시기에서 이제는 70%를 넘겼다고 합니다.2 반면 탐지(detect)와 패치(patch)는 상대적으로 성능이 아쉬웠다는 보고가 같이 나왔습니다.3
이 결과가 주는 메시지는 단순합니다. “취약점 찾기”는 넓고 애매한 문제지만, “돈을 빼라”는 목표는 너무 명확해서 에이전트가 더 잘 달려든다는 거죠. 보안팀 입장에선 섬뜩하지만, 방어 관점에서는 오히려 자동화된 레드팀을 매일 돌릴 수 있는 시대가 열렸다는 뜻이기도 합니다.
왜 지금 EVMbench가 필요했을까: 1000억 달러와 ‘코드=돈’의 현실
스마트컨트랙트는 이미 오픈소스 기반 계약에만 1000억 달러 이상이 상시로 잠겨 있는 세계라고 강조됩니다.2 여기에 이더리움에 배포되는 컨트랙트 수 자체도 폭증하는 흐름이죠.3 코드가 늘면 취약점 표면적도 함께 커집니다.
Tempo(스트라이프가 추진하는 결제 특화 L1) 관련 감사 시나리오가 벤치마크에 포함된 것도 의미가 큽니다.3 앞으로 스테이블코인 결제가 커질수록 “해킹=즉시 현금화”가 가능한 계약이 늘어나는데, 그때 AI가 공격과 방어 양쪽에 다 투입될 수 있으니까요.
결국 EVMbench의 핵심 가치는 “AI가 얼마나 위험해졌나”를 자극적으로 보여주는 데서 끝나지 않습니다. 팀과 조직이 같은 잣대로 모델을 비교하고, 어떤 작업(탐지/패치/익스플로잇)에 어디까지 맡길지 의사결정할 수 있게 만드는 표준화에 가깝습니다.2
시사점: 개발자·프로젝트 팀이 당장 바꿔야 할 3가지
첫째, “감사 1회”를 이벤트로 보지 말고, 배포 전후로 반복되는 파이프라인으로 바꿔야 합니다. 익스플로잇 자동화가 빨라질수록, 방어도 같은 속도로 반복 실행되어야 의미가 있습니다. EVMbench 같은 프레임워크는 그 자동화의 기준점이 됩니다.2
둘째, AI를 코드 작성에 쓰고 있다면(이미 업계에서 흔하죠), 테스트와 검증의 비중을 예전보다 훨씬 키워야 합니다. 특히 ‘패치가 기능을 깨지 않게’ 만드는 건 아직 모델이 약한 구간이라는 점이 공개적으로 언급된 만큼3, “AI가 고쳤다”는 말은 이제 안심 문구가 아니라 추가 점검 신호에 가깝습니다.
셋째, 실무적으로는 “명확한 목표의 공격 시뮬레이션”을 정기화하세요. 에이전트는 목표가 분명할수록 강해집니다. 그렇다면 방어도 “자금 탈취 시나리오로 매일 때려보는” 쪽이 ROI가 좋습니다. 발견(탐지)만으로 끝내지 말고, 실제로 탈취가 가능한지까지 확인해야 진짜 우선순위가 정해집니다.
보안은 늘 사람 vs 사람의 게임이었지만, 이제는 에이전트 vs 에이전트의 비중이 빠르게 커지고 있습니다. EVMbench는 그 전환을 보여주는 신호탄이고, 동시에 방어자가 따라잡을 수 있게 해주는 훈련장입니다.
참고
1New benchmark shows AI agents can exploit most smart contract vulnerabilities on their own
2EVMbench: An Open Benchmark for Smart Contract Security Agents
3Can AI Agents Boost Ethereum Security? OpenAI and Paradigm Created a Testing Ground