클로드 AI 에이전트 16대가 만든 C 컴파일러, 뭐가 달라졌나

요즘 “AI가 코딩해준다”는 말은 흔해졌지만, “AI 16명이 팀을 짜서 컴파일러를 만들었다”는 얘기는 결이 다릅니다. Anthropic 연구팀은 Claude Opus 4.6을 16개 인스턴스로 동시에 돌려, 새로운 C 컴파일러를 ‘자율 협업’ 방식으로 개발하는 실험을 진행했습니다.1
결과는 꽤 충격적입니다. 약 2주 동안 약 2,000회의 코딩 세션과 2만 달러 수준의 비용으로, 10만 줄 규모의 Rust 기반 컴파일러가 완성됐고, 실제로 Linux 커널과 여러 유명 오픈소스 프로젝트를 컴파일하는 데 성공했습니다.2 이 글에서는 “어떻게 가능했는지”, “어디까지 됐는지”, “그래서 개발자에게 무슨 의미인지”를 쉽게 풀어봅니다.
다중 AI 에이전트 협업이란? ‘혼자 잘함’이 아닌 ‘팀플’의 시작
기존 AI 코딩 도구는 대체로 한 명의 개발자가 옆에서 지시하고, AI가 그때그때 함수나 파일을 만들어주는 형태였습니다. 하지만 이번 실험의 핵심은 AI를 ‘한 명’이 아니라 ‘여럿’으로 쪼개 팀처럼 굴린 점입니다.1
각 Claude 인스턴스는 독립적으로 문제를 찾고, 할 일을 정하고, 코드를 수정하고, 다른 변경사항과 충돌이 나면 직접 해결합니다. 사람으로 치면 “PM이 세세하게 지시하지 않아도, 각자가 알아서 일감을 잡고 PR 올리고 머지 충돌도 해결하는 팀”에 가깝습니다.
중앙 관리자 없는 16명 팀: Docker + Git만으로 굴러간 개발 조직
흥미로운 대목은 “총괄 지휘 AI(중앙 오케스트레이터)”가 없었다는 점입니다.2 보통 멀티 에이전트 시스템은 누가 뭘 할지 배분하는 ‘매니저’가 필요하다고 생각하기 쉬운데, 여기서는 각 인스턴스가 별도 Docker 컨테이너에서 돌아가며 같은 Git 저장소를 공유하는 방식으로 협업을 만들었습니다.2
이 구조의 맛은 현실적이라는 데 있습니다. 회사 개발팀도 결국 Git을 중심으로 움직이죠. 즉, 이번 실험은 “AI를 개발 프로세스 안에 팀원으로 넣었을 때, 어디까지 자율적으로 굴러갈 수 있나?”를 꽤 실제에 가깝게 검증한 셈입니다.
2주·2,000세션·2만 달러로 10만 줄: ‘새 C 컴파일러’의 성과
성과를 숫자로 보면 더 직관적입니다. 2주 동안 약 2,000번의 코딩 세션이 반복됐고, API 비용은 2만 달러 수준이었으며, 최종 산출물은 10만 줄 규모의 Rust 기반 C 컴파일러였습니다.2
더 중요한 건 “만들었다”가 아니라 “쓸 수 있다”에 가깝다는 점입니다. 이 컴파일러는 x86, ARM, RISC-V 같은 다양한 아키텍처에서 Linux 6.9 커널을 빌드할 수 있었고,2 PostgreSQL·SQLite·Redis·FFmpeg·QEMU 같은 굵직한 오픈소스들도 컴파일에 성공했습니다.3
테스트 성적도 상징적입니다. 컴파일러를 괴롭히기로 유명한 GCC torture test suite에서 99% 통과율을 기록했고,2 개발자들 사이에서 “컴파일러 검증의 밈”처럼 통하는 게임 ‘둠(Doom)’도 컴파일 및 실행에 성공했습니다.3
왜 하필 C 컴파일러였을까: AI 협업 실험에 ‘점수 매기기’가 쉬운 과제
“컴파일러를 만든 게 대단하다”와 별개로, 연구진이 왜 이 과제를 골랐는지도 포인트입니다. 컴파일러는 요구사항이 비교적 명확합니다. 입력(C 코드)과 출력(기계어/오브젝트)이 분명하고, 정답을 판정할 테스트 도구가 매우 풍부하죠.
즉, AI가 길을 잃더라도 테스트가 계속 방향을 잡아줄 수 있습니다. 실제로 이런 장기 프로젝트에서 AI는 문맥을 잃거나(전에 뭘 했는지 까먹거나), 새 기능 추가가 기존 기능을 깨는 일이 잦은데, 이때 촘촘한 테스트/CI가 “다음 행동”을 안내하는 안전레일이 됩니다.2
한계도 분명하다: “모든 개발이 이렇게 되진 않는다”
이번 결과를 보고 “이제 AI가 소프트웨어를 전부 만들겠네”라고 결론 내리긴 이릅니다. 실험 자체가 ‘테스트하기 좋은 문제’를 고른 것이고, 많은 현실 프로젝트는 애초에 요구사항 합의부터 난이도가 높습니다. 무엇을 만들어야 하는지부터 자주 바뀌고, 테스트 설계도 뒤늦게 따라붙는 경우가 많으니까요.
또한 컴파일러는 성공했지만, 성능·완성도 측면에서 기존 성숙한 컴파일러(GCC/Clang)와 완전히 동급이라고 보기는 어렵다는 평가도 함께 나옵니다.2 “가능성의 증명”에 더 가깝지, 곧바로 산업 표준을 대체하는 단계는 아니라는 뜻입니다.
시사점을 정리해보면 이렇습니다. 첫째, AI 코딩의 다음 단계는 ‘한 명의 똑똑한 비서’가 아니라 ‘여럿이 동시에 움직이는 팀’일 수 있습니다. 둘째, 자율 협업의 성패는 모델 성능 못지않게 테스트와 문서화 같은 개발 인프라에 달려 있습니다. 셋째, 우리에게 필요한 역량도 바뀝니다. 코드를 한 줄 더 잘 짜는 능력만큼, “검증 가능한 목표를 만들고, 테스트로 통제하는 능력”이 더 중요해질 가능성이 큽니다.
개인적으로는, 이 실험을 “AI가 개발자를 대체한다”보다 “개발 방식의 무게중심이 구현에서 검증으로 이동한다”는 신호로 읽는 쪽이 더 현실적이라고 봅니다. 앞으로는 ‘코딩을 잘하는 사람’만큼이나, ‘AI 팀이 실수하지 못하게 시스템을 짜는 사람’이 강해질 겁니다.