생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.
Codex·Claude로 ‘커스텀 CUDA 커널’ 대중화: 스킬로 복제하는 시대

최근 Hugging Face가 Codex와 Claude 같은 코딩 에이전트가 만들었던 “커스텀 CUDA 커널 작성 과정”을 스킬(skill)로 포장해 재사용하는 흐름을 소개했습니다.1 의미 있는 지점은, 이제 커널을 “한 번 잘 만드는 것”에서 끝나는 게 아니라 “누구나 따라 하게 만드는 레시피”로 유통되기 시작했다는 점입니다.
커스텀 CUDA 커널이 왜 이렇게 중요해졌을까?
딥러닝에서 성능 병목은 종종 모델이 아니라 “자잘하지만 자주 도는 연산”에서 터집니다. 이때 프레임워크 기본 연산을 그대로 쓰면 편하지만, 내 데이터 레이아웃·메모리 접근·퓨전(fusion) 요구가 맞지 않아 속도가 애매해지죠. 그래서 팀에 CUDA 고수 1명이 있으면 분위기가 달라집니다. 문제는 그 고수의 시간은 늘 부족하다는 것.
여기서 코딩 에이전트의 역할이 커집니다. 대화로 요구사항을 정리하고, 커널을 만들고, 테스트를 붙이고, 다시 성능을 재는 루프를 “사람 대신” 돌릴 수 있기 때문입니다. 특히 커널 작업은 시행착오가 필수라, 에이전트형 워크플로우와 궁합이 좋습니다.
‘스킬’로 만드는 커널 레시피: upskill 접근법
Hugging Face가 보여준 핵심 아이디어는 간단합니다. 전문가급 모델(예: Claude)을 “선생님”으로 세워 실제 커널 작업을 에이전트로 수행하게 하고, 그 과정을 실행 로그(트레이스)로 남깁니다. 그리고 그 트레이스를 기반으로 작은 오픈 모델도 비슷한 절차를 밟도록 ‘스킬’을 뽑아내는 방식이죠.2
스킬은 보통 SKILL.md 같은 형태로 패키징되어, Codex나 Cursor 같은 도구의 스킬 폴더에 넣어 재사용할 수 있다고 합니다.2 중요한 포인트는 “정답 코드”보다 “문제 쪼개기→검증→수정” 절차가 이식된다는 점입니다. 커널은 정답이 하나가 아니라, 목표(정확도/속도/메모리)와 환경(GPU/드라이버/텐서 형식)에 따라 해법이 달라지니까요.
다만 스킬이 만능은 아닙니다. 어떤 모델에선 도움이 되지만, 어떤 모델에선 토큰만 늘고 결과가 나빠질 수도 있어, 자동 테스트 생성과 비교 평가가 함께 제시된 것도 실전적입니다.2
로컬에서 Codex·Claude 굴리기: “비용 0, 코드 유출 0” 옵션
커널 작업은 대개 사내 코드베이스나 실험 브랜치, 성능 데이터에 밀접합니다. 그래서 “클라우드에 코드를 올리기 싫다”는 요구가 강하죠. 흥미롭게도 Claude Code와 Codex는 Ollama 같은 로컬 런타임을 통해, 로컬 모델을 붙여서 오프라인에 가깝게 운영하는 흐름이 커지고 있습니다.3
이 방식의 장점은 두 가지입니다. 첫째, 민감한 코드가 밖으로 나갈 걱정이 줄어듭니다. 둘째, 에이전트가 파일 편집·명령 실행·테스트까지 반복하는 동안 API 비용이 폭증하는 문제를 피할 수 있습니다. 커널 개발처럼 “여러 번 빌드하고 깨지는” 작업에 특히 잘 맞습니다.
현실적인 체크포인트도 있습니다. 문맥 창이 큰 모델이 유리하고(프로젝트 파일을 많이 읽어야 하니까), GPU VRAM이 넉넉할수록 쾌적합니다.3 즉, 커널은 GPU에서 돌리지만, 에이전트도 GPU를 원한다는 아이러니가 생깁니다.
시사점: ‘CUDA 장벽’은 코드가 아니라 “절차”에서 무너진다
최근엔 Claude Code로 CUDA 백엔드를 ROCm으로 옮겼다는 사례까지 회자되며, “CUDA 해자”가 흔들릴 수 있다는 말도 나옵니다.4 물론 복잡한 커널 최적화는 여전히 숙련이 필요하고, 데이터 레이아웃처럼 까다로운 지점에서 삐끗하기 쉽습니다.4 하지만 큰 흐름은 분명합니다. 앞으로의 경쟁력은 “천재 한 명의 손코딩”보다, 잘 작동하는 개발 루프를 스킬로 만들어 팀 전체에 복제하는 능력에 더 가까워질 겁니다.
실용적으로는 이렇게 시작하는 걸 추천합니다. 먼저 내 프로젝트에서 가장 느린 연산(프로파일링 기준) 하나만 골라, 에이전트에게 “정확성 테스트 먼저, 그다음 최적화” 순서로 시키세요. 그리고 그 과정(프롬프트, 체크리스트, 실패 패턴)을 문서로 남겨 작은 스킬로 만드세요. 커널은 한 번 성공하는 것보다, 성공을 재현하는 체계를 갖추는 순간부터 진짜 쉬워집니다.
참고
1Custom Kernels for All from Codex and Claude
2Claude-Built CUDA Kernel Skills, Now Portable to Open Models
3Run Claude Code Locally with Ollama: Zero-Cost Private AI Coding Setup (2026) | Wilson Kumalo