Skip to main content
Views 2

Claude로 CUDA 커널 ‘스킬’ 만들고 오픈 모델에 이식한 방법

Summary

Claude로 CUDA 커널 ‘스킬’ 만들고 오픈 모델에 이식한 방법

AI 코딩 도우미가 똑똑해지는 방식이 바뀌고 있습니다. 이제는 “좋은 프롬프트를 한 번 잘 짜서 저장”하는 수준을 넘어, 특정 업무 수행법 자체를 ‘스킬(Agent Skill)’이라는 파일 묶음으로 추출해 다른 모델로 옮겨 심을 수 있게 됐습니다. 이번 글에서는 Claude 같은 고성능 모델에게 CUDA 커널 작성 과정을 시켜서 흔적(trace)을 남기고, 그걸 스킬로 만들어 오픈소스·저가 모델에 적용해 성능을 끌어올린 흐름을 쉽고 재미있게 정리해보겠습니다.1

에이전트 스킬(Agent Skills)이 뭐길래 난리일까?

에이전트 스킬은 “어떤 일을 잘하는 방식”을 설명서처럼 패키징한 파일 규격에 가깝습니다. 단순히 정답 코드 한 덩어리를 저장하는 게 아니라, 작업을 진행하는 순서, 체크리스트, 자주 빠지는 함정, 테스트 방법 같은 ‘일하는 요령’이 함께 들어갑니다.

그래서 이 스킬은 한 모델에만 묶이지 않습니다. 비싼 모델(예: Claude Opus급)에게 “어렵고 복잡한 방법”을 먼저 정리하게 한 뒤, 그 정리본을 오픈 모델이나 로컬 모델에도 장착할 수 있습니다. 말하자면 “비싼 과외로 만든 족보를, 동생(저렴한 모델)에게 물려주는 구조”죠.1

왜 하필 CUDA 커널인가: 어렵고, 비싸고, 자주 틀리니까

CUDA는 NVIDIA GPU에서 병렬 연산을 돌리기 위한 개발 플랫폼(그리고 그 생태계)을 뜻합니다.2 CUDA 커널 작성은 AI에게 특히 난이도가 높습니다. 메모리 접근, 스레드/블록 구성, 성능 최적화, 경계 조건 같은 요소가 한꺼번에 나오고, 작은 실수로도 오답이나 성능 폭망이 나기 쉽습니다.

즉, “모델 실력 차이가 크게 벌어지는 과제”입니다. 이런 문제일수록 스킬의 가치가 커집니다. 잘 정리된 스킬은 모델에게 일종의 안전 가드레일을 만들어 주고, 최소한의 사고 루틴을 강제해 결과를 안정화시킵니다.

실전 흐름: 교사(Claude)가 시범 보이고, 스킬로 굳혀서 학생 모델에 장착

전체 파이프라인은 생각보다 단순합니다. 먼저 ‘강사 모델’에게 CUDA 커널을 만들게 하고, 그 과정(중간 판단, 수정, 테스트)을 trace로 남깁니다. 그다음 그 trace를 바탕으로 스킬 파일을 생성합니다. 그리고 마지막으로 그 스킬을 여러 ‘학생 모델’에게 적용해 결과를 비교합니다.1

여기서 중요한 포인트는 “정답만 가져오는 게 아니라, 정답으로 가는 길을 가져온다”는 점입니다. 그래서 스킬 파일은 보통 길어야 몇백 토큰 수준으로도 구성할 수 있는데, 이 짧은 문서가 학생 모델의 행동을 꽤 강하게 교정합니다.1

upskill로 스킬 생성·평가까지 한 번에: 바뀐 건 ‘느낌’이 아니라 ‘점수’

이 흐름을 도구로 묶어둔 것이 upskill입니다. 설치 후 generate로 스킬을 만들고, eval로 스킬 적용 전/후를 같은 테스트로 재서 비교합니다.1

여기서 제일 좋은 점은 “좋아진 것 같아요”가 아니라 “정확도가 몇 %에서 몇 %로 바뀌었는지, 토큰은 얼마나 더 먹는지”가 숫자로 남는다는 겁니다. 실제 사례로 특정 오픈 모델에서 스킬 적용 후 정확도가 40%에서 85%로 오른 결과도 공개됐습니다.1

다만 만능 열쇠는 아닙니다. 모델에 따라 개선 폭이 작거나, 오히려 토큰 소모가 늘어 비용이 애매해질 수 있습니다. 그래서 스킬은 ‘적용’보다 ‘평가’가 먼저입니다. upskill의 존재 이유도 사실 그 지점에 있습니다.1

Codex·Cursor·로컬 모델까지: 스킬은 “포팅 가능한 업무 매뉴얼”

스킬을 파일로 다루면 생기는 현실적인 이득이 큽니다. 팀에서 특정 레포지토리 구조, 내부 배포 방식, 사내 YAML 규칙, 테스트 관례처럼 “말로 전수하던 지식”을 스킬로 고정할 수 있습니다. 그러면 매번 장문의 프롬프트를 새로 쓰지 않아도 되고, 사람마다 다른 ‘요령 편차’도 줄어듭니다.

또 하나는 툴 체인 유연성입니다. 오늘은 Claude Code로 만들고, 내일은 Cursor에서 쓰고, 다음 주에는 로컬 GGUF 모델로 돌리는 식으로 옮겨 다닐 수 있습니다. 스킬이 모델이 아니라 작업 방식에 붙기 때문입니다.3

결국 전략은 이런 모습이 됩니다. “비싼 모델로 스킬을 만들고, 싼 모델로 굴린다.” 고성능을 상시 결제하는 대신, 고성능은 ‘지식 추출기’로 잠깐만 쓰는 방식입니다.1

시사점을 한 줄로 요약하면 이렇습니다. 앞으로의 AI 활용 능력은 ‘프롬프트 장인’이 아니라 ‘스킬 운영자’에서 갈릴 가능성이 큽니다.

개인이라면 자주 하는 업무(데이터 정제, 배포 스크립트 작성, 특정 프레임워크 보일러플레이트)를 스킬로 고정해두면 생산성이 꾸준히 올라갑니다. 팀이라면 온보딩 지옥을 줄이는 데 특히 좋습니다. “우리 팀에서는 이렇게 한다”를 스킬 파일로 남기고, 모델이 그 규칙을 지키게 만들 수 있으니까요.

그리고 꼭 기억할 한 가지는, 스킬은 ‘도입’이 아니라 ‘실험’입니다. 모델마다 반응이 다르고 비용 구조도 달라서, 적용 전후를 평가해 가장 가성비 좋은 조합을 찾는 게 정답입니다.1

참고

1우리는 Claude에게 CUDA 커널을 만들고 오픈 모델을 가르치게 했습니다!

2CUDA - Wikipedia

3How to Write and Implement Agent Skills | DigitalOcean

Claude로 CUDA 커널 ‘스킬’ 만들고 오픈 모델에 이식한 방법

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.