SkillsBench로 본 에이전트 스킬의 진짜 효과: 어디서 통할까?

최근 arXiv에 공개된 SkillsBench 논문이 “에이전트 스킬(Skill)이 실제로 성능을 올려주나?”를 꽤 정면으로 다뤘습니다.¹ 결론부터 말하면 스킬은 평균적으로 도움이 되지만, 아무 스킬이나 얹는다고 만능은 아니고 “잘 만든 스킬”만 통합니다. 오늘은 이 소식을 출발점으로, 스킬이 왜 필요해졌는지, 어떤 스킬이 성능을 올리는지, 그리고 팀에서 바로 적용할 설계 요령까지 정리해보겠습니다.

SkillsBench란? ‘스킬이 얼마나 도움 되나’를 재는 벤치마크

LLM 에이전트는 똑똑하지만, 현업 워크플로의 ‘순서’와 ‘요령’에는 자주 약합니다. 예를 들어 영상 파일 문제를 해결할 때 사람은 “일단 ffprobe로 메타데이터를 뽑고, 코덱/프레임레이트부터 확인”처럼 절차를 압축해 갖고 있죠. 스킬은 바로 그 절차를 패키지로 만들어 에이전트가 실행 시점에 참고하도록 붙여주는 방식입니다.

SkillsBench는 이런 스킬의 효용을 재기 위해 11개 도메인에 걸친 86개 과제를 구성하고, 각 과제를 스킬 없이/사람이 큐레이션한 스킬로/모델이 스스로 작성한 스킬로 비교 평가합니다.¹ 또한 결과를 자동으로 판정하기 위한 검증기를 붙여 “그럴싸한 답”이 아니라 “통과/실패”로 깔끔하게 성능을 보게 만든 점이 실무 관점에서 특히 유용합니다.

숫자가 말해주는 사실: 평균은 상승, 하지만 도메인별 편차는 큼

가장 중요한 결과는 단순합니다. 큐레이션 스킬을 붙이면 평균 합격률이 16.2%p 올라갔습니다.¹ “프롬프트 조금 더 준 수준”이 아니라, 절차 지식이 성능을 끌어올린다는 증거에 가깝습니다.

다만 상승폭은 고르게 퍼지지 않습니다. 소프트웨어 엔지니어링에서는 +4.5%p로 비교적 작았고, 헬스케어에서는 +51.9%p까지 튀었습니다.¹ 이 차이는 직관적으로도 설명이 됩니다. 코딩은 모델이 원래 잘하는 편이라 “추가 절차”의 한계효용이 낮을 수 있지만, 헬스케어처럼 규정·프로토콜·검사 순서가 중요한 영역은 절차를 제대로 태워주면 급격히 좋아질 여지가 큽니다.

또 하나, 84개 과제 중 16개는 스킬을 넣었는데도 성능이 떨어졌습니다.¹ 즉 “스킬=무조건 버프 아이템”이 아니라, 잘못 설계하면 오히려 헷갈리게 만드는 무거운 갑옷이 될 수 있다는 뜻입니다.

‘모델이 스스로 만든 스킬’이 실패한 이유와, 스킬 문서가 짧아야 하는 이유

흥미로운 대목은 “스스로 생성한 스킬”이 평균적으로 도움이 되지 않았다는 점입니다.¹ 한마디로 모델은 ‘먹으면 도움이 되는 레시피’를 ‘스스로 안정적으로 쓰는 것’에는 아직 서툽니다. 실무로 치면, 일 잘하는 주니어에게 “너 매뉴얼도 네가 써”를 시켰더니 막상 그 매뉴얼이 애매해서 다음 작업에 별 도움이 안 되는 상황과 비슷합니다.

그렇다면 사람은 어떤 방식으로 스킬을 써야 할까요? SkillsBench는 “2~3개 모듈로 집중된 스킬”이 “포괄적 문서(장문의 설명서)”보다 낫다고 보고합니다.¹ 여기서 힌트가 나옵니다. 스킬은 교과서가 아니라 ‘현장에서 당장 쓰는 체크리스트+템플릿’에 가까워야 합니다.

실제 스킬 예시를 보면 감이 더 옵니다. 예를 들어 ffmpeg-media-info 스킬은 “어떤 상황에 쓰는지”와 “ffprobe로 어떤 필드를 어떻게 뽑는지”가 바로 실행 가능한 형태로 정리돼 있습니다.² bio-seq 스킬도 마찬가지로 파일 포맷 변환, reverse complement, faidx 인덱싱 같은 ‘자주 하는 절차’를 도구(Biopython, pysam) 중심으로 묶어둡니다.³ 이런 스킬은 길게 철학을 설명하지 않고, 다음 행동을 곧바로 결정하게 해주는 쪽에 가깝습니다.

시사점: 우리 팀 에이전트에 스킬을 붙인다면 이렇게 하세요

첫째, 스킬을 “지식”이 아니라 “절차”로 쓰세요. 개념 설명을 늘리기보다, 입력-행동-검증 순서를 짧게 고정해주는 편이 성능에 더 직접적입니다.

둘째, 스킬은 작게 쪼개서 2~3개 모듈로 끝내는 걸 목표로 하세요. “설치/환경 확인 → 실행 템플릿 → 결과 판정(혹은 트러블슈팅)” 정도면 대부분 충분합니다. 길어지는 순간 에이전트의 선택지가 늘어나고, 그만큼 헤맬 확률도 커집니다.

셋째, 스킬이 독이 되는 과제를 반드시 찾아내세요. SkillsBench에서도 일부 과제는 스킬이 성능을 깎았습니다.¹ 그러니 스킬을 배포하기 전에 “스킬 on/off A/B 테스트”와 실패 로그 리뷰를 루틴으로 두는 게 안전합니다.

마지막으로, “큰 모델을 사면 해결”이라는 공식도 다시 생각해볼 만합니다. 논문은 작은 모델도 좋은 스킬을 붙이면 더 큰 모델(스킬 없음)과 비슷한 성능을 낼 수 있다고 말합니다.¹ 비용 최적화가 중요한 팀이라면, 모델 업그레이드 전에 스킬 라이브러리부터 다듬는 쪽이 더 빠른 지름길일 수 있습니다.

참고

¹SkillsBench: Benchmarking how well agent skills work across diverse tasks(https://arxiv.org/abs/2602.12670)

²ffmpeg-media-info skill by benchflow-ai/skillsbench(https://playbooks.com/skills/benchflow-ai/skillsbench/ffmpeg-media-info)

³bio-seq skill by benchflow-ai/skillsbench(https://playbooks.com/skills/benchflow-ai/skillsbench/bio-seq)