메인 콘텐츠로 건너뛰기
page thumbnail

Claude 장시간 코딩 에이전트, 개발자의 일은 어떻게 바뀌나

DODOSEE
DODOSEE
조회수 17
요약

클립으로 정리됨 (생성형 AI 활용)

출처 및 참고 : https://www.youtube.com/watch?v=BGouphNN5hg

퇴근하고 IDE를 열면 이미 하루 종일 혼자 코딩하던 에이전트가 수십 개의 커밋을 남겨 둔 상태라고 가정해 보겠습니다. 프론트와 백엔드가 돌아가고, 테스트가 통과되고, 심지어 칸반 보드의 태스크까지 정리된 모습입니다. 요즘 개발자라면 솔깃하면서도 동시에 불안해질 상황입니다. 과연 이걸 믿어도 되는지, 그리고 지금부터 무엇을 준비해야 할지가 바로 고민의 핵심입니다.


24시간 코딩 에이전트가 진짜로 바꾸는 것

많은 사람이 AI 코딩을 "한 번에 한 기능씩 도와주는 도구" 정도로 생각합니다. 이번에 소개된 Claude 장시간 에이전트 하네스는 이 전제를 아예 뒤집습니다. 모델 한 번 호출로 끝나는 도우미가 아니라, 하루 이상 프로젝트를 붙잡고 진짜 개발 사이클을 반복하는 존재로 설계되어 있기 때문입니다.

맥락을 잇는 세 가지 축: 스펙, 피처, 진행 로그

핵심은 컨텍스트 관리입니다. 장시간 에이전트의 가장 큰 적은 망각입니다. 한 세션에서 만든 계획을 다음 세션이 잊어버리면, 결국 비용만 태우는 장난감으로 끝납니다. 이 하네스는 세 가지 축을 강하게 고정합니다. 첫째, 앱 스펙입니다. 일종의 장문의 PRD로, 어떤 제품을 만들지, 기능 범위가 어디까지인지, 화면과 플로우가 어떻게 구성되는지 매우 촘촘하게 서술합니다. 둘째, 피처 리스트입니다. 이 스펙을 기반으로 초기화 에이전트가 수백 개의 기능·테스트 항목을 JSON이나 태스크로 쪼개서 만들어 둡니다. 셋째, 진행 로그에 해당하는 Claude Progress 파일이나 메타 이슈입니다. 각 세션이 마지막에 "이번 회차에서 무엇을 했는지" 요약을 남기기 때문에 다음 에이전트가 빠르게 상황을 파악할 수 있습니다.

이 구조 덕분에 에이전트는 매 세션 새 모델 호출이지만, 프로젝트 입장에서는 하나의 장기 기억을 가진 팀원처럼 움직입니다. 한국 개발 환경에서도 장기 프로젝트가 길어지고 요구사항이 자주 바뀌는 만큼, 이런 '문서 기반 기억력'은 인간 팀에도 그대로 유효한 패턴입니다. 저라면 당장 대형 신규 개발보다, 기존 팀의 스펙 관리 체계를 이 구조에 맞춰 재정비하는 데 먼저 쓰겠습니다.

"혼자 잘하는 AI"가 아니라 "테스트로 스스로 검증하는 AI"

또 하나의 축은 자기 검증입니다. 이 하네스는 테스트 주도 개발 방식에 가깝게 움직입니다. 피처 리스트에는 단순 기능 설명만 들어가지 않습니다. 해당 기능이 완성됐다고 판단하기 위해 브라우저에서 어떤 행동을 해야 하는지, 예를 들어 "새 채팅을 만들고 메시지를 보내고, 응답이 화면에 표시되는지 확인한다" 같은 시나리오까지 포함합니다. 에이전트는 Puppeteer MCP를 사용해 실제 브라우저를 열고, 사람이 클릭하듯 화면을 조작하면서 이 검증을 반복합니다.

겉으로 보기에는 모델이 코드를 잘 쓰는지가 중요해 보이지만, 실제로는 "스스로 검증할 수 있는 구조를 갖추는가"가 훨씬 중요합니다. 이 부분에서 많이들 놓치는 지점이 있습니다. 모델 성능만 믿고 테스트를 생략하면, 장시간 에이전트는 진행 상황을 화려하게 포장한 채 조용히 코드베이스를 망가뜨립니다. 제 기준에서는 모델 버전 업그레이드보다, 이런 자동 검증 루프를 얼마나 잘 설계하는지가 생산성의 진짜 분기점에 가깝습니다.


Linear와 연결된 에이전트, 왜 개발자에게 편한가

개발자 대부분은 이미 JIRA, Asana, Linear 같은 툴 위에서 일합니다. Anthropic의 원래 하네스는 로컬 JSON 파일로 피처를 관리하지만, 영상에서처럼 Linear MCP를 끼워 넣으면 이야기가 좀 달라집니다. 에이전트가 "우리가 쓰는 보드" 안으로 들어오기 시작합니다.

에이전트가 '사람의 보드'로 들어오는 순간

Linear 통합의 포인트는 단순 API 연동이 아닙니다. 초기화 에이전트가 프로젝트를 만들고, 피처들을 이슈로 쪼개서 칼럼에 올리고, 진행 상황 요약을 메타 이슈의 코멘트로 남깁니다. 즉, 사람이 매일 들여다보는 화면이 그대로 에이전트의 공유 메모리가 됩니다. 덕분에 장시간 돌아가는 자동화이면서도, 언제든 사람이 들어가 설명을 덧붙이고 우선순위를 바꾸고, 특정 이슈의 설명을 수정할 수 있습니다. 다음 세션의 에이전트는 이 변경 사항을 그대로 받아들입니다.

이 접근은 사람에게 유리한 방식입니다. 이미 Linear를 업무의 중심으로 쓰는 팀이라면, 새로운 도구를 배우지 않아도 에이전트와 협업이 가능합니다. 반대로 태스크 관리 도구를 아예 쓰지 않고 구두와 메신저 중심으로 일하는 팀이라면 효과가 거의 없습니다. 에이전트가 참고할 "단일 진실의 원천"이 없기 때문입니다.

로컬 파일이 아니라, 클라우드에서 돌려야 하는 이유

Linear 통합은 인프라 관점에서도 의미가 있습니다. 피처 리스트나 진행 로그를 로컬 파일로 관리할 때는, 에이전트를 원격 서버에서 장시간 돌리기가 껄끄럽습니다. 진행 상황을 보려면 SSH로 들어가 파일을 뒤져야 합니다. 반면 태스크를 Linear에 올려두면, 어디서 돌리든 브라우저에서 바로 확인할 수 있습니다. 맥용 Claude 구독 토큰을 써서 비용을 통제하면서, 서버에서는 장시간 에이전트를 돌리고, 개발자는 출퇴근길에 Linear 앱으로 상황을 보는 식의 구성이 가능합니다.

여기서 주의할 점도 분명합니다. 프로젝트 관리 툴에 대한 조직 문화가 약한 팀은 오히려 혼란을 겪을 수 있습니다. 에이전트가 생성한 수백 개의 이슈가 기존 인력의 태스크와 뒤섞이면 우선순위가 무너질 수 있습니다. 저라면 초반에는 별도 프로젝트나 워크스페이스를 만들어 "에이전트 전용 보드"를 운영하겠습니다. 인간이 하는 일과 AI가 하는 일을 물리적으로라도 분리한 뒤, 어느 정도 패턴이 잡힌 뒤에 통합하는 편이 현실적으로 안전합니다.


이 전략이 맞는 사람, 시작 전 체크할 것

장시간 에이전트는 그 자체로 화려해 보이지만, 모든 팀에 맞는 만능 해법은 아닙니다. 특히 한국처럼 마감이 촉박하고, 요구사항이 수시로 바뀌는 환경에서는 기대와 현실 사이 간극이 더 크게 느껴질 수 있습니다.

누가 먼저 써야 하고, 누가 기다리는 게 나은가

이 구조는 크게 두 부류에게 유리합니다. 하나는 "녹여야 할 일감이 많고, 스펙을 비교적 명확히 정의할 수 있는 팀"입니다. 예를 들어 레거시 타입스크립트 프로젝트를 최신 버전으로 올리거나, 대규모 리팩터링을 해야 하는 경우입니다. 반복 작업이 많고, 결과를 테스트로 확인할 수 있을수록 에이전트의 장점이 잘 드러납니다. 다른 하나는 개인 혹은 소규모 팀입니다. 평소 주간 단위로만 손대던 사이드 프로젝트를, 24시간 에이전트에게 맡겨 프로토타입 수준까지 끌어올리고 싶은 사람들입니다.

반대로 적합하지 않은 경우도 분명합니다. 기획이 수시로 바뀌고, 오늘 작성한 스펙이 내일이면 무효가 되는 조직에서는 장시간 에이전트가 오히려 발목을 잡을 수 있습니다. 에이전트는 "고정된 지도"를 기준으로 길을 찾는데, 지도가 자꾸 바뀌면 지도부터 다시 그려야 하기 때문입니다. 또, 테스트 코드나 자동 검증 루틴이 거의 없는 레거시 서비스도 초기에는 부담스럽습니다. 테스트를 만들지 않으면 에이전트가 제대로 일했는지 판단하기 어렵기 때문입니다.

현실적인 첫 행동: 에이전트보다 스펙과 테스트부터

이 모든 상황을 고려하면, 현실적인 첫 행동은 의외로 단순합니다. 장시간 에이전트를 바로 돌리는 대신, 앱 스펙 템플릿과 피처 리스트 구조를 먼저 익히는 편이 좋습니다. 기존에 존재하는 스펙 문서를 Claude에게 보여주고, "이 하네스 스타일로 재구성해 달라"는 요청만 해도 충분히 큰 인사이트가 나옵니다. 그 과정에서 빠져 있는 플로우와 테스트 조건이 자연스럽게 드러나기 때문입니다.

두 번째 단계는 지금 쓰는 태스크 관리 툴을 점검하는 것입니다. Linear든 JIRA든 상관없지만, 에이전트가 참고할 수 있을 만큼 일관된 구조가 있는지, 상태와 우선순위를 팀이 공통 언어로 쓰고 있는지부터 확인하는 편이 좋습니다. 마지막으로, 작은 프로젝트 하나를 골라 "24시간까지가 아니라 2~3세션만" 돌려 보는 식의 파일럿을 권합니다. 그 정도면 코드 스타일의 차이, 테스트 누락, 태스크 정의 방식의 문제를 충분히 체감할 수 있습니다. 그 이후에야 비로소 "우리 팀의 메인 워크플로에 장시간 에이전트를 섞을지"를 진지하게 논의할 수 있습니다.

솔직히 말해, 이 기술이 단기간에 인력을 대체하는 마법 지팡이라고 보기는 어렵습니다. 대신, 잘 정의된 문제와 탄탄한 테스트를 가진 팀이 훨씬 더 빨리 앞으로 나갈 수 있게 해 주는 가속 페달에 가깝습니다. 결국 승부는 "에이전트를 얼마나 오래 돌리느냐"가 아니라, "얼마나 선명한 지도와 검증 도구를 먼저 준비했느냐"에서 갈릴 가능성이 큽니다. 그 점을 잊지 않는 팀이 이 변화를 먼저 자기 편으로 만들 가능성이 가장 큽니다.


출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.