DS-STAR: LLM이 만든 최첨단 데이터 과학 에이전트의 탄생

데이터 과학은 이제 “있으면 좋은 기술”이 아니라, 비즈니스의 성패를 가르는 필수 역량이 됐습니다. 문제는, 제대로 된 데이터 분석을 하려면 통계, 프로그래밍, 도메인 지식까지 모두 갖춘 ‘슈퍼 인재’를 찾아야 한다는 점이죠.

최근 등장한 DS-STAR는 이 난제를 정면으로 겨냥한 새로운 데이터 과학 에이전트입니다. 자연어로 문제를 설명하면, 스스로 데이터를 이해하고, 계획을 세우고, 코드를 작성하고, 결과를 검증까지 하는 일종의 “자율 데이터 과학자”에 가깝습니다.

이 글에서는 DS-STAR가 무엇인지, 기존 LLM 에이전트와 뭐가 다른지, 실제로 어느 수준까지 일을 잘하는지, 그리고 우리가 어떻게 활용할 수 있을지까지 한 번에 정리해보겠습니다.

DS-STAR란 무엇인가: “코딩도 하는 데이터 과학 비서”

먼저 DS-STAR를 한 줄로 정의해보면 이렇습니다.

“DS-STAR는 자연어로 설명된 데이터 과학 문제를, 스스로 계획·코드·검증까지 수행하는 다재다능한 LLM 기반 데이터 과학 에이전트다.”

기존에도 “코드 짜주는 LLM”은 많았습니다. 하지만 대부분은 이런 식이었죠.

사용자가 데이터를 직접 설명하거나 일부를 붙여넣고
“이런 코드 만들어줘”라고 요청하면
LLM이 스니펫 형태의 코드를 생성

여기서 발생하는 현실적인 문제들이 있습니다.

데이터 파일이 여러 개일 때, 구조 파악부터 힘들다
분석 과정을 단계별로 설계해줘야 한다
코드가 돌아가긴 하는데, 문제를 ‘정말’ 풀었는지는 다시 사람이 확인해야 한다

DS-STAR가 새롭게 제안하는 건, 이 흐름 자체를 에이전트에게 넘겨버리는 방식입니다. 즉,

데이터 폴더만 주고 “이걸로 이런 비즈니스 질문에 답해줘”라고 하면
에이전트가 폴더 속 모든 파일을 직접 살펴보고
어떤 순서로 문제를 풀지 계획하고
그에 맞는 코드를 작성하고 실행한 뒤
결과가 적절한지 스스로 검증하고, 부족하면 계획을 수정해 반복

여기까지를 자동으로 수행합니다.

이 과정에서 핵심이 되는 세 가지 혁신 요소가 DS-STAR를 기존 에이전트와 완전히 구분 짓습니다.

다양한 데이터 파일을 자동으로 이해하는 “데이터 파일 분석기”
각 단계의 계획이 충분한지 판단하는 “LLM 기반 Verifier”
실패와 피드백을 기반으로 계속 계획을 다듬는 “연속 계획 루프”

말 그대로 “처음부터 끝까지 스스로 성장하는 데이터 과학 에이전트”에 가까운 형태입니다.

DS-STAR의 구조: 디렉토리 스캔부터 계획·코드·검증까지

DS-STAR의 동작 흐름은 크게 두 단계로 나눌 수 있습니다.

첫 번째는 “전체 그림 파악 단계”, 두 번째는 “계획–실행–검증 루프”입니다.

1단계: 디렉토리 전체를 스캔해 데이터 문맥을 자동 추출

일반적인 데이터 분석 프로젝트를 떠올려보면, 시작은 보통 이렇습니다.

data 폴더에 csv, json, parquet, 로그 파일, 엑셀 등 별별 파일이 다 들어 있고
“이 중에 뭐가 중요한지, 서로 어떻게 연결되는지”부터 파악해야 합니다.

사람 입장에서도 귀찮고 시간이 걸리는 작업이죠.

DS-STAR는 여기에 “데이터 파일 분석기”라는 모듈을 둡니다. 이 모듈은 폴더 안 모든 파일을 쭉 훑으면서:

파일 형식과 크기
컬럼 이름, 타입, 결측치 패턴
파일 간 키 관계로 추정되는 부분
텍스트 파일이라면 어떤 주제/형식인지

이런 것들을 자동으로 요약합니다.

그 결과, 에이전트는 “이 프로젝트의 데이터 월드맵”을 하나 받게 됩니다. 이 월드맵 위에서, 이후의 모든 계획과 코드를 세우는 셈입니다.

이 단계가 중요한 이유는 단순합니다.
데이터를 제대로 이해하지 못하면, 이후의 모델링이나 분석은 거의 100% 삐끗하기 때문이죠. 최근 데이터 거버넌스 연구에서도, 실제로 전문가들이 가장 많은 시간을 쓰는 부분이 모델링이 아니라 “데이터를 깨끗하고 신뢰할 수 있게 만드는 과정”이라고 보고합니다.¹

DS-STAR는 가장 시간 많이 드는 이 구간을 대폭 자동화하려는 시도입니다.

2단계: 계획 – 실행 – 검증, 그리고 다시 계획

이제 에이전트는 데이터를 어느 정도 이해했습니다. 다음은 “문제를 어떻게 풀지”를 정하는 구간입니다.

DS-STAR는 여기서 “주 루프(main loop)”를 돌립니다. 구성은 다음과 같습니다.

Planner 에이전트가 고수준 계획 수립
- “데이터 로딩 → 전처리 → 특성 생성 → 모델 학습 → 평가 → 리포트 작성”처럼
- 각 단계에서 어떤 파일과 어떤 연산을 쓸지까지 포함하여 설계합니다.
Router / Executor가 실제 코드 구현
- 계획에 따라 적절한 도구(예: Python, SQL, pandas, sklearn 등)를 선택하고
- 코드 스니펫이 아니라, 실제로 실행 가능한 단위의 코드를 작성합니다.
Verifier 에이전트가 코드와 결과를 평가
- 코드가 에러 없이 돌아가는지
- 출력 결과가 문제 정의와 얼추 맞는지
- 누락된 단계는 없는지, 비현실적인 가정을 하지 않았는지
계획이 부족하면 다시 Planner로 피드백
- Verifier가 “여기 전처리 단계가 빠졌다”, “평가 지표가 부적절하다” 같은 식으로 피드백을 주면
- Planner가 계획을 수정하고 다시 루프를 돌립니다.

이 “연속 계획 루프” 덕분에 DS-STAR는 한 번에 완벽한 계획을 세우지 못하더라도, 여러 번의 시도를 통해 점점 더 나은 솔루션에 가까워질 수 있습니다. 실제로 복잡한 데이터 작업에서 중요한 건 “처음에 완벽하게 설계하는 능력”이 아니라, “실패에서 배워서 계획을 고치는 능력”이니까요.

DS-STAR vs 기존 데이터 과학 에이전트: 무엇이 달라졌나

요즘 나오는 LLM 에이전트 연구들을 보면, 대체로 세 가지 한계가 반복해서 지적됩니다.¹²

코드 조각 수준에 머무른다
- 한 번에 함수 하나, 쿼리 하나를 잘 만드는 데 집중
- 전체 파이프라인이나 워크플로까지 책임지지 못함
복잡한 멀티스텝 워크플로에 약하다
- 여러 단계를 이어야 하는 작업에서
- 어느 순간 문맥을 잃거나, 중간 결과를 잘못 이해함
에러 수정/디버깅 메커니즘이 빈약하다
- 코드가 한 번 실패하면, 원인을 구조적으로 분석하기보다
- 다시 비슷한 코드를 시도하는 수준에 머무름

DataGovAgent 같은 최근의 고급 프레임워크들은 이런 한계를 보완하기 위해, Planner–Executor–Evaluator 구조와 피드백 기반 디버깅 루프를 도입합니다.¹ DS-STAR 역시 비슷한 철학을 따르지만, 데이터 과학이라는 보다 넓은 영역에 최적화되어 있습니다.

특히 DS-STAR가 기존 방법 대비 강점을 발휘하는 포인트는 다음과 같습니다.

첫째, “다양한 데이터 파일”을 전제로 설계됐다
많은 에이전트 연구가 테이블 형태의 구조화된 데이터에 초점을 맞추지만, 실제 현업에서는 로그, 텍스트, JSON, 여러 형식이 섞여 있습니다. DS-STAR는 디렉토리 전체를 스캔하고, 파일들 간 관계를 분석하는 모듈 덕분에 이런 복합 환경에서 특히 강점을 보입니다.

둘째, 계획의 “충분성”을 따로 평가한다
Planner가 세운 계획이 정말 문제 해결에 충분한지, Verifier가 별도로 따져보는 구조입니다. 그냥 “코드가 돌아가면 OK”가 아니라, “이 문제를 풀기에 단계가 충분했는가”를 점검합니다. 이 점이 단순 코드 에이전트와의 결정적인 차이입니다.

셋째, 에이전트간 역할 분담이 명확하다

데이터 파일 분석기: 데이터 맵 작성
Planner: 전략 수립
Router/Executor: 구체적 코드 선택 및 실행
Verifier: 품질 평가와 피드백

이렇게 역할이 잘 쪼개져 있을수록, 각 부분을 독립적으로 개선하기 쉽고, 특정 모듈의 영향을 따로 분석하는 것이 가능해집니다. 실제 실험에서도 데이터 파일 분석기와 Router 에이전트가 성능 향상에 특히 큰 기여를 한 것으로 나타납니다.

DS-STAR 성능: 벤치마크에서 보여준 ‘실전형’ 능력

이제 “말만 그럴싸한 것 아닌가?”라는 의문이 생길 수 있습니다. DS-STAR는 여러 공개 벤치마크에서 실제로 꽤 인상적인 성능을 보여줍니다.

연구에서 사용된 대표적인 벤치마크들은 다음과 같은 특징을 갖습니다.¹³

DS-1000, DA-Code 계열
- 데이터 과학 라이브러리 중심의 코드 생성 및 실행 과제
- 단순 스니펫을 넘어, 상호작용이 필요한 작업까지 포함
데이터 거버넌스/파이프라인 중심 벤치마크 (예: GovBench)
- 필터링, 결측치 대체, 중복 제거, 통합, 라벨링 등
- 데이터 품질과 파이프라인 정확성을 중점 평가¹
복잡한 ML 에이전트 벤치마크 (예: ReX-MLE)
- 의료 영상처럼 도메인 난도가 높은 문제를 풀기 위한
- 전체 워크플로 수행 능력을 평가³

DS-STAR는 이와 유사한 복잡도의 데이터 과학 벤치마크들(DABStep, KramaBench, DA-Code 등)에서 기존 SOTA 에이전트들을 크게 앞서는 성능을 보입니다. 특히:

AutoGen, DA-Agent 같은 범용 에이전트 프레임워크 대비
모든 테스트 시나리오에서 높은 정확도
다양한 데이터 파일이 얽힌 작업일수록 성능 격차가 더 크게 벌어지는 경향

또 하나 흥미로운 결과는 “반복 개선 횟수”와 성능의 관계입니다. 루프를 너무 적게 돌리면 계획이 부족하고, 너무 많이 돌리면 불필요한 시도만 늘어나 효율이 떨어집니다. 실험 결과, 적당한 반복 횟수 구간이 존재하며, DS-STAR는 이 지점을 잘 활용할 때 가장 높은 정확도를 달성합니다.

마지막으로, DS-STAR는 특정 LLM에 종속되지 않습니다. 여러 LLM 백엔드를 바꿔가며 실험한 결과,

강력한 모델일수록 절대 성능은 올라가지만
중간급 모델을 쓰더라도 구조적 설계 덕분에 꽤 쓸 만한 결과를 얻을 수 있음을 확인했습니다.

이는 기업 입장에서 보면, “내가 어떤 모델을 쓰든, DS-STAR 구조 위에 얹어 최적화할 수 있다”는 의미이기도 합니다.

DS-STAR가 바꿀 데이터 과학의 미래: 실무 활용 시나리오

그렇다면 DS-STAR 같은 에이전트가 현업 데이터 팀에 들어오면, 실제로 무엇이 달라질까요? 몇 가지 현실적인 그림을 그려볼 수 있습니다.

1. “데이터 과학 입문자”도 복잡한 분석을 시도할 수 있다

지금까지는 SQL, Python, 통계에 모두 익숙하지 않으면 손대기 어려웠던 복잡한 분석도, 자연어로 요구사항을 설명해 DS-STAR에게 초안을 맡기고, 사람이 검토·수정하는 방식으로 생산성을 크게 끌어올릴 수 있습니다.

마케터가 “지난 3개월 캠페인별 전환율을 채널/디바이스 기준으로 비교해달라”
PM이 “이 기능 릴리스 전후로 잔존율이 어떻게 달랐는지 cohort로 분석해달라”

같은 요청을 DS-STAR에게 직접 전달해, 초기 분석과 시각화까지 자동으로 받아보는 식입니다.

2. “데이터 엔지니어/과학자”는 더 어려운 문제에 집중

반대로, 전문 데이터 사이언티스트와 엔지니어는 반복적인 전처리·리포팅 작업에서 해방되어, 모델링 전략, 실험 설계, 비즈니스 임팩트 설계 같은 고부가가치 영역에 더 많은 시간을 할애할 수 있습니다.

“고정된 리포트 파이프라인” 구축은 DS-STAR에게 맡기고
정말 중요한 가설 검증, 라벨링 전략, 샘플링 설계 등은 사람이 직접 챙기는 구조

최근 여러 리서치에서, 사람과 에이전트의 조합이 단일 LLM보다 훨씬 강력하다는 결과가 반복해서 보고되고 있기도 합니다.³

3. “데이터 거버넌스·품질 관리” 자동화의 초석

GovBench 연구가 잘 보여주듯, 데이터 거버넌스 작업은 필터링, 결측치 보정, 중복 제거, 통합 등 규칙 중심의 반복 업무가 많습니다.¹ DS-STAR의 구조는 이런 작업에도 잘 맞습니다.

자연어로 “이 규칙에 따라 고객 데이터 정제 파이프라인 만들어줘”라고 요청하면
Planner가 고수준 설계를, Executor가 코드 구현을, Verifier가 품질 검증을 담당

이는 장기적으로 “데이터 거버넌스 에이전트”와 “데이터 과학 에이전트”가 서로 연결돼, 데이터가 생성되는 순간부터 분석·모델링 단계까지, 전 과정이 에이전트에 의해 부분 자동화되는 미래로 이어질 수 있습니다.

시사점: “에이전트가 데이터 과학자를 대체할까?”에 대한 현실적인 답

마지막으로 모두가 궁금해하는 질문으로 돌아가 보겠습니다.

“이 정도면 데이터 과학자가 필요 없어진 것 아닌가?”

현재까지의 연구와 벤치마크를 냉정하게 보면, 답은 “아직은 아니다, 다만 역할은 크게 바뀔 것이다”에 가깝습니다.¹³

복잡한 도메인(의료 영상 등)에서는, 최신 에이전트들도 여전히 인간 전문가와 비교해 매우 낮은 성과를 보입니다.³
데이터 거버넌스처럼 규칙이 많은 분야에서도, 에이전트가 계획·코드를 잘 짜더라도, 규칙을 설계하고 결과를 승인하는 역할은 사람이 맡습니다.¹

대신 데이터 과학자의 역할은 점점 다음과 같이 이동할 가능성이 큽니다.

직접 손으로 코드를 다 짜기보다는
에이전트에게 “무엇을, 왜, 어떤 기준으로” 하게 할지 정의하고
에이전트가 만든 결과를 검증·해석하고
비즈니스 의사결정과 연결시키는 역할

DS-STAR는 이 전환의 한 가운데 있는 프레임워크입니다.
데이터 과학의 많은 “손발”을 자동화하는 동시에, 여전히 인간의 방향 설정과 판단이 필요한 구조로 설계되어 있기 때문입니다.

실무자 입장에서 지금 할 수 있는 현실적인 준비는 두 가지입니다.

첫째, 에이전트에게 일을 “설명”하는 능력을 키우기
- 명확한 목표 정의, 제약 조건, 평가 기준을 자연어로 잘 표현하는 스킬
둘째, 에이전트 결과를 평가·보완하는 능력을 키우기
- 통계적 타당성, 데이터 편향, 비즈니스 적합성을 읽어내는 눈

DS-STAR 같은 시스템이 점점 더 보편화된다면, “코드를 잘 치는 사람”보다 “에이전트와 함께 문제를 잘 푸는 사람”이 데이터 팀의 핵심 인력이 될 가능성이 큽니다.

참고

¹GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

²Coding – Scale LLM Leaderboards

³ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges