AI 분석 도구, 이렇게 평가하면 100% 실패합니다 (제대로 고르는 법)
요즘 생성형 AI 덕분에 "대화로 하는 분석"이 한 번에 뜨고 있습니다. 비개발자도 자연어로 질문만 던지면 데이터가 답을 해 준다는 꿈 같은 세계죠.
문제는, 많은 팀이 이 AI 분석·대화형 BI 도구들을 예전 방식 그대로, 체크리스트로만 비교하다가 번번이 실패한다는 겁니다. 겉으로는 기능도 비슷해 보이고 데모도 다 좋아 보이는데, 실제로 도입하면 현업은 안 쓰고 데이터 팀만 고생하는 악몽이 반복되죠.
이 글에서는 왜 기존 방식의 AI 분석 도구 평가는 거의 틀리기 쉽고, 실제 조직에서 잘 작동하는 도구를 고르려면 무엇을, 어떻게 봐야 하는지 단계별로 정리해 보겠습니다. 특히 "실제 사용자"와 "컨텍스트 관리", "운영 워크플로우"에 초점을 맞춰 이야기를 풀어볼게요.
왜 대부분의 AI 분석 도구 평가는 틀어지는가
많은 회사가 AI 분석 도구를 고를 때 가장 먼저 하는 일은 비슷합니다. 샘플 질문 여러 개를 준비해서, 각 도구에 똑같이 넣어 본 뒤 "정답을 더 잘 맞힌 도구"를 고르는 방식이죠.
언뜻 보면 아주 공정해 보입니다.
같은 질문
같은 데이터
같은 채점 기준
하지만 이 방식은 가장 중요한 두 가지를 전혀 검증하지 못합니다.
첫째, 실제 비즈니스 사용자가 이 도구를 쓰면서 질문을 어떻게 던지고, 그 답변을 얼마나 이해하고 신뢰하는지 전혀 드러나지 않습니다. 평가는 데이터 팀이 만들어낸 '시험 문제' 위주로 진행되고, 진짜 사용자인 현업은 구경만 하게 되죠.
둘째, 시간이 지나며 답변 품질을 어떻게 개선하고 모니터링할지, 즉 "운영 관점의 워크플로우"가 평가에서 빠집니다. LLM 기반 도구는 한 번 세팅한다고 끝나는 게 아니라, 질문 패턴과 데이터가 바뀔 때마다 계속 고도화해야 합니다.
결국 이런 단발성 시험은 "데모만 잘하는 도구"를 뽑기 아주 좋은 방법이고, "우리 조직에서 오래 잘 버티는 도구"를 찾기에는 거의 도움이 되지 않습니다.
체크리스트·기능 비교가 AI 도구에는 통하지 않는 이유
기존 BI 도구를 고를 때는 기능 체크리스트가 꽤 잘 먹혔습니다.
차트 타입 지원 여부
권한 관리 기능
필터, 대시보드, 임베딩 지원 등
이런 건 모두 '결정론적' 기능이라, 켜져 있으면 항상 같은 방식으로 동작합니다.
하지만 생성형 AI·LLM 기반 분석 도구는 완전히 다릅니다. 똑같은 질문, 똑같은 설정이라도 답변이 매번 조금씩 달라질 수 있고, "어떤 맥락(context)을 얼마나 잘 먹였는지"에 따라 품질이 크게 달라집니다.
또 하나의 문제는, 도구마다
어떤 데이터·메타데이터를 컨텍스트로 쓰는지
이 컨텍스트를 어떻게 세팅하고 관리하는지
사용자가 질문할 때 어떤 인터페이스를 사용하는지
이 모두가 제각각이라는 점입니다.
예를 들어, 어떤 도구는 사용자가 직접 "어느 테이블에서 답을 찾을지"를 선택하게 만듭니다. 평가 단계에서는 데이터 팀이 이걸 잘 골라주니 정확도가 높게 나옵니다. 하지만 실제 환경에서 영업팀, 마케팅팀이 이런 UI를 마주하면 어떨까요? 대부분 "어떤 테이블이 맞는지" 모릅니다. 결국 질문을 포기하거나, 잘못 고른 테이블 때문에 틀린 답을 얻고 신뢰를 잃게 됩니다.
AI 분석 도구는 "기능 유무"가 아니라
어떤 컨텍스트를 어떻게 주입할 수 있는지
다양한 사용자가 자연스럽게 쓸 수 있는지
시간이 지날수록 더 똑똑해질 수 있는 구조인지
를 중심으로 봐야 합니다.
AI 분석 도구 평가, 관점부터 다시 세워야 한다
이제 관점을 완전히 바꿔야 합니다. AI 분석 도구 평가는 단순히 "LLM이 답을 잘 맞히냐"가 아니라, "우리 조직 안에서 이 도구가 어떻게 자리 잡을 수 있느냐"를 보는 과정이어야 합니다.
특히 두 가지 흐름을 반드시 동시에 생각해야 합니다.
하나는 '엔드 유저 경험'입니다.
비개발자, 비데이터 직군 사용자가
자기 일 하다가 생긴 질문을 자연스럽게 던지고
이해하기 쉬운 언어로 설명을 들으며
이 답을 믿고 의사결정을 내릴 수 있는지
를 실제로 검증해야 합니다.
다른 하나는 '데이터 팀 경험'입니다.
질문들이 어떤 식으로 들어오는지 관찰하고
잘못된 답변을 찾아내고
컨텍스트와 설정을 고쳐가며
전체 시스템 품질을 장기적으로 끌어올릴 수 있는지
이 워크플로우가 부드럽게 돌아가야, 도구가 "도입 이후에도 계속 쓸 만한 상태"로 유지됩니다.
결론적으로, 평가의 주체는 데이터 팀이어야 하되, 평가 대상에는 반드시 엔드 유저와 실제 질문이 포함되어야 합니다.
제대로 평가하려면: '참조 질문'으로 컨텍스트부터 맞춰라
이제 실제로 AI 분석 도구를 어떻게 평가하면 좋을지 단계별로 보겠습니다. 첫 단계는 "참조 질문(reference questions)"을 고르는 겁니다.
우선, 평가하고 싶은 비즈니스 영역(매출, 마케팅, 제품, 고객지원 등)을 정합니다. 각 영역마다 5개 정도의 핵심 질문을 뽑아 두면 좋습니다. 여유가 된다면 10~15개까지 늘리는 것도 좋지만, 너무 많으면 세팅에 지쳐버릴 수 있으니 현실적으로 시작해 보세요.
이 참조 질문의 목적은 "각 도구의 컨텍스트 세팅을 제대로 해 보는 것"입니다. 다시 말해, 이 질문들에 도구가 정확히 답할 수 있게끔
어떤 테이블을 알려줘야 하는지
어떤 비즈니스 정의를 넣어야 하는지
어떤 예시 쿼리나 규칙을 제공해야 하는지
를 실제로 손으로 세팅해 보는 과정입니다.
여기서 중요한 포인트가 하나 있습니다. 이 참조 질문은 "점수 매기기용 시험 문제"가 아니라는 점입니다. 도구를 공정하게 비교하기 위한 컨텍스트 세팅용 도구일 뿐입니다.
좋은 참조 질문을 고르는 기준
참조 질문은 너무 단순해도, 너무 꼬여 있어도 안 좋습니다. 실제 현업이 자주 던지는 질문의 난이도와 결을 따라가는 게 중요합니다.
예를 들어, 매출·비즈니스 성과 도메인이라면 이런 식이 될 수 있겠죠.
"이번 분기 총 매출은 얼마인가요?"
"지난해 우리 매출 성장률은 얼마였나요?"
"지난해 마케팅 캠페인 중 가장 성과가 좋았던 건 무엇인가요?"
"신규 vs 기존 고객 중 어느 쪽이 매출 기여도가 더 높나요?"
또 하나, 일부러 "현재 데이터로는 답할 수 없는 질문"도 섞어 두면 좋습니다. 이걸 통해 도구가 적절히 "모른다 / 답할 수 없다"라고 말할 수 있는지, 아니면 그럴듯한 헛소리를 만들어내는지(할루시네이션)를 테스트할 수 있습니다.
이렇게 참조 질문을 준비했다면, 도구마다
질문을 실제로 던져 보고
컨텍스트(데이터 모델, 설명, 규칙, 예시 쿼리 등)를 추가·수정해 가며
참조 질문에 대한 답을 점점 맞춰 가는 과정을 밟게 됩니다.
만약 이 과정이 너무 어렵거나, 컨텍스트를 아무리 정교하게 추가해도 답이 개선되지 않는다면, 그 도구는 장기적으로 운영 난이도가 상당히 높을 가능성이 큽니다.
진짜 중요한 테스트: 실사용자 + 실제 질문
참조 질문으로 기본 세팅을 맞춘 뒤에는, 이제 진짜 중요한 단계가 시작됩니다. 바로 "실제 사용자를 불러, 실제로 궁금한 질문을 던져보게 하는 것"입니다.
여기서 중요한 원칙은 두 가지입니다.
첫째, 사용자는 꼭 '현업'이어야 합니다.
영업팀이라면 영업 리더, 담당자
마케팅팀이라면 캠페인 운영자
제품팀이라면 PM이나 데이터에 관심 있는 PO
이처럼 "실제로 데이터를 보고 의사결정을 내려야 하는 사람"들이어야 합니다.
둘째, 질문은 "평가용으로 꾸며 낸 질문이 아닌, 진짜 궁금한 것"이어야 합니다. 예를 들어 이런 식이죠.
"최근 세 달 동안 리드 전환율이 떨어진 이유가 뭘까?"
"유입 채널별 LTV 차이가 얼마나 나는지 알고 싶어요."
"이번 분기 이탈한 고객들의 공통 패턴이 있나요?"
데이터 팀이 미리 써 준 테스트 문장이 아니라, 사용자가 평소에 데이터 팀에게 슬랙이나 메일로 물어보던 질문 그대로를 쓰게 하세요.
이렇게 두세 명의 현업 사용자가 각 도구를 직접 사용해 보게 하고, 각자 "어느 도구의 답변이 더 이해하기 쉽고, 신뢰할 수 있고, 실제 업무에 도움이 되었는지"를 비교하게 하세요.
이 과정에서 의외로 많은 것이 드러납니다.
질문을 어떻게 이해하는지
추가 질문·후속 질문이 자연스럽게 이어지는지
답변이 '엑셀/SQL 없이' 곧바로 의사결정에 쓰일 만한 수준인지
이 경험은 데모로는 절대 볼 수 없는 부분입니다.
답변 품질 평가: 정확도와 '관련성'을 동시에 보라
테스트가 며칠간 진행됐다면, 이제 각 도구의 답변을 평가할 차례입니다. 이때 평가 기준은 크게 세 가지로 나눠 볼 수 있습니다.
정확도(Accuracy) – 데이터 팀이 평가 데이터 팀이 각 답이 사실에 얼마나 근접했는지, SQL로 직접 쿼리해 본 결과와 얼마나 일치하는지를 확인합니다.
가능하다면 간단한 루브릭을 정해 두면 좋습니다. 예를 들면:
5점: 완전히 정확하고, 쿼리/지표 정의도 올바름
3점: 숫자에는 큰 차이가 없지만, 설명이나 지표 해석이 다소 애매
1점: 잘못된 테이블/지표를 사용하거나, 비즈니스 정의를 완전히 오해
관련성(Relevance) – 엔드 유저가 평가 정확하더라도 현업에게 쓸모 없으면 의미가 없습니다. 실제 사용자가
"내가 궁금했던 것에 제대로 답했는지"
"설명이 이해하기 쉬웠는지"
"이 답을 보고 실제로 행동을 바꿀 수 있을지"
를 기준으로 체감 점수를 매기게 해 보세요.
질문의 중요도 – 데이터 팀이 평가 모든 질문이 똑같이 중요하지는 않습니다. "이 질문은 우리 비즈니스에 정말 자주, 중요하게 나오는 질문인가?"를 기준으로
최우선으로 잘 맞춰야 할 질문
있으면 좋은 정도의 질문 을 구분해 두면, 나중에 어떤 부분에 더 튜닝 시간을 쓸지 결정하는 데 도움이 됩니다.
진짜 고수는 '워크플로우'를 평가한다
많은 팀이 놓치는 핵심이 바로 이 부분입니다. AI 분석 도구의 품질은 한 번의 테스트 결과로 끝나지 않고, 시간이 지날수록 계속 변합니다.
그래서 "얼마나 잘 답하느냐"만큼 중요한 것이 "틀렸을 때 얼마나 잘 고칠 수 있느냐", "사용 패턴을 얼마나 잘 관찰할 수 있느냐"입니다.
평가할 때 꼭 체크해야 할 질문들은 이런 것들입니다.
사용자가 받은 답변을 데이터 팀이나 동료와 쉽게 공유할 수 있는가? (예: 링크 공유, 스레드 공유, 코멘트 기능 등)
AI가 생성한 분석을 데이터 팀이 이어받아, 쿼리를 수정하거나 시각화를 바꾸는 일이 자연스러운가?
사용자가 "이 답이 틀린 것 같다"고 느꼈을 때, 이걸 간단히 표시하거나 신고해서, 데이터 팀이 바로 확인할 수 있는가?
어떤 질문들이 자주 들어오고 있는지, 그중 어디서 오류·불만이 많이 발생하는지 한눈에 볼 수 있는 관측(Observability) 기능이 있는가?
우리 조직이 이미 쓰고 있는 데이터 스택(웨어하우스, BI, 슬랙, 이슈 트래킹 등)과 얼마나 잘 통합되는가?
이 질문에 대한 답이 "대체로 YES"일수록, 도입 이후에도 꾸준히 품질을 끌어올릴 수 있는 도구일 가능성이 높습니다. 반대로 이런 워크플로우가 거의 없다면, 지금은 잘 맞히더라도 시간이 갈수록 엉망이 될 위험이 큽니다.
제대로 된 평가는 '조금 귀찮은' 게 정상이다
여기까지 듣고 나면, 아마 이런 생각이 들 수 있습니다. "샘플 질문 10개 돌려보고 체크박스만 채우면 끝날 걸, 너무 복잡한 거 아닌가요?"
솔직히 말하면, 네. 이 방식은 확실히 더 귀찮습니다. 참조 질문도 만들어야 하고, 실제 사용자도 모셔야 하고, 며칠간 질문을 모니터링해야 하니까요.
하지만 이 정도 시간과 정성도 투자하지 않는다면, 실제로 도입한 뒤에도 그 도구를 제대로 운영하고 개선해 나갈 가능성은 더더욱 낮습니다.
반대로,
참조 질문으로 컨텍스트 세팅을 해 보고
실제 사용자에게 실제 질문을 던지게 해 보고
답변 품질과 워크플로우까지 함께 평가해 보면
단 몇 일 안에 "이 도구가 우리 조직에서 실제로 먹힐지"에 대한 감이 아주 명확해집니다.
"데모에서는 완벽했는데, 현실에서는 안 쓰인다"는 비극도 상당 부분 피할 수 있습니다.
시사점: AI 분석 도구, 이제는 '운영 관점'으로 골라야 할 때
정리해 보면, 좋은 AI 분석 도구를 고르는 핵심은 기능 체크리스트가 아니라 운영 현실입니다.
LLM 기반 도구는 결정론적 소프트웨어가 아니기 때문에, 한 번의 시험으로 영구적인 품질을 보장할 수 없습니다.
그래서 "얼마나 잘 맞히냐"만 볼 게 아니라, "얼마나 잘 개선할 수 있느냐", "현업이 얼마나 자연스럽게 쓸 수 있느냐"를 함께 봐야 합니다.
참조 질문으로 컨텍스트를 세팅하고, 실제 사용자가 실제 질문을 던져 보게 하고, 데이터 팀과 현업이 함께 정확도와 관련성을 평가해야 합니다.
마지막으로, 잘못된 답을 어떻게 고치고, 어떤 질문들이 중요한지 파악하는 워크플로우를 꼭 점검해야 합니다.
조금 더 느리고, 조금 더 손이 가는 평가 방식이지만 이 과정을 거치면 "데모용 AI"가 아니라 "현실에서 돈 버는 AI 분석 도구"를 선택할 수 있습니다.
지금 AI 분석 도구를 검토 중이라면, 단순 비교표 대신, 이 글에서 소개한 방식으로 한 주만 제대로 투자해 보세요. 그 한 주가 앞으로 몇 년간의 생산성과 도입 성공률을 극적으로 갈라놓을 수 있습니다.
출처 및 참고 : You’re probably evaluating AI analytics tools wrong | Hex
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
