비정형 데이터로 엔터프라이즈 AI 성공률 끌어올리는 방법
AI 프로젝트에 수십억을 쓰고도 “눈에 보이는 성과가 없다”는 기업 이야기를 자주 듣습니다. 많은 경우 문제는 AI 기술이 아니라, 그 AI가 먹고 자라는 “데이터”에 있습니다.
특히 통화 녹취, 회의 영상, 고객 불만 메일, 물류 센서 로그처럼 형태가 제각각인 비정형 데이터는 기업 데이터의 최대 90%를 차지하지만, 여전히 대부분은 ‘잠자고’ 있습니다12.
이 글에서는 비정형 데이터를 어떻게 다뤄야 AI 파일럿을 넘어 실제 비즈니스 성과로 이어지는지, NBA 샬럿 호니츠 사례를 포함해 단계별로 정리해 보겠습니다.
비정형 데이터, 왜 엔터프라이즈 AI의 숨은 핵심 자원인가
먼저 용어부터 정리해 보겠습니다.
정형 데이터는 엑셀처럼 행과 열이 깔끔하게 정리된 데이터입니다. 매출 표, 고객 DB, 상품 재고, 이런 것들이죠. 스키마가 정해져 있고 SQL 같은 도구로 바로 분석할 수 있습니다2.
반대로 비정형 데이터는 이런 틀에 맞지 않는 거의 모든 것을 뜻합니다. 예를 들어:
통화 녹취 파일과 그 음성
회의와 CCTV 영상, 교육 동영상
고객 불만 메일, 채팅 기록, 설문 자유 응답
공급망 센서 로그, 장비에서 나온 이벤트 로그
소셜 미디어 글, 웹페이지 캡처
특징은 두 가지입니다.
첫째, 양이 압도적으로 많습니다. 기업이 생성하는 데이터의 약 90%가 비정형 데이터라는 추정도 있을 정도입니다2.
둘째, 정답이 딱 떨어지는 형태가 아니라 맥락 속에서 의미가 생깁니다. 고객 통화 한 건만 보고는 알 수 없지만, 1만 건을 보면 반복되는 불만, 자주 엮이는 제품, 특정 지점의 패턴이 드러납니다.
이 비정형 데이터가 AI 시대에 중요한 이유는, 최근의 대규모 언어 모델(LLM)·컴퓨터 비전·음성 인식 같은 기술들이 바로 이런 ‘복잡한 데이터’를 이해하기 위해 태어났기 때문입니다.
정리하면 이렇습니다.
정형 데이터는 “숫자 계산”에 강합니다. 매출 예측, 수요 예측, 재고 최적화 등.
비정형 데이터는 “맥락 이해”에 강합니다. 고객의 진짜 불만, 직원들의 암묵지, 영업 현장의 뉘앙스, 제품이 실제로 사용되는 상황 등.
문제는, 이 비정형 데이터가 너무 지저분하고 제각각이라 제대로 준비하지 않으면 AI가 활용하기 어렵다는 데 있습니다1.
샬럿 호니츠 사례: 비디오를 데이터로 바꾸자 챔피언이 보였다
비정형 데이터를 잘 쓰면 어떤 일이 벌어질까요? NBA 샬럿 호니츠 사례가 좋은 힌트가 됩니다1.
호니츠는 기존 NBA 스카우트들이 거의 보지 못하던 소규모 리그 경기 영상을 대량으로 모았습니다. 문제는 양이 너무 많고, 대부분이 ‘그냥 동영상 파일’이라는 점이었습니다. 사람이 다 볼 수도 없고, 기존 통계처럼 숫자로 정리돼 있지도 않았죠.
여기서 팀이 택한 전략은 “영상 → 데이터”였습니다.
먼저 컴퓨터 비전 기술을 사용해 영상 속 선수와 공을 자동으로 인식하고, 코트의 좌표계 위에 올렸습니다. 각 프레임마다 선수 위치(x,y 좌표)를 추적해 속도, 가속도(폭발력), 움직임 패턴 같은 운동 데이터(키네마틱 데이터)를 뽑아냈죠1.
이 과정을 통해 단순한 영상이 이렇게 바뀝니다.
“그냥 돌려보는 경기 영상”
→ “누가, 언제, 어디서, 얼마나 빨리, 어떤 패턴으로 움직였는지”가 들어 있는 데이터셋
이 데이터로 호니츠는 기존 스카우트 시스템이 포착하지 못하던 선수를 발굴했고, 이 선수는 2025년 NBA 서머리그 MVP를 차지하며 팀의 첫 우승을 이끌었습니다1.
핵심 포인트는 세 가지입니다.
첫째, 기존에 존재하던 비정형 데이터(영상)를 ‘분석 가능한 구조 데이터’로 변환했습니다.
둘째, 일반적인 컴퓨터 비전 모델을 그대로 쓴 것이 아니라, “지금 보는 것이 농구 코트다”, “농구 규칙은 이렇다” 같은 도메인 맥락에 맞게 AI를 튜닝했습니다1.
셋째, 목표가 명확했습니다. “멋진 AI 데모 만들기”가 아니라 “우리 팀 전력에 필요한 선수를 찾자”라는 비즈니스(스포츠) 목적이 분명했기 때문에 프로젝트 방향이 흔들리지 않았습니다.
이 사례는 비정형 데이터를 잘 쓰려면 결국 세 가지가 필요함을 보여줍니다.
비정형 데이터를 기계가 이해할 수 있는 형태로 구조화하는 작업
우리 조직·도메인에 맞춘 AI 모델 튜닝
뚜렷한 비즈니스 목표
비정형 데이터 활용이 어려운 진짜 이유
그럼 왜 대부분의 기업은 이런 비정형 데이터를 잘 활용하지 못할까요? 기술이 없어서라기보다는, 데이터가 가진 근본적인 특성 때문입니다123.
첫 번째, 형식이 제각각입니다.
통화 기록은 오디오, 이메일은 텍스트, CCTV는 영상, 장비 로그는 반쯤 구조화된 문자열… 이런 데이터들을 한 번에 관리하고 분석하려면 서로 다른 파이프라인과 도구가 필요합니다.
두 번째, 품질과 신뢰도가 들쭉날쭉합니다.
녹취가 잘 안 들리는 통화
“ㅋㅋㅋ”만 적힌 고객 채팅
오래된 버전의 문서
중복 저장된 파일, 이름만 다르고 내용이 같은 문서들
이런 데이터까지 그대로 AI에 먹이면, 모델은 엉뚱한 패턴을 배우거나 정확도가 떨어집니다. 일부 기업이 “AI 정확도 별로더라”라고 말하는 배경에는 이런 데이터 노이즈 문제가 깔려 있습니다2.
세 번째, 도메인 특유의 언어와 맥락입니다.
금융, 제조, 의료, 공공, 게임 등 각 업종마다 쓰는 용어, 약어, 규제 문구, 내부 코드명이 다릅니다. 일반적인 언어 모델이나 컴퓨터 비전 모델은 이런 “내부 언어”를 모르는 상태에서 들어오는 데이터를 봅니다. 그러니 단순 질문–응답 정도는 해도, 진짜 중요한 판단이나 예측에는 한계를 보일 수밖에 없습니다1.
네 번째, 여기저기 흩어진 데이터 사일로입니다.
이메일 서버, 콜센터 시스템, 파일 서버, 클라우드 스토리지, ERP, CRM, 그리고 개인 PC까지. 데이터 출처마다 구조와 품질이 다르기 때문에, “이 중에서 AI에 정말 중요한 데이터는 무엇인가?”를 골라내는 것부터 난관입니다.
설상가상, 많은 기업이 “일단 다 모아서 AI 모델에 넣어 보면 알아서 잘해 주겠지”라는 기대를 갖는데, 현실은 정반대입니다. 준비되지 않은 데이터를 마구 집어넣을수록 모델 성능과 신뢰는 떨어집니다13.
AI를 위한 비정형 데이터 준비: 수집·정제·레이블링·중앙화
비정형 데이터를 제대로 쓰려면 “AI 데이터 준비 공정”이 필요합니다. 샬럿 호니츠 사례에서도 영상 데이터를 쓰기 전에 반드시 거친 단계가 바로 이것입니다1.
1단계: 무엇을, 왜 쓸지 먼저 정한다
많은 AI 프로젝트가 실패하는 이유 중 하나는, “우린 AI를 하고 싶다”는 욕망만 있고 “그래서 어떤 문제를 풀 건가?”가 없기 때문입니다13.
우선 다음 질문부터 명확히 할 필요가 있습니다.
이번 AI 프로젝트의 구체적인 목적은 무엇인가?
(예: 우수 후보자 발굴, 콜센터 재통화율 감소, 이탈 고객 조기 탐지)그 목표에 직접적으로 연결되는 비정형 데이터는 무엇인가?
(예: 통화 녹취, 고객 불만 메일, 서비스 로그, 영상 등)측정 가능한 성공 지표는 무엇인가?
(예: 영입 선수 성과, NPS 개선, 처리 시간 20% 단축, 비용 절감액 등)
이 단계에서 이미 70~80%의 데이터가 “지금 프로젝트에는 굳이 필요하지 않은 데이터”로 걸러지는 경우도 많습니다. 불필요한 데이터까지 다 다루려고 하면 비용과 복잡도만 급증합니다.
2단계: 데이터 수집과 중앙화 – ‘어디에 뭐가 있는지’부터 보이게 만들기
그 다음은 흩어진 비정형 데이터를 한 눈에 볼 수 있게 만드는 일입니다. 각 시스템마다 따로 저장된 파일과 기록들을 인덱싱하고, 최소한의 메타데이터(작성자, 생성일, 시스템, 유형 등)를 부여해 “데이터 지형도”를 그립니다.
이 단계에서 중요한 것은 “중앙 집중화”입니다. 꼭 저장소를 하나로 합치지 않더라도, 어디에 어떤 비정형 데이터가 있는지, 어떤 품질과 형식을 갖고 있는지 검색 가능한 카탈로그를 만드는 것이죠12.
이 작업이 안 되어 있으면, AI 프로젝트를 할 때마다 “필요한 데이터가 어딨지?”라고 묻고 각 부서를 전전해야 하는 악몽이 반복됩니다.
3단계: 정제·필터링 – 노이즈를 걸러내야 AI 정확도가 오른다
Komprise 같은 비정형 데이터 관리 솔루션들이 강조하는 포인트가 바로 “데이터 노이즈 제거”입니다2.
AI에 먹이는 데이터 중 상당수는 사실상 쓸모가 없거나, 오히려 정확도를 해치는 요소입니다. 예를 들어:
중복 파일
너무 오래된 기록
포맷이 깨진 파일
내용이 너무 짧아 의미 없는 텍스트
잘못된 권한으로 공유된 민감 데이터(PII 등)
이런 데이터는 과감히 제외하거나 별도로 격리해야 합니다.
또한 민감 정보(개인정보, 금융정보, 의료정보 등)는 AI 학습에 쓸지, 마스킹할지, 완전히 제거할지 명확한 정책을 세워야 합니다2. 그렇지 않으면 나중에 프라이버시·규제 이슈가 불거져 프로젝트 자체가 중단될 수 있습니다.
4단계: 레이블링·주석 작업 – AI가 ‘무엇을 보고 있는지’ 알려주기
샬럿 호니츠 사례에서 가장 중요한 기술적 과정이 바로 “영상 주석(Annotation)”입니다.
AI가 경기 영상을 이해하려면 먼저 각 선수의 위치를 표시하는 박스(바운딩 박스)를 그려주고, “이 박스는 선수 A, 저건 선수 B, 이 선이 코트 경계선”처럼 알려줘야 합니다1.
텍스트·이미지·오디오도 마찬가지입니다.
고객 메일: 불만 유형, 감정(분노/실망/문의), 제품 카테고리
콜센터 녹취: 상담 주제, 해결 여부, 이슈 원인
제조 설비 영상: 이상 패턴 여부, 고장 유형
문서: 계약서, 매뉴얼, 정책 문서 등 카테고리 태깅
이런 레이블링 작업을 통해 AI 모델은 패턴을 학습합니다.
물론 이 작업은 노동집약적이고 시간이 많이 들지만, 제대로 된 학습 데이터셋이 없으면 그 다음 단계에서 어떤 고급 모델을 가져다 써도 성능이 나오지 않습니다. 그래서 많은 기업이 외부 주석 팀이나 전문 업체, 혹은 Forward-Deployed Engineer(FDE) 모델을 활용해 이 부분을 강화하고 있습니다1.
5단계: 파이프라인 자동화 – 일회성이 아니라 ‘공장 라인’으로 만들기
AI 프로젝트 초기에 수작업으로 데이터 준비를 하는 것은 피할 수 없습니다. 하지만 이를 “지속 가능한 데이터 파이프라인”으로 바꾸지 못하면, 한 번 만든 모델은 금방 구식이 됩니다.
이상적인 그림은 이렇습니다.
다양한 소스에서 비정형 데이터가 지속적으로 수집되고
자동으로 메타데이터가 붙고
정책에 따라 필터링·클렌징·민감정보 처리 등이 수행되며
주석·레이블링이 반복적으로 추가되고
준비된 데이터셋이 학습·재학습 파이프라인으로 흘러 들어가는 구조
이렇게 되면 AI 모델은 계속해서 최신 데이터를 받아 “살아 있는 시스템”으로 진화할 수 있습니다.
도메인에 맞게 AI를 조정하라: FDE와 맥락 튜닝의 중요성
비정형 데이터를 준비했다고 끝이 아닙니다. 이제 AI 모델을 우리 조직의 언어와 맥락에 맞게 “현지화”해야 합니다.
일반적인 LLM이나 비전 모델은 범용적으로 잘 만들어졌지만, 실제 기업 환경에서는 다음과 같은 문제가 생깁니다13.
우리만 쓰는 약어와 코드를 이해하지 못함
특정 규제 문구나 컴플라이언스 요구사항을 반영하지 못함
영업 조직의 실제 프로세스를 모르기 때문에 쓸모없는 추천을 함
재무·법무 등에서 요구하는 형식과 단위를 맞추지 못함
그래서 요즘 주목받는 역할이 Forward-Deployed Engineer(FDE)입니다.
FDE는 단순 개발자가 아니라, 고객 현장에 ‘파견된’ 엔지니어로서 다음을 수행합니다1.
현업과 같이 앉아 실제 업무 화면, 데이터, 프로세스를 직접 관찰
“이 모델이 어떤 포맷으로 데이터를 뱉어야 사람들이 바로 쓸 수 있는지”를 디자인
필요한 레이블링·데이터 준비 작업을 설계하고, 주석 팀과 협업
여러 개의 기반 모델(Foundation Model)을 가져와 현장의 데이터로 미세조정(fine-tuning)
샬럿 호니츠 프로젝트에서도 농구 코트를 인식하고, 농구 규칙(아웃 오브 바운즈, 팀별 선수 수 등)을 이해하도록 여러 모델을 조합해 튜닝했습니다. 그 결과, 단순히 사람을 찾는 수준을 넘어 “농구 경기를 이해하는 시각 AI”를 만들 수 있었죠1.
엔터프라이즈 환경에서도 마찬가지입니다.
일반적인 컴퓨터 비전 모델에 “우리 공장에서 중요한 건 이 부품이고, 이 라인이 멈추면 안 된다”는 컨텍스트를 주입
언어 모델에 “우리 회사만의 상품명, 내부 프로젝트명, 주요 고객 목록, 규정 문서”를 학습시켜 맥락 이해도 향상
모델이 출력하는 결과가 바로 BI 시스템·CRM·ERP에서 쓰일 수 있도록 포맷을 맞춤
이 과정을 거치면 AI는 단순 헬퍼가 아니라, 실제 매출과 비용에 영향을 주는 “업무 파트너”가 될 수 있습니다.
시사점: ‘파일럿 무덤’을 피하려면 비정형 데이터 전략부터 세워라
여러 연구에서 기업 AI 프로젝트의 상당수가 ROI를 내지 못한다는 결과가 나옵니다. 어떤 분석에서는 95%가 눈에 보이는 수익을 못 낸다고까지 말합니다3.
이렇게 되는 공통적인 패턴이 있습니다.
“우린 AI가 필요하다”는 구호만 있고
어디에 쓸지, 어떤 데이터를 어떻게 준비할지에 대한 전략은 없으며
소비자용 AI 도구를 그대로 가져다가 엔터프라이즈에 얹어 보고
데이터 품질과 맥락 조정 없이 파일럿을 돌리다가
“정확도 별로네”, “현업이 안 쓰네요”를 외치며 흐지부지 끝나는 경우입니다43.
반대로, 앞에서 살펴본 성공적인 케이스는 다음 공통점을 갖습니다143.
첫째, 비즈니스 목표가 분명합니다.
“챔피언이 될 선수를 찾자”, “콜센터 재통화율을 줄이자”, “재고 정확도를 2%p 높이자”처럼 구체적입니다. “AI를 도입한다”가 아니라 “OO 성과를 올린다”에 초점이 있습니다.
둘째, 비정형 데이터를 세심하게 준비합니다.
어디에 어떤 데이터가 있는지 파악하고, 쓸 데이터와 버릴 데이터를 구분하고, 필요한 곳엔 레이블링과 주석을 달고, 민감 데이터는 처리 정책을 정합니다. ‘데이터 파이프라인’을 먼저 만들고 그 위에 AI를 얹습니다12.
셋째, AI 모델을 도메인에 맞게 튜닝합니다.
현업의 언어, 규칙, 워크플로를 모델에 녹이고, 결과물이 바로 활용될 수 있도록 포맷과 인터페이스를 설계합니다. FDE와 같은 역할이 중요한 이유입니다1.
넷째, 파일럿이 아니라 “작은 성공부터 확장하는 전략”을 씁니다.
한 번에 전사(全社)를 바꾸려 하지 않고, 데이터와 프로세스가 잘 정리된 한 영역에서 시작해, ROI가 검증되면 옆 영역으로 확장합니다3.
당장 실행할 수 있는 실용적인 조언을 정리하면 이렇습니다.
“우리 회사에 비정형 데이터가 가장 많이 쌓인 곳이 어디인가?”부터 리스트업해 보세요. 콜센터, 현장 영상, 계약서, 고객 메일함 등.
그 중 “비즈니스 임팩트가 가장 클 것 같은 한 곳”만 골라, 이번 분기 AI 파일럿의 타깃으로 삼으세요.
IT·데이터팀, 현업, 그리고 필요하다면 외부 파트너(FDE 역할)를 한 팀으로 묶어,
비정형 데이터 지도 그리기
필터링·정제 기준 합의
최소한의 레이블링 설계
성공 지표 설정
까지 한 번에 정의해 보세요.
그리고 나서야 “어떤 모델을 쓸까?”를 고민해도 늦지 않습니다.
엔터프라이즈 AI의 승패는 요즘 유행하는 모델 이름에 달려 있지 않습니다.
결국 승부는, 누구보다 먼저 자기 회사의 비정형 데이터를 이해하고, 정리하고, 맥락화한 조직이 가져가게 됩니다. 지금 여러분이 앉아 있는 회사의 파일 서버와 콜센터 녹취, 오래된 영상 아카이브 속에, 다음 샬럿 호니츠의 MVP가 숨어 있을지도 모릅니다.
참고
1Using unstructured data to fuel enterprise AI success | MIT Technology Review](https://www.technologyreview.com/2026/01/08/1129506/using-unstructured-data-to-fuel-enterprise-ai-success/)
2Structured vs. unstructured data: What's the difference? | IBM](https://www.ibm.com/think/topics/structured-vs-unstructured-data)
3Why 95% of enterprise AI projects fail to deliver ROI: A data analysis - Hastings Journal](https://www.hastingsjournal.news/premium/stacker/stories/why-95-of-enterprise-ai-projects-fail-to-deliver-roi-a-data-analysis,170005)
4AI for Enterprises: 7 Use Cases You Might Not Have Considered](https://markets.financialcontent.com/wral/article/accwirecq-2025-12-16-ai-for-enterprises-7-use-cases-you-might-not-have-considered)
