의료 현장에서의 STT와 화자 분리 현실 이해

만들고 싶었던 것

T: 잘 지내셨습니까?

P: 너무 피곤해요.

T: 수면 시간은 어떻게 되나요?

P: 4시간 잤습니다.

이런 형태의 상담 기록을 STT로 만들고 싶었습니다. 그리고 여기서 더 나아가 한 공간에서 10명 정도가 참여하여 진행되는 집단 프로그램에서도 이런 기록을 자동화 한다면 현장에서 업무 부담을 줄일 수 있지 않을까 구상했습니다.

로컬 모델을 사용한 전사 프로그램까지는 클로드 코드로 어렵지 않게 만들었습니다. 이미 허깅페이스에 한국어 튜닝된 좋은 ai모델들이 많이 나와있어서 잘 가지고 오기만 하면 됩니다.

문제는 이 데이터를 바탕으로 화자를 분리해야 하는데...결론은 '어렵다.' 입니다. 아래는 이 결론에 다다르게 된 것에 대한 생각을 정리한 것입니다.

핵심 요약

의사-환자 대화처럼 실제 현장의 음성을 STT로 기록할 때, 화자 분리는 생각보다 기술적 난도가 높습니다.
단순히 좋은 마이크나 모델을 쓰는 수준을 넘어, 마이크 구성과 영상 정보까지 포함한 복합적인 접근이 필요합니다.
현실적으로는 화자 구분을 완벽히 하기보다, 전체 발화를 전사한 뒤 후처리로 의미 있는 기록을 뽑아내는 전략이 더 실용적일 것 같습니다.

화자 분리가 어려운 진짜 이유

사람은 목소리 톤만이 아니라, 누가 입을 열었는지, 얼굴 방향과 몸짓까지 함께 보면서 화자를 구분합니다.
반면 STT 시스템은 기본적으로 귀에 해당하는 오디오 정보에만 의존하기 때문에, 서로 비슷한 환경에서 말하면 누구의 말인지 구별하기 어려워집니다.

특히 같은 공간에서 여러 사람이 끼어들고, 겹쳐서 말하고, 말하는 위치도 바뀌는 상황에서는 사람조차 순간적으로 헷갈립니다.
이처럼 인간도 여러 단서를 동원해서 겨우 하는 일을, 오직 소리 데이터만 가지고 처리하려니 기술적 장벽이 생깁니다.

STT 기술과 화자 분리의 한계

일반적인 STT는 "무엇을 말했는가"를 잘 알아듣도록 설계되어 있고, "누가 말했는가"를 구분하는 것은 별도의 문제입니다.
화자 분리는 보통 목소리 특징을 분석해 화자별로 클러스터를 나누는 방식인데, 짧은 발화, 겹치는 대화, 비슷한 음색이 섞이면 정확도가 급격히 떨어집니다.
따라서 "사람 목소리가 다르니 AI가 쉽게 구분하겠지"라고 생각했지만 그렇지 않았네요.

마이크 환경과 하드웨어적 제약

기술적으로 화자 분리를 잘 하려면 보통 지향성 마이크, 여러 채널의 마이크 배열, 혹은 각 사람마다 개별 마이크가 필요합니다.
이렇게 해야 각 화자의 음성 신호를 물리적으로 어느 정도 분리한 뒤, 그 신호를 STT와 화자 분리 모델에 입력할 수 있습니다.

하지만 진료실에서 환자에게 핀마이크를 달고, 의사도 따로 장비를 착용시키는 것은 현실성이 떨어집니다.
하물며 여러 명이 참여하는 집단 프로그램이라면, 참가자 전원에게 마이크를 지급하고 관리하는 것 자체가 운영적으로 부담이 큽니다.

집단 프로그램 STT 자동화의 난점

10명 내외가 한 방에서 이야기하는 집단 프로그램을 자동으로 전사하는 목표는, 기술적으로 훨씬 더 까다롭습니다.
여러 사람이 동시에 말하거나, 속삭이듯 말하거나, 웃음·탄성·잡담이 섞이는 등 음성 환경이 극도로 복잡해지기 때문입니다.

이 정도 상황에서 "누가 어떤 말을 언제 했는지"까지 정확히 분리하려면, 사실상 인간이 눈과 귀를 다 사용하는 수준의 정보가 필요합니다.
따라서 장기적으로는 음성뿐 아니라 영상까지 결합한 멀티모달 분석이 필요하지만, 당장 현실적인 솔루션으로 보기엔 부담이 큽니다.

화자 구분 없는 전사 + 후처리 전략

현실적인 타협안은, 화자를 명확히 구분하려 하기보다 우선 전체 대화를 잘 전사하는 데 집중하는 방식입니다.
즉, 한 명이 말하든 여러 명이 말하든 "말의 내용"을 최대한 정확히 텍스트로 옮기고, 그다음 단계에서 이 텍스트를 가공하는 전략입니다.

의료 기록 관점에서는 "네네, 음, 아" 같은 불필요한 추임새는 제거하고, 정신과 평가나 경과 기록에 필요한 정보만 남기면 됩니다.
이를 위해 프롬프트나 후처리 규칙을 잘 설계해, 전사된 원문에서 핵심 증상, 경과, 계획 등을 자동으로 정리해 주는 방식이 가장 실용적입니다.

인사이트

현 시점에서 의료 환경에 STT를 적용할 때, 완벽한 화자 분리와 역할별 대화 스크립트를 기대하는 것은 과도한 목표에 가까운 것 같습니다.
오히려 "화자를 구분하지 않더라도 임상적으로 필요한 정보가 자동으로 잘 추려지는가"를 기준으로 시스템을 설계하는 편이 효과적입니다.

실무에서는 단일 마이크로 깨끗한 녹음 환경을 확보하고, STT 정확도를 우선 개선한 뒤, 그 결과를 구조화하는 프롬프트·후처리 파이프라인을 다듬는 것이 현실적인 로드맵이라 판단했고 이쪽으로 해볼 생각입니다.
집단 프로그램처럼 복잡한 상황은 똑똑한 분들이 더 좋은 무언가를 만들어 주실 때까지 기다려야 겠네요.

그래도 요즘 바이브코딩 툴이 있어서 이런 만들고 싶은게 생겼을때 어설프게라도 직접 시도해보고 어떤 부분이 제한점인지 직접 경험으로 알 수 있어서 좋은 것 같습니다.