진료실 음성 데이터 전사와 요약 자동화 실험 후기

바클라바
•조회수 8
요약
진료실 면담 음성 데이터를 전사하는 프로젝트가 생각보다 지지부진 하네요. 정확하게 화자 분리하는 건 포기하고 전사 내용을 바탕으로 의미있는 내용만 정리하는 쪽으로 방향 전환을 했는데 그건 또 너무 수준이 떨어집니다.
로컬 모델이라 전사에 속도도 오래 걸리고 우리나라 특성상 빠른 진료가 이루어지는데 지금 정도 전사 속도에다 그 전사 데이터를 LLM으로 요약까지 한다면 진료 다 끝나고 정리하면서 하나하나 기록을 사후에 넣어야 할 거 같아요.
대략 20초 정도 되는 음성 데이터의 전사에 평균 30~40초 정도 걸리는 것 같습니다. 데이터가 1분이 넘어가면 오류도 잘 생기고요.
전사는 openai/whisper-large-v3를 쓰고 있습니다. 한국어 파인튜닝 모델(ghost613/whisper-large-v3-turbo-korean)를 잠깐 써봤는데 품질이 더 떨어졌고 몇번 모델을 바꿔보는 과정을 거쳤는데 이제 전사 품질은 70%정도 만족스러운데...
전사 데이터 정리하는 건llama3.1:8b, gemma2:9b 이렇게 둘을 써봤는데 하나는 빠른 대신 정확도가 부족하고 하나는 정확도는 좀 나은데 할루시네이션이 좀 있습니다.
사실 뭐가 문제일까 참 고민인데 애초에 전사 데이터의 품질이 70%수준이라 요약한 결과물도 별로일지 모델의 문제일지....Garbage In, Garbage Out인가 하고 생각중입니다.
이런 고민하다 몇 주가 흘러버렸네요.
#음성 전사#의료 데이터#모델 성능#요약 자동화#데이터 품질
