정신과 진료를 위한 로컬 STT 프로그램 개발기1

무엇을?
요즘 만들고 있는 건 STT(Speech to text) 프로그램입니다.
말하는 걸 바로 기록해주는 건데요. 사실 상용 서비스로 좋은게 많은데 저는 이걸 진료할 때 써보고 싶었습니다. 정신과니까 일할 때 이야기를 많이 듣는데 늘 들으면서 바로 기록을 남깁니다.
그런데 타이핑 하다보면 드는 생각이 점점 환자의 말을 그대로 옮기는게 아니라 일정한 나의 방식으로 적는다는 생각이 들더라구요. 단어를 바꾼다던지 중요하다고 생각되지 않는 내용은 적지 않는다던지. 정답이 있는 건 아니라고 생각합니다. 반드시 말하는 그대로를 기록에 남겨야할 필요는 없고요. 하지만 뭔가 미묘하게 이래도 될까 싶은 생각이 들어 만들어보게 되었습니다.
상용 서비스를 사용하지 못하는 이유
늘 장벽이 진료실 안에서 이뤄지는 기록은 어쨌든 의무기록이고 이걸 상용서비스를 통한다면 결국 외부로 나간다는 것인데 해도 될까 였습니다. 개인적으로는 바다에 물 한방울 떨어뜨리는 정도 아닐까 싶긴 하지만 그래도 지킬건 지켜야죠.
이런 경우 로컬 모델이라는 걸 활용할 수 있습니다. 보통 큰 회사들에서 외부로 나가면 안되는 정보들이 있기 때문에 ChatGPT라던지 클로드 같은 상용 서비스를 쓰지 않고 이런 로컬 모델을 사용한다더라구요. 처리하는 ai를 내 컴퓨터에 다운 받아서 그걸로 무언가 하는 겁니다. 인터넷이 연결되어 있지 않아도 작동하니까 기록이 외부로 나갈 일은 없겠네요.
테스트
만드는건 클로드코드로 뚝딱.
여전히 UI는 신경쓰지 않고 간단한 형태로 하나 만들어서 처음 테스트해봤습니다. 이제 여기서 좀 다듬어야겠지만 생각보다 괜찮을지도?
역사적(?)이 될지도 모를 첫 테스트 성공 순간을 찍어뒀습니다.
아직 많이 써보진 않았지만 묘한 느낌이 있습니다. 바로바로 타이핑 하지 않고 이야기를 듣고 있으니까 느낌이 좀 다르네요. 좀 더 대화에 집중하게 되고 이야기 하면서 과거 기록들도 좀 같이 읽어보고. 생각보다 타이핑 하는게 주의력을 많이 빼았아가고 있었나 싶습니다. 이런게 옳게 된 의료 AI 사용의 미래인가?라는 혼자만의 생각도 해봤습니다.
아직은 정확도가 떨어지고 전사에 오래 걸려서 후처리에 들어가는 시간이 더 많지만 또 금방금방 최적화 되지 않을까 합니다.

