가장 빠른 음성 transcription AI - Whisper JAX
30분짜리 음성을 30초만에 받아쓰기 (transcribe) 할 수 있는 인공지능 voice transcription 이다. Whisper 와 Jax 를 결합해서 포팅한 버전이다.
OpenAI whisper 는 인공지능을 활용한 오픈소스 Speech to Text 서비스이다.
JAX (잭스) 는 구글에서 만든 기술로 머신러닝을 위한 고성능 연산을 쉽게 하기 위해 만들어진 라이브러리이다. GitHub - google/jax: Composable transformations of Python+NumPy programs: differentiate, vectorize, JIT to GPU/TPU, and more
이 둘을 활용해서 위스퍼를 가장 빠르게 구동할 수 있게 만들어 놓은 것이 Whisper JAX 이다.
GitHub - sanchit-gandhi/whisper-jax
huggingface의 voice 분야 엔지니어가 구축한것 같다.
아래 허깅페이스 링크에서 시험 사용해 볼 수 있다. : Whisper JAX - a Hugging Face Space by sanchit-gandhi
Kaggle에서도 노트북을 Edit my copy 한 후 돌려볼 수 있다.
캐글은 전세계 데이터 과학자들이 코드를 올리고 경쟁을 할 수 있는 플랫폼이다. 노트북을 돌려볼 수 있으며 회원 가입 한 후 전화번호 인증을 하면 TPU를 사용할 수 있다. TPU는 일주일에 20시간까지 무료로 돌릴 수 있다.
Kaggle 노트북 : Whisper JAX TPU
Notebook options 에서 TPU VM v3-8을 선택 후 돌릴 수 있다.
만약 실행이 안된다면 kaggle 오른쪽 옵션에서 인터넷 연결이 되어 있는지 확인해 보자. 파이썬 패키지 등을 받아 올 때 필요하다.
서버에 직접 세팅하려면 jax가 인스톨된 TPU가 있어야 해서 조금 까다로울 것 같기는 하다. 사용법은 어렵지 않다.
실제로 내가 캐글에서 돌려본 화면이다. 30분짜리 오디오가 정확하게 35.3초 걸렸다.
whisper로 실시간 음성 노트는 안될거라고 생각했는데 충분히 가능할 것 같다.