검색
검색
공개 노트 검색
회원가입로그인

가장 빠른 음성 transcription AI - Whisper JAX

30분짜리 음성을 30초만에 받아쓰기 (transcribe) 할 수 있는 인공지능 voice transcription 이다. Whisper 와 Jax 를 결합해서 포팅한 버전이다.

OpenAI whisper 는 인공지능을 활용한 오픈소스 Speech to Text 서비스이다.

JAX (잭스) 는 구글에서 만든 기술로 머신러닝을 위한 고성능 연산을 쉽게 하기 위해 만들어진 라이브러리이다. GitHub - google/jax: Composable transformations of Python+NumPy programs: differentiate, vectorize, JIT to GPU/TPU, and more

이 둘을 활용해서 위스퍼를 가장 빠르게 구동할 수 있게 만들어 놓은 것이 Whisper JAX 이다.

GitHub - sanchit-gandhi/whisper-jax

huggingface의 voice 분야 엔지니어가 구축한것 같다.

아래 허깅페이스 링크에서 시험 사용해 볼 수 있다. : Whisper JAX - a Hugging Face Space by sanchit-gandhi

Kaggle에서도 노트북을 Edit my copy 한 후 돌려볼 수 있다.

캐글은 전세계 데이터 과학자들이 코드를 올리고 경쟁을 할 수 있는 플랫폼이다. 노트북을 돌려볼 수 있으며 회원 가입 한 후 전화번호 인증을 하면 TPU를 사용할 수 있다. TPU는 일주일에 20시간까지 무료로 돌릴 수 있다.

Kaggle 노트북 : Whisper JAX TPU

스크린샷 2023-04-24 오후 2

Notebook options 에서 TPU VM v3-8을 선택 후 돌릴 수 있다.

만약 실행이 안된다면 kaggle 오른쪽 옵션에서 인터넷 연결이 되어 있는지 확인해 보자. 파이썬 패키지 등을 받아 올 때 필요하다.

스크린샷 2023-04-24 오후 2

서버에 직접 세팅하려면 jax가 인스톨된 TPU가 있어야 해서 조금 까다로울 것 같기는 하다. 사용법은 어렵지 않다.

스크린샷 2023-04-24 오후 3

실제로 내가 캐글에서 돌려본 화면이다. 30분짜리 오디오가 정확하게 35.3초 걸렸다.

whisper로 실시간 음성 노트는 안될거라고 생각했는데 충분히 가능할 것 같다.

조회수 : 2803
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기