AI가 억양을 듣는 방법: 억양 클러스터의 가청 시각화
-
기사 개요: AI와 음성을 통한 세계 영어 억양 탐방을 다룬 기사입니다. BoldVoice 앱 사용자가 다양한 억양과 언어를 어떻게 인식하고 이해하는지에 대한 연구 결과를 공유합니다.
-
기술적 접근: HuBERT라는 사전 학습된 오디오 모델을 사용하여 비원어민 영어 발언 및 억양을 식별하기 위한 데이터세트로 미세 조정하였습니다. 9440만 개의 파라미터를 가진 모델로, 원시 오디오를 입력으로 받아 억양을 분류합니다.
-
데이터셋: 3000만 건의 발언과 25000시간의 영어 녹음을 포함한 대규모 억양 데이터세트를 사용합니다. 모델은 A100 GPU 클러스터에서 약 일주일간 훈련되었습니다.
-
시각화: 억양 클러스터를 관찰하기 위해 768차원 공간에서 3차원 공간으로 UMAP 차원 축소 기법을 사용하여 시각화를 진행했습니다. 각 포인트는 예측된 억양 레이블에 따라 색상이 구분됩니다.
-
프라이버시 보호: 목소리 표준화 모델을 통해 원본 녹음을 익명화하고, 중립적인 목소리로 투사하여 억양 차이를 듣기 쉽게 만듭니다.
-
탐색 요청: 시각화된 공간을 탐색하며 억양 클러스터가 지리적 근접성, 이주, 식민지 역사에 의해 영향을 받을 수 있음을 보여줍니다.
-
흥미로운 발견: 오스트레일리아와 베트남의 클러스터가 가깝게 나타났으며, 프랑스, 나이지리아, 가나 클러스터도 영향을 받았습니다. 이것은 모델이 음성만으로 본 명확한 억양 차이를 잘 분류했음을 나타냅니다.
-
결론: 이 연구는 영어를 학습하는 사용자들이 더욱 정확하고 자신감 있게 영어를 구사할 수 있도록 발음 도구 개발에 기여할 수 있는 가능성을 보여줍니다. AI, 음성 ML 엔지니어, 음운학자 등에게 접촉을 요청하고 있습니다.
-
결과 공유 요청: 향후 다룰 주제에 대한 제안을 요청하며, 이러한 관계의 발견에 대해 자유롭게 의견을 나누기를 바랍니다.