Kyutai의 Moshi 음성 AI

Moshi, 실시간 음성 AI의 등장

Qai의 CEO인 Patrick과 그의 팀이 개발한 Moshi는 최초의 실시간 음성 AI로, AI 커뮤니케이션의 새 시대를 열었습니다. 오픈소스 기반의 멀티모달 모델인 Moshi는 텍스트와 음성을 동시에 처리하며 실시간 상호작용이 가능한 점이 특징입니다.

기존 GPT-40와 많이 비교가 될텐데요. 실시간 대화하는 모습이 정말 인상적입니다. 실제로도 데모로 사용해 볼 수 있습니다.

비영리 회사에서 만든 것이고 용어는 일본어같으나 프랑스 회사라고 합니다.

오후 다섯씨님 유튜브 영상을 보면 GPT-4o와 기싸움을 하면서 대화를 하는 것을 볼 수 가 있습니다. 꽤 재밌으니 한번 참고해보시면 좋겠습니다.

이는 음성을 text로 거치지않고 바로 음성으로 변환하는 그런 모델을 만들었기 떄문에 가능한 부분이라고 생각합니다.

이러한 분야에서 좀더 발전이 있지 않을까 합니다.

Kyutai의 Moshi 음성 AI image 1

Moshi는 단순히 기계와의 대화를 개선하는 것을 넘어, 정보와 상호작용하는 방식을 근본적으로 변화시킬 잠재력을 가지고 있다고 생각합니다. 로봇과도 많은 관련이 있을 것 같구요.

점점 이러한 기술들이 출현하고 이것들이 소형화 됨으로서 온디바이스에서 실행되고 하면 점점 빠른 기술의 융합된 모습들을 볼 수 있을 것으로 기대되기도 합니다.