Sesame가 CSM-1B AI 음성 생성기를 오픈 소스로 공개합니다.

2025-03-15

AI 회사 Sesame이 CSM-1B 기본 모델을 오픈 소스로 공개함.
해당 코드는 Github에서 이용 가능하며, Apache 2.0 라이선스 하에 상업적 사용에도 제약이 적음.
CSM-1B는 단 1분의 소스 오디오로 음성을 복제할 수 있어 다양한 형태의 음성 기반 사기 가능성 있음.
Sesame는 안전 가이드라인을 통해 허가되지 않은 음성 복제, 오도성 콘텐츠 제작 등의 “유해한” 활동을 피할 것을 요청함.
이 오픈 소스 공개는 AI 안전성에 중요한 영향을 미치며, 경쟁 우위를 유지하기 어려운 상황을 나타냄.
세부 사항은 미포함되었으나, OpenAI가 유사 기술을 공개하지 않은 이유는 안전 문제 때문임.
Sesame AI의 신모델은 의도적으로 완벽성을 생략하여 더 현실감 있는 대화를 지향함.
이 모델은 미세한 요소들(미세한 멈춤, 강조 변형, 웃음 등)이 특징임.
시스템은 중간 구절 수정, 방해에 대한 사과, 중간 단어 삽입 등 인간 행동을 시뮬레이트함.
CSM은 음성 처리를 위해 이분 구조의 트랜스포머 아키텍처를 사용하며, 음소와 음향 토큰을 함께 처리함.
이 모델은 100만 시간의 영어 오디오 데이터를 통해 훈련되었으며, 최대 2,048개의 토큰을 처리할 수 있음.
블라인드 테스트에서 참가자들은 짧은 대화에서는 CSM과 실제 인간을 구분하지 못했으나, 긴 대화에서는 여전히 한계가 있음.
Sesame는 향후 수개월 내에 연구 주요 구성 요소를 오픈 소스로 공개할 계획임.
전 세계 20개 이상의 언어로 확장을 계획 중이며, 완전 이중 통신이 가능한 시스템을 개발 중임.
Sesame AI는 Brendan Iribe와 그의 팀이 설립하였고, Andreessen Horowitz가 주도한 상당한 시리즈 A 자금을 확보함.
데모는 현재 이용 가능함.

4the-decoder.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기