메인 콘텐츠로 건너뛰기

음성 AI 엔진 LiveKit, OpenAI 파트너로 10억달러 유니콘 등극

요약

“말로 컴퓨터를 조종하는 시대”가 온다는 이야기는 많았지만, 막상 서비스를 만들려면 생각보다 벽이 높습니다. 사람 목소리는 끊기면 바로 티가 나고, 대화는 실시간인데 서버는 종종 느리고, STT·LLM·TTS가 줄줄이 엮이면 지연이 눈덩이처럼 불어나거든요.

이 틈을 파고든 기업이 LiveKit입니다. 실시간 음성·비디오 AI 앱을 위한 인프라를 만들던 LiveKit이 기업가치 10억 달러(유니콘)를 인정받으며 1억 달러를 신규 유치했습니다.1 이번 글에서는 “LiveKit이 정확히 뭘 해서” 이런 평가를 받았는지, 그리고 음성 AI 시장이 어디로 가는지까지 쉽고 재미있게 정리해볼게요.

LiveKit 유니콘 소식 한 줄 요약: “음성 AI의 AWS”가 되고 있다

이번 라운드는 Index Ventures가 주도했고, Altimeter와 Redpoint 같은 기존 투자자에 더해 Salesforce Ventures, Hanabi Capital 등이 함께했습니다.2 숫자만 보면 “또 AI 투자네” 싶은데, 포인트는 LiveKit의 자리입니다.

LiveKit은 화려한 음성 비서 앱이 아니라, 그런 앱들이 ‘끊김 없이’ 돌아가도록 받쳐주는 실시간 인프라에 가깝습니다. 쉽게 말해 음성 AI가 대세가 될수록, 그 아래에서 트래픽과 지연 시간을 버텨줄 튼튼한 도로가 필요해지고, LiveKit이 그 도로를 깔고 있는 셈이죠.

OpenAI ‘ChatGPT 음성 모드’ 뒤에서 일하는 기술 파트너

LiveKit이 특히 주목받는 이유는 OpenAI의 ChatGPT 음성 모드에 기술을 제공하는 파트너로 알려져 있기 때문입니다.1 사용자 입장에서는 “말하면 바로 대답하는” 경험이 전부지만, 그 뒤에는 실시간 스트리밍, 말 끊김(인터럽트) 처리, 턴테이킹(누가 언제 말할 차례인지) 같은 까다로운 문제들이 있습니다.

이 영역은 단순한 API 호출과 다릅니다. 음성 대화는 ‘세션이 살아있는 상태’로 유지되어야 하고, 사용자가 말을 끊으면 모델도 자연스럽게 멈추거나 방향을 틀어야 합니다. LiveKit은 이런 실시간 상호작용을 앱 레벨에서 안정적으로 구성하도록 돕는 도구와 런타임을 함께 밀고 있습니다.2

고객 리스트가 말해주는 ‘진짜 시장’: xAI·테슬라부터 911까지

LiveKit 고객에는 xAI, Salesforce, Tesla 같은 이름이 포함됩니다.1 여기까지만 보면 “빅테크 납품” 성공담인데, 더 흥미로운 대목은 911 긴급 서비스 운영자나 정신 건강(멘탈 헬스) 제공자들도 고객군에 들어간다는 점입니다.1

이건 음성 AI가 ‘재미있는 기능’에서 ‘현장 운영 도구’로 이동하고 있다는 신호로 읽힙니다. 긴급 전화나 상담 업무는 지연 시간이 길면 치명적이고, 통화 품질이 흔들리면 신뢰가 무너집니다. 즉, LiveKit이 해결하는 문제가 “데모 수준”이 아니라 “운영 수준”의 문제라는 뜻이죠.

팬데믹의 Zoom 시대에 태어난 오픈소스가, 기업 SaaS로 커진 과정

LiveKit은 2021년, 회의 문화가 Zoom 중심으로 바뀌던 시기에 “오디오·비디오를 끊김 없이 전달하는” 오픈소스 프로젝트로 출발했습니다.1 시작은 무료 개발자 도구에 가까웠지만, 시간이 지나면서 큰 회사들은 “우리가 직접 운영하기보단 관리형 클라우드로 써야겠다”는 니즈가 커졌고요.1

그리고 마침 음성 AI 붐이 터졌습니다. 여기서 LiveKit의 방향 전환이 자연스럽게 이어집니다. 실시간 미디어 전송(원래 강점) 위에 음성 에이전트에 필요한 오케스트레이션과 운영 기능을 얹으면, 기업들이 바로 생산 환경으로 가져갈 수 있는 ‘플랫폼’이 되니까요.2

‘음성 AI 인프라’가 어려운 이유: 지연 시간은 한 번만 늦어도 끝

텍스트 챗봇은 1~2초 늦어도 “생각 중이구나” 하고 넘어가지만, 음성 대화는 0.5초만 어색해도 바로 로봇 티가 납니다. 게다가 음성 에이전트는 보통 STT(음성→텍스트), LLM(이해/추론), TTS(텍스트→음성)가 한 세트로 돌아가고, 여기에 턴 감지와 인터럽트 처리까지 더해집니다.2

문제는 각 단계가 서로 다른 제공자, 서로 다른 지역의 서버에서 돌 수 있다는 점입니다. 모델 API가 밀리거나 장애가 나면 대화가 뚝뚝 끊기고, 그 순간 사용자는 전화를 끊습니다. LiveKit이 “실시간 네트워크 + 에이전트 런타임 + 관측/운영”을 한 묶음으로 강조하는 이유가 여기에 있습니다.2

시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...

LiveKit의 10억 달러 가치 평가는 “음성 AI 앱이 더 많이 나오겠다”는 기대라기보다, “음성 AI를 운영 가능한 품질로 만들 인프라가 필요하다”는 확신에 가깝습니다. OpenAI 음성 모드 같은 대표 사례가 등장하면서, 이제 기업들은 PoC를 넘어 실제 고객 통화·상담·접수까지 자동화하려고 하니까요.

만약 여러분이 음성 AI 서비스를 기획 중이라면, 모델 성능만 보지 말고 ‘실시간 운영 체크리스트’를 먼저 적어보는 걸 추천합니다. 지연 시간, 끊김, 인터럽트, 통화(전화망) 연동, 장애 시 우회, 그리고 무엇보다 관측(리플레이·트레이스·전사 로그)이 준비되지 않으면 데모는 성공해도 런칭에서 무너질 가능성이 큽니다. 음성 AI 시대의 승자는 결국 “말을 잘하는 모델”만이 아니라, “말이 잘 통하게 만드는 엔진과 도로”를 가진 쪽일지도 모르겠습니다.

참고

1Voice AI engine and OpenAI partner LiveKit hits $1B valuation

2LiveKit's Series C: Towards the voice-driven era of computing

#LiveKit#음성 AI#실시간 인프라#지연 시간#ChatGPT 음성 모드

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.

Tilnote 를 사용해 보세요.

키워드만 입력하면 나만의 학습 노트가 완성돼요.

책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.

콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.