메인 콘텐츠로 건너뛰기

메타 SAM Audio, 클릭 한 번으로 소리를 쪼개는 시대가 왔다

콘서트 영상을 찍었는데 주변 사람들의 소리 때문에 정작 기타 소리는 잘 안 들려서 아쉬웠던 경험, 한 번쯤 있으실 겁니다. 이제 메타의 새로운 AI 모델 SAM Audio를 쓰면, 그 기타 소리만 ‘쏙’ 뽑아낼 수 있습니다. 마우스로 기타리스트를 한번 클릭하거나, “기타 사운드”라고 텍스트로 적어주기만 하면 말이죠.

이 글에서는 메타가 이미지·영상에 쓰던 Segment Anything 접근을 어떻게 오디오에까지 확장했는지, SAM Audio가 무엇을 할 수 있고 어디까지 가능한지, 그리고 크리에이터·편집자·개발자 입장에서 어떤 변화를 가져올지 정리합니다.

SAM Audio란? “소리용 Segment Anything” 한 번에 이해하기

SAM Audio는 메타가 공개한 “소리 분리 전용 통합 AI 모델”입니다. 한 트랙에 뒤엉켜 있는 여러 소리들 가운데 내가 원하는 소리만 뽑아내거나 제거해 주는 역할을 합니다. 중요한 포인트는 이걸 전문 오디오 엔지니어처럼 파형을 분석해서 하는 게 아니라, 프롬프트로 한다는 점입니다.

메타가 공식 블로그에서 밝힌 SAM Audio의 특징은 세 가지입니다12.

첫째, 세계 최초의 통합 멀티모달 모델이라는 점입니다. 기존에는 “보컬 제거용”, “노이즈 제거용”, “배경음 제거용”처럼 목적별로 따로 도구를 써야 했습니다. SAM Audio는 하나의 모델이 텍스트, 영상 클릭, 시간 구간 표시 세 가지 입력을 모두 이해해, 다양한 상황에서 소리를 분리할 수 있도록 설계됐습니다13.

둘째, 실시간보다 빠르게 동작합니다. 모델 크기는 5억 ~ 30억 파라미터급으로 구성돼 있고, 메타는 약 0.7배속(real-time factor 0.7) 수준으로, 재생 속도보다 빠른 처리 속도를 달성했다고 설명합니다2. 즉, 길이 10분짜리 오디오를 10분 이상 돌려 기다릴 필요가 없는 수준이라는 의미입니다.

셋째, 일반 사용자도 쓸 수 있도록 접근성을 열어두었다는 점입니다. 코드와 가중치가 공개됐고, 누구나 웹에서 테스트할 수 있는 Segment Anything Playground에 SAM Audio가 올라와 있습니다13. 별도의 유료 플러그인 없이, “이 소리만 빼줘”라고 써 넣거나 클릭만 해도 결과를 확인할 수 있습니다.

세 가지 프롬프트 방식: 텍스트, 클릭, 타임라인

SAM Audio가 진짜 강력해지는 부분은 컨트롤 방식입니다. DAW(디지털 오디오 워크스테이션)나 영상 편집툴에 익숙하지 않은 사람도 몇 번만 만져보면 쓸 수 있을 정도로 직관적으로 설계되어 있습니다.

1. 텍스트 프롬프트: “개 짖는 소리만 지워줘”

첫 번째 방식은 텍스트 프롬프트입니다. 아주 심플합니다. 오디오나 비디오 파일을 올린 뒤, 검색하듯이 원하는 소리를 입력합니다.

예를 들어:

  • “dog barking”

  • “traffic noise”

  • “singing voice”

이런 식으로 입력하면 SAM Audio가 해당하는 소리만 찾아서 분리하거나 제거합니다123.

이 방식이 편한 이유는, 소리에 대한 기술적인 지식을 몰라도 된다는 점입니다. 주파수 대역, EQ, 노치 필터 같은 개념을 전혀 몰라도, 그냥 “지워줬으면 하는 소리”를 자연어로 설명하면 됩니다. AI가 그 의미를 이해하고, 미리 학습한 패턴과 비교해 타겟 소리를 찾아냅니다.

2. 비디오 위 클릭: “저 사람 목소리만 추출”

두 번째는 시각적 프롬프트(visual prompting) 방식입니다. 오디오만 있는 파일이 아니라, 영상이 함께 있는 경우 특히 빛을 발합니다.

원리는 이렇습니다.

  1. 영상 위에서 소리가 나는 사람이나 물체를 클릭합니다.

  2. SAM Audio는 클릭된 객체와 해당 시점의 오디오를 연결해서,

  3. 그 사람이 내는 소리만 분리하거나 제거합니다1423.

예를 들어 밴드 라이브 영상을 찍었는데, 기타 솔로만 따로 듣고 싶다면 기타리스트를 클릭하면 됩니다. 말로 설명하기 어려운 소리라 해도, “소리를 내는 주체”를 영상에서 지목할 수 있으면 충분합니다.

이 기능 뒤에는 PE-AV(Perception Encoder Audiovisual)라는 핵심 모듈이 있습니다. 이 인코더는 영상 프레임과 오디오 신호를 시간 축 기준으로 촘촘하게 맞추어, “이 프레임의 이 사람 → 이 타이밍의 이 소리”를 연결해 이해합니다23. 메타에 따르면 이 모듈은 1억 개 이상의 비디오로 학습되었습니다3.

즉, SAM Audio는 단순히 소리만 듣는 게 아니라, “보면서 듣는 AI”에 가깝습니다.

3. 시간 구간(span) 프롬프트: “이 구간에서 나는 소리만 찾아”

세 번째 방식은 스팬 프롬프트(span prompting)입니다. 메타가 “업계 최초”라고 강조하는 기능입니다123.

영상이나 오디오의 타임라인을 보면서, 타겟 소리가 시작되는 구간을 쓱 드래그해서 표시하는 방식입니다.

예를 들면 이렇습니다.

  • 회의 녹음 파일에서, 어느 순간부터 키보드 타이핑 소리가 거슬리기 시작했다면 그 구간을 드래그합니다.

  • SAM Audio는 그 시간대에서 반복되는 타이핑 소리를 학습해, 전체 파일에서 같은 패턴을 찾아 제거하거나 분리합니다142.

이 방식은 소리 이름을 딱 떠올리기 어렵거나, 영상 안에서 클릭할 대상도 없을 때 유용합니다. 그냥 “이때부터 들리는 그 소리”처럼 시간을 기준으로 가리키는 것만으로도 AI가 패턴을 스스로 찾아냅니다.

세 가지 프롬프트는 서로 조합도 가능합니다.

예를 들어 “이 시간 구간에서 들리는 dog barking만 전체에서 다 지워줘”처럼 스팬 + 텍스트를 동시에 주면 더 정확하게 잡아낼 수 있습니다25.

SAM Audio를 가능하게 한 기술 구조: PE-AV와 벤치마크

SAM Audio는 “사용자는 쉽게, 내부는 복잡하게”라는 구조를 따릅니다. 겉으로는 텍스트/클릭/드래그로 끝나지만, 내부에서는 꽤 진지한 연구가 들어가 있습니다.

PE-AV: 영상·소리를 동시에 이해하는 ‘귀 달린 시각 모델’

먼저 핵심 구성요소인 PE-AV(Perception Encoder Audiovisual)입니다.

이 인코더는 원래 메타가 이미지·영상 이해를 위해 만든 Perception Encoder를 확장해, 오디오까지 함께 인코딩할 수 있도록 만든 버전입니다253.

하는 일은 크게 두 가지입니다.

  1. 영상 프레임에서 사람·물체·장면을 인식하고,

  2. 같은 시점의 오디오 신호와 정확하게 맞춰 공통 표현(embedding) 공간으로 보냅니다.

이렇게 되면 텍스트, 영상 클릭, 시간 구간 같은 서로 다른 입력이 같은 벡터 공간에서 만날 수 있게 됩니다. 그래서 “영상에서 기타리스트를 클릭”해도, “dog barking”이라고 텍스트로 써도, 모델은 둘 다 같은 구조로 이해하고 소리를 찾을 수 있습니다25.

1억+ 비디오 학습과 모델 크기

PE-AV는 1억 개 이상의 비디오로 학습된 것으로 알려져 있습니다3. 이는 단순한 음성·노이즈 데이터셋을 넘어, 실제 사람들이 촬영한 다양한 현실 세계 영상을 통해 학습되었다는 뜻입니다. 결과적으로 실내 대화, 야외 소음, 콘서트, 브이로그 등 현실적인 상황에서의 소리 분리 능력이 강화됩니다.

SAM Audio 자체는 5억(500M) ~ 30억(3B) 파라미터급으로 여러 버전이 있습니다253.

  • 작은 모델: 저사양 GPU, 단순 음성 분리나 팟캐스트 노이즈 제거에 적합

  • 큰 모델: 음악, 악기, 복잡한 사운드 효과 분리에 더 강력하지만, GPU 메모리를 많이 사용

실시간보다 빠르게 동작한다는 점을 보면, 향후에는 실시간 스트리밍 처리보청기·라이브 방송 필터에도 써 볼 수 있는 여지가 있습니다25.

SAM Audio-Bench & SAM Audio Judge: 성능을 어떻게 믿을 수 있나

메타는 이번에 모델만 낸 것이 아니라, 평가 도구까지 같이 공개했습니다.

두 가지가 핵심입니다.

  1. SAM Audio-Bench

    • 음성, 음악, 효과음 등 여러 도메인을 아우르는 벤치마크입니다.

    • 기존 연구들이 합성 믹스(깨끗한 소스들을 인위적으로 섞은 데이터)를 쓴 것과 달리, SAM Audio-Bench는 입·출력 모두 실제 오디오·비디오를 기준으로 합니다253.

    • 덕분에 “현실적인 환경에서 정말 잘 되는가?”를 더 정확히 측정할 수 있습니다.

  2. SAM Audio Judge

    • 일종의 자동 심사위원 모델입니다.

    • “정답 소스 트랙”이 없는 상황에서도, 분리된 소리가 얼마나 자연스럽고 정확한지 평가할 수 있습니다53.

    • 사람의 청각적 판단(품질, 왜곡, 잔여 노이즈 등)을 모사하도록 설계되어, 연구자들이 매번 청취 테스트 패널을 모집하지 않고도 모델과 설정을 비교할 수 있습니다.

이런 평가 도구 덕분에 “우리 모델이 최고다”라는 주장에 대해 커뮤니티가 수치와 공통 벤치마크로 검증할 수 있는 기반이 만들어진 셈입니다.

실제 활용 시나리오: 크리에이터·편집자에게 뭐가 달라질까?

이제 이 기술이 실제로 우리에게 어떤 변화를 가져올지, 몇 가지 대표 사례로 정리해 보겠습니다.

1. 유튜브·인스타·틱톡 영상 제작

콘텐츠 크리에이터에게 가장 실제적인 변화는 “오디오 정리 시간이 줄어든다”는 점입니다.

  • 브이로그 촬영 중, 옆 테이블 대화 소리가 너무 크게 들어간 경우
    → “background conversation” 제거, 또는 내 목소리만 분리

  • 라이브 버스킹 영상에서, 특정 곡만 기타 소리 더 키우고 싶을 때
    → 기타리스트를 클릭해서 해당 트랙만 추출 후, 볼륨 업

지금까지는 이런 작업을 하려면 수동으로 컷 편집을 하거나, 상당히 비싼 전문 플러그인을 써야 했습니다. SAM Audio는 웹 기반 Playground에서 바로 테스트해 볼 수 있고, 추후 편집툴 플러그인으로도 쉽게 들어갈 수 있는 구조라 접근성이 훨씬 높습니다12.

2. 팟캐스트·인터뷰 편집

장시간 녹음 파일에서 특정 소리만 골라내는 건 꽤 피곤한 작업입니다.

  • 전체 에피소드에 반복되는 에어컨 소음, 키보드 타건, 책상 두드리는 소리 제거

  • 실외 인터뷰에서 일정 구간마다 지나가는 차량 소음만 줄이기

  • 공동 진행자의 목소리만 분리해, 클립 하이라이트 만들기

이런 작업은 텍스트 + 스팬 프롬프트 조합이 특히 편리합니다. “이 구간에서 들리는 저 소리(dog barking/keyboard typing)를 전체에서 지워줘” 같은 식으로요12.

향후에는 팟캐스트 편집툴에 SAM Audio가 내장된다면, “노이즈 정리”에 쏟던 시간이 상당히 줄어들 가능성이 큽니다.

3. 영화·드라마·게임 사운드 포스트 프로덕션

전문적인 영상 제작에서는 이미 다양한 오디오 분리 기술을 쓰고 있지만, 여전히 수동 작업 비중이 상당합니다. SAM Audio는 이런 흐름에서 특히 “프리뷰용, 초기 러프 분리용”으로 빠르게 활용될 수 있습니다.

  • 촬영 현장 녹음에서 배우 대사만 분리 후, ADR(대사 재녹음) 비교

  • 현장 효과음과 후반 작업에서 넣은 효과음을 분리해, 조합 재조정

  • 특정 소리만 변주해 게임용 사운드 라이브러리로 재활용

물론 초정밀 작업에서는 여전히 사람의 귀와 손이 최종 결정을 하겠지만, SAM Audio는 “초안 만들기” 단계에서 상당한 시간을 절약해 줄 수 있는 도구가 될 것입니다.

4. 접근성: 보청기·보조기술과의 결합 가능성

메타는 미국의 보청기 제조사 Starkey, 그리고 장애인 창업가 액셀러레이터 2gether-International과 파트너십을 맺고 SAM Audio의 접근성 응용을 탐색 중입니다423.

아이디어를 조금만 확장해 보면 이런 그림이 나옵니다.

  • 청각장애인이 사용하는 보청기·앱에서, “사람 말소리만 강조” 혹은 “주변 소음만 줄이기” 기능을 실시간 제공

  • 강의나 회의에서 발표자 목소리만 강조해 자막 생성 정확도를 높이기

  • 혼잡한 환경에서 특정 사람(예: 보호자)의 목소리를 선택적으로 증폭

물론 현재 버전은 아직 실시간 스트리밍용 완제품이 아니고, 비슷한 소리들 사이의 분리에 한계를 갖고 있습니다. 하지만 메타가 이 영역을 명시적으로 언급하고 관련 기관과 협력 중이라는 사실만으로도, SAM Audio가 단순한 크리에이터 도구를 넘어 보조 공학의 기반 기술로 성장할 가능성이 충분해 보입니다425.

한계와 리스크: 아직 안 되는 것들, 조심해야 할 것들

여기까지 들으면 ‘소리 분리는 이제 끝난 기술인가?’ 싶지만, 메타 스스로도 분명한 한계를 인정하고 있습니다.

아직 어려운 것들

  1. 비슷한 소리끼리의 분리

    • 합창단에서 특정 한 사람 목소리만,

    • 오케스트라에서 바이올린 섹션 중 일부만,

    • 여러 사람이 동시에 말하는 회의에서 특정 한 사람만
      이런 작업은 여전히 도전 과제로 남아 있습니다423.
      즉, “성격이 확 다른 소리(개 짖는 소리 vs 사람 목소리)”는 잘 잡지만, “서로 비슷한 사람 목소리 여러 개”는 현재 기술로도 완벽하게 분리하기 어렵습니다.

  2. 오디오 자체를 프롬프트로 쓰지 못함

    • SAM Audio는 아직 “이 소리처럼 생긴 걸 찾아줘”식의 오디오 프롬프트를 지원하지 않습니다423.

    • 반드시 텍스트, 영상 클릭, 시간 구간 중 하나를 써야 합니다.

    • 예를 들어, 3초짜리 샘플 소리를 들려주고 “이거랑 같은 소리만 전체에서 뽑아줘”는 아직 불가능합니다.

  3. 프롬프트 없이 자동 분리 불가

    • 사용자가 아무 지시도 하지 않으면, SAM Audio가 알아서 “보컬, 드럼, 기타…” 식으로 자동 분리해 주지는 않습니다45.

    • 최소한 “무엇을 찾아야 하는지”를 프롬프트로 알려줘야 합니다.

프라이버시·악용 우려

기술이 강력한 만큼, 프라이버시와 악용 가능성에 대한 우려도 있습니다. 예를 들어:

  • 공공장소에서 녹음된 오디오에서 특정 사람의 대화만 몰래 분리

  • 회의 녹음에서 특정 발언만 추출해 맥락 없이 유포

  • 감시·도청 수준으로 대상을 특정하는 시나리오

이런 부분에 대해 메타는 “불법인 행동은 AI로도 하면 안 된다”는 정도의 입장만 밝힌 상태입니다4. 즉, 모델 자체에 강력한 사용 제한 장치를 넣기보다는, 라이선스와 법적 책임을 강조하는 방향입니다.

SAM Audio는 SAM 라이선스에 따라 사용되며, 이는 각국의 개인정보 보호 및 통신 관련 법을 준수해야 한다고 명시합니다45. 따라서 기업·조직이 상용 서비스에 SAM Audio를 도입할 때는:

  • 녹음 대상에 대한 명확한 고지와 동의,

  • 목적 외 활용 금지,

  • 데이터 보관·파기 정책,

같은 부분을 명확히 설계해야 합니다.

정리 및 활용 조언: 지금 당장 어떻게 써보면 좋을까

SAM Audio는 “누구나 프롬프트로 소리를 다루는 시대”의 시작점에 가깝습니다. 텍스트, 클릭, 타임라인 드래그만 할 줄 알면, 꽤 수준 높은 소리 분리를 직접 해볼 수 있는 수준까지 기술이 내려왔습니다.

핵심 포인트를 다시 정리하면 이렇습니다.

  • 메타는 이미지·영상에 쓰던 Segment Anything 방식을 오디오로 확장했고, 그 결과물이 SAM Audio다.

  • 텍스트, 시각적 클릭, 시간 구간이라는 세 가지 프롬프트로 소리를 컨트롤할 수 있다.

  • PE-AV 인코더와 거대한 비디오 데이터 학습 덕분에, 현실적인 환경에서의 소리 분리에 강하다.

  • SAM Audio-Bench와 SAM Audio Judge로, 성능 평가와 연구 생태계까지 염두에 둔 공개가 이루어졌다.

  • 다만 비슷한 소리끼리의 분리, 오디오 프롬프트 부재, 무프롬프트 자동 분리 불가 등 기술적 한계와, 프라이버시·악용 리스크는 여전히 남아 있다.

실무적으로는 이렇게 활용해 보길 추천합니다.

  1. 크리에이터라면

    • Segment Anything Playground에 접속해, 직접 촬영한 짧은 영상으로 노이즈 제거, 특정 소리 강조를 테스트해 보세요.

    • 기존에 쓰던 노이즈 리덕션 플러그인과 결과를 비교해 보는 것만으로도, “이걸 어디까지 맡겨도 되겠다” 감이 올 것입니다.

  2. 개발자·제품 기획자라면

    • 공개된 코드와 가중치를 참고해, 웹 기반 편집툴, 협업 녹음 플랫폼, 회의 녹음 서비스 등에 통합하는 가능성을 검토해 볼 만합니다.

    • 단, 라이선스와 개인정보 관련 법률 검토는 필수입니다.

  3. 연구자·교육자라면

    • SAM Audio-Bench와 Judge를 활용해 자체 모델이나 알고리즘 평가 기준을 맞추는 데 쓸 수 있습니다.

    • 멀티모달 학습 사례로 수업이나 세미나에 소개하기에도 좋은 케이스입니다.

오디오는 그동안 영상·이미지에 비해 AI 혁신 속도가 다소 더딘 영역이었습니다. SAM Audio는 그 흐름을 꽤 강하게 흔드는 모델입니다.

앞으로 “영상 편집”이라고 하면, 화면뿐 아니라 소리까지 프롬프트로 함께 편집하는 경험이 당연해질지도 모릅니다. 지금은 그 첫 번째 버전을 미리 체험해 볼 수 있는 시점입니다. 관심 있다면, Playground에서 직접 소리를 쪼개 보며 감을 익혀 두는 것을 추천합니다.

참고

1Our New SAM Audio Model Transforms Audio Editing

6Meta's SAM bot keeps 'em separated as it isolates voices and instruments from audio clips

4Meta Platforms transforms audio editing with prompt-based sound separation

7Meta brings Segment Anything to audio, letting editors pull sounds from video with a click or text prompt

8Meta SAM Audio Release: Capabilities, Benchmarks & Impact

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.