본문으로 바로가기
page thumbnail

gpt-realtime와 Realtime API 업그레이드 한눈에 보기

요약

gpt-realtime 모델의 주요 특징

gpt-realtime는 OpenAI의 최신 음성-음성 AI 모델로, 음성의 자연스러움과 명령 이해 능력이 크게 향상되었습니다. 사용자와 실제 대화처럼 친근하고 감성적인 소리가 나며, 복잡한 지시나 요청도 잘 따릅니다.

Stylized interface showing a voice interaction. Centered is a rounded rectangular audio player with a waveform visualization, play/pause button, “Agent online” status indicator, and timestamp of 00:35. White curved lines with dots flow across the image, suggesting live audio or signal movement. The background is a vivid blue with blurred flower shapes in pink and purple tones.

Realtime API의 새로운 기능

API가 이제는 MCP 서버 연결과 SIP(전화통화) 지원, 이미지 입력까지 갖췄어요. 특히 MCP 서버를 쉽게 연결할 수 있어, 다양한 도구와 서비스를 빠르게 확장할 수 있습니다.

{
  session: {
    type: realtime,
    tools: [
      {
        type: mcp,
        server_label: stripe,
        server_url: https://mcp.stripe.com,
        authorization: {access_token}
      }
    ]
  }
}

음성 품질과 새 보이스

실제 사람처럼 말하는 음성을 제공합니다. 감정, 억양, 속도·톤 제어가 자연스럽게 이뤄집니다. Marin, Cedar 두 종류의 고품질 신규 음성도 추가되었고, 기존 음성들도 업그레이드되었습니다.

지능 및 이해력

이 모델은 웃음 같은 비언어적 소리도 잘 인식하며, 중간에 언어를 바꾸거나 다양한 톤(예: 전문적·상냥함)으로 말할 수 있습니다. 전화번호 등 복잡한 숫자 문자도 더 정확하게 파악합니다.

명령·지시 이행 능력

복잡한 상황에서 주어진 지시대로 행동하는 능력이 높아졌습니다. 대화 중 빠르고 전문적으로 말해줘 같은 미세한 요구 사항도 잘 반영합니다.

툴 호출 능력 및 세션 유지

적절한 시점과 방법으로 외부 서비스(함수) 호출을 더 정확히 진행할 수 있습니다. 긴 작업 중에도 대화가 끊이지 않고 이어지는 비동기 함수 호출 기능이 강화되어, 실사용 환경에서 더 매끄럽게 작동합니다.

이미지 입력 기능

사진이나 스크린샷 등 이미지를 대화 중에 전달해, 시각적 문맥을 이해하고 이에 맞춰 대답할 수 있습니다. 이미지는 직접적인 영상처럼 다뤄지지 않고, 대화에 참고자료로 첨부되는 방식입니다.

{
  type: conversation.item.create,
  item: {
    type: message,
    role: user,
    content: [
      {
        type: input_image,
        image_url: data:image/png;base64,{some_base64_image_bytes}
      }
    ]
  }
}

추가 통신·확장 기능

  • SIP 지원으로 실제 전화 네트워크 등과 연결 가능

  • 재사용 가능한 프롬프트를 세션마다 쉽게 저장·이용

  • 유럽 데이터 거주 및 기업용 프라이버시 약속 준수

안전 및 정책

API는 다양한 안전장치를 갖추고 있습니다. 부적절하거나 해로운 내용은 자동으로 차단됩니다. 사용자는 AI와 대화 중임을 명확히 알 수 있으며, 목소리 도용 같은 위험을 줄이기 위해 미리 지정된 음성만 사용됩니다.

가격과 접근성

gpt-realtime 모델은 모든 개발자에게 공개되며, 기존 모델보다 20% 저렴해졌습니다. 긴 세션을 효율적으로 관리할 수 있는 기능도 추가되어 비용을 절약할 수 있습니다. 빠른 시작을 위해 공식 문서와 Playground, 프롬프트 가이드가 구비되어 있습니다.


Source : Introducing gpt-realtime and Realtime API updates for production voice agents | OpenAI