검색
검색
공개 노트 검색
회원가입로그인
page thumbnail

Claude 3.5 소넷 업그레이드 및 Claude computer use

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

Claude 3.5 소넷 업그레이드 및 Claude computer use image 1

클로드 3.5 소넷의 새로운 버전! (New)

  1. 새로운 모델 출시

  • Claude 3.5 Sonnet 업그레이드 버전 출시 (즉시 사용 가능)

  • Claude 3.5 Haiku 신규 출시 (이번 달 말 출시 예정)

  1. Claude 3.5 Sonnet 주요 개선사항

  • 전반적인 성능 향상, 특히 코딩 능력 크게 개선

  • SWE-bench Verified 성능: 33.4% → 49.0% (공개 모델 중 최고 성능)

  • TAU-bench 성능 향상 (agentic 도구 사용 작업 평가)

    • 리테일 분야: 62.6% → 69.2%

    • 항공 분야: 36.0% → 46.0%

  • 기존과 동일한 가격과 속도 유지

  1. Claude 3.5 Haiku 특징

  • Claude 3 Opus와 비슷한 성능을 보이면서도 더 빠르고 저렴

  • SWE-bench Verified에서 40.6% 기록

  • 처음에는 텍스트 전용으로 출시, 이후 이미지 입력 기능 추가 예정

  1. 컴퓨터 사용 기능 (베타) 신규 도입 (computer use)

  • AI가 사람처럼 컴퓨터를 사용할 수 있는 혁신적 기능

  • 커서 이동, 클릭, 텍스트 입력 등 가능

  • OSWorld 평가에서 screenshot-only 카테고리 성공율 14.9% 기록.

    OSWorld 의 카테고리 중 AI 모델의 컴퓨터 사용 능력을 인간처럼 평가하는 항목을 측정.

    화면 캡처만을 보고 컴퓨터 작업을 수행해야 하는 제한된 조건.

    아직 초기 단계이지만 다음으로 높은 AI 시스템 7.8%과 비교했을 때 앞선 성능.

    더 많은 단계로 작업을 수행할 수 있도록 했을 때 22.0%의 성능을 기록.

  • 현재는 실험적 단계로, 스크롤링, 드래깅, 확대/축소 등에서 한계 존재

  1. 배포 현황

  • Claude 3.5 Sonnet: 즉시 모든 사용자 이용 가능

  • 컴퓨터 사용 베타: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI에서 이용 가능

  • Claude 3.5 Haiku: 이번 달 말 출시 예정

이 업데이트는 AI 성능의 significant한 향상을 보여주며, 특히 코딩과 컴퓨터 사용 능력에서 큰 진전을 이루었음을 강조하고 있습니다.

Claude 3.5 소넷 업그레이드 및 Claude computer use image 2

컴퓨터 사용 (Computer use)

클로드 API를 사용해서 컴퓨터를 조작할 수 있는 에이전트.

Computer use (beta) - Anthropic

API 사용 예시

{
    "model": "claude-3-5-sonnet-20241022",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20241022",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20241022",
        "name": "bash"
      }
    ],
    "messages": [...]
}

도구에 computer 라는 걸 입력하네요. 스크린 샷과 함께 제공하는 것 같습니다.

str_replace_editor 와 bash 라는 앤트로픽의 미리 정의된 도구도 있습니다.

도커로 사용할 수 있는 레퍼런스를 첨부했습니다. anthropic-quickstarts/computer-use-demo at main · anthropics/anthropic-quickstarts

지금은 이 도커로 사용하는 것이 안전하겠네요. 이걸 활용해 본 후 변경해서 추가적인 개발을 하면 될 것 같습니다.

아직은 속도가 느리고 스크롤링도 되지 않는 단점이 있지만 지금으로도 충분히 AI를 활용한 컴퓨터 작업을 넓은 범위에서 수행할 수 있을 것 같습니다.

Claude 3.5 소넷 업그레이드 및 Claude computer use image 3

도커로 설치해서 실제 computer use 를 돌리는 화면. "브라우저를 열어서 유튜브 틀어줘"

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 1125
heart
T
페이지 기반 대답
AI Chat