
Claude 3.5 소넷 업그레이드 및 Claude computer use
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
클로드 3.5 소넷의 새로운 버전! (New)
새로운 모델 출시
Claude 3.5 Sonnet 업그레이드 버전 출시 (즉시 사용 가능)
Claude 3.5 Haiku 신규 출시 (이번 달 말 출시 예정)
Claude 3.5 Sonnet 주요 개선사항
전반적인 성능 향상, 특히 코딩 능력 크게 개선
SWE-bench Verified 성능: 33.4% → 49.0% (공개 모델 중 최고 성능)
TAU-bench 성능 향상 (agentic 도구 사용 작업 평가)
리테일 분야: 62.6% → 69.2%
항공 분야: 36.0% → 46.0%
기존과 동일한 가격과 속도 유지
Claude 3.5 Haiku 특징
Claude 3 Opus와 비슷한 성능을 보이면서도 더 빠르고 저렴
SWE-bench Verified에서 40.6% 기록
처음에는 텍스트 전용으로 출시, 이후 이미지 입력 기능 추가 예정
컴퓨터 사용 기능 (베타) 신규 도입 (computer use)
AI가 사람처럼 컴퓨터를 사용할 수 있는 혁신적 기능
커서 이동, 클릭, 텍스트 입력 등 가능
OSWorld 평가에서 screenshot-only 카테고리 성공율 14.9% 기록.
OSWorld 의 카테고리 중 AI 모델의 컴퓨터 사용 능력을 인간처럼 평가하는 항목을 측정.
화면 캡처만을 보고 컴퓨터 작업을 수행해야 하는 제한된 조건.
아직 초기 단계이지만 다음으로 높은 AI 시스템 7.8%과 비교했을 때 앞선 성능.
더 많은 단계로 작업을 수행할 수 있도록 했을 때 22.0%의 성능을 기록.
현재는 실험적 단계로, 스크롤링, 드래깅, 확대/축소 등에서 한계 존재
배포 현황
Claude 3.5 Sonnet: 즉시 모든 사용자 이용 가능
컴퓨터 사용 베타: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI에서 이용 가능
Claude 3.5 Haiku: 이번 달 말 출시 예정
이 업데이트는 AI 성능의 significant한 향상을 보여주며, 특히 코딩과 컴퓨터 사용 능력에서 큰 진전을 이루었음을 강조하고 있습니다.
컴퓨터 사용 (Computer use)
클로드 API를 사용해서 컴퓨터를 조작할 수 있는 에이전트.
Computer use (beta) - Anthropic
API 사용 예시
{
"model": "claude-3-5-sonnet-20241022",
"max_tokens": 1024,
"tools": [
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1
},
{
"type": "text_editor_20241022",
"name": "str_replace_editor"
},
{
"type": "bash_20241022",
"name": "bash"
}
],
"messages": [...]
}
도구에 computer 라는 걸 입력하네요. 스크린 샷과 함께 제공하는 것 같습니다.
str_replace_editor 와 bash 라는 앤트로픽의 미리 정의된 도구도 있습니다.
도커로 사용할 수 있는 레퍼런스를 첨부했습니다. anthropic-quickstarts/computer-use-demo at main · anthropics/anthropic-quickstarts
지금은 이 도커로 사용하는 것이 안전하겠네요. 이걸 활용해 본 후 변경해서 추가적인 개발을 하면 될 것 같습니다.
아직은 속도가 느리고 스크롤링도 되지 않는 단점이 있지만 지금으로도 충분히 AI를 활용한 컴퓨터 작업을 넓은 범위에서 수행할 수 있을 것 같습니다.
도커로 설치해서 실제 computer use 를 돌리는 화면. "브라우저를 열어서 유튜브 틀어줘"


