Anthropic 에서 Claude 3.5 Sonnet 출시 - 일부 벤치마크에서는 gpt-4o 뛰어넘음.

Claude 3.5 Sonnet

Anthropic에서 클로드 3.5 소넷을 발표했습니다.

이 모델은 Claude 3 Opus 및 OpenAI의 GPT-4o 등 기존 모델보다 우수한 평가를 받았으며, 일부 영역에서는 GPT-4o를 능가합니다.

Anthropic 에서 Claude 3.5 Sonnet 출시 - 일부 벤치마크에서는 gpt-4o 뛰어넘음. image 1

학부 수준의 지식을 테스트하는 MMLU와 대학원생 수준의 지식을 테스트하는 GPQA와 코딩 능력을 테스트하는 HumanEval 에서 높은 성능을 보여주네요.

이 AI 모델은 뉘앙스, 유머, 복잡한 지시사항을 이해하는 데 있어 상당한 개선을 보였고, 자연스러우면서도 고품질의 콘텐츠를 생성할 수 있습니다. (기존의 글쓰기 능력)

Claude 3.5 소넷은 클로드 3 오퍼스의 2배의 속도입니다.

또 앤쓰로픽의 내부 에이전틱 코딩 평가에 따르면 코딩 문제의 64%를 해결했다고 합니다. (Opus는 38% 해결)

향상된 비전 능력

클로드 3.5 소넷은 클로드 3 오퍼스를 뛰어넘는 비전 능력을 가지고 있습니다. (이미지 이해 능력) 차트나 그래프를 해석할 수 있고 불완전한 이미지에서 텍스트를 추출할 수 있습니다. (소매, 물류, 금융에서 필요한 기능)

유튜브에서 보면 이미지를 분석해서 JSON으로 변환하고 JS 기반의 프레젠테이션으로 변환해 주는 것을 볼 수 있습니다.

Anthropic 에서 Claude 3.5 Sonnet 출시 - 일부 벤치마크에서는 gpt-4o 뛰어넘음. image 2

아티팩트

사용자가 Claude 챗봇에게 텍스트 문서나 코드, 웹 디자인을 생성하도록 요청한 후 결과를 전용 창에서 열 수 있는 "Artifacts"를 발표했습니다.

이 기능을 통해 클로드가 생성하는 결과를 실시간으로 보고 편집하고 빌드할 수 있습니다.

아티팩트 활성화 방법 : 우측 상단의 프로필 클릭 - Feature Preview - Artifacts 활성화

Anthropic 에서 Claude 3.5 Sonnet 출시 - 일부 벤치마크에서는 gpt-4o 뛰어넘음. image 3

테스트 프롬프트

can you create an 8-bit style crab for me?

Anthropic 에서 Claude 3.5 Sonnet 출시 - 일부 벤치마크에서는 gpt-4o 뛰어넘음. image 4

이미지 : 우측에 아티팩트가 활성화된 모습.

Can you make some seashells in the same style?

How about some clouds?

Let's inline these into a simple side-scrolling game. HTML5?

I love it. Let's make it playable? Have the crab jump up and over oncoming seashells. Maybe add some styling too... I think I want to call this crab... Claw'd.

API

Claude 3.5 Sonnet은 API와 Claude.ai를 통해 사용 가능하며, 또한 Amazon Bedrock와 Google Cloud의 Vertex AI를 통해서도 이용할 수 있습니다.

3달러/1백만 인풋, 15달러/1백만 아웃풋

200k 토큰 컨텍스트.

기타

Claude 3.5 Haiku와 Claude 3.5 Opus는 올 해 출시 예정입니다.

claude.ai 또는 클로드 iOS 앱에서 사용 가능합니다. (현재 공식 안드로이드 앱은 아직 존재하지 않음)

참고 : Introducing Claude 3.5 Sonnet Anthropic