검색
검색
공개 노트 검색
회원가입로그인

Sambanova.ai 삼바노바 API코딩--(1)

samvanova1

삼바-1 터보

Sambanova.ai는 groq 과 국내 스타트업 하이퍼엑셀등과 함께 메타 라마3모델이 나오자마자 라마3를 자사의 TPU/LPU추론칩으로 서빙해주는 몇 안되는 업체이다.

삼바노바는 <삼바-1 터보>는 인공지능 분석의 최신 대규모 언어 모델(LLM) 벤치마크에서 그록 Groq과 함께 엄청난 출력 속도들을 보여준다. 초당 1000 개 이상의 토큰으로 리더보드에서 라마 3 8B 성능의 새로운 기록을 세웠다. 이미 앞에서 일단 겪어본 그록 LPU처럼 모델의 응답 출력자체가 눈에 보이지않을 정도로 엄청 빠르다. 삼바노바는 초당 1000 토큰이상을 처리하는데도 파아썬 코드 제작까지 보통 0.86초안에 응답이 전부 이뤄지는거같다.

samvanova2

라마3지만 한글 출력도 문제 없다.

samvanova3

삼바노바에선 기업 서비스 속도를 최고 중요하게 생각한다. 즉, 초당 응답 시간(t/s)에서 초당 응답 수(ANSWERS per second)를 늘려가는데도 정확하고 신뢰할 수 있으며, 검증된 답변들을 제공하는 걸 사명으로 생각한다.

메타 라마3 서버는 현재 49,000개의 nVidia H100 GPU를 쓰는데, 이걸 LPU나 TPU 칩 기반 서버에서 서빙하면 응답 속도를 몇 배이상 더 증가시킬수 있다. 국내 스타트업 하이퍼엑셀도 답변 속도가 메타 서비스보다 30~50% 이상 현저하게 빠른 것을 확인했다고 한다. 하이퍼엑셀에 따르면 8B 모델보다 큰 70B 모델에서도 동일한 속도 출력을 얻었다는 주장이다.

이와 같은 속도 전쟁은 다양한 라마3 응용 사례를 가속화 할 수 있을거같다. 응답에 5초가 넘으면 연결이 바로 끊겨버리는 카톡 오픈채팅방이라도 이제 1초안에 라마3나 미스트랄 모델의 응답이 번개같이 떨어지는 텔레그램 챗봇 에이전트 서비스나 오픈 카톡 응답서비스가 가능해진다.

현재와 미래를 위한 속도

단일 모델로는 품질로 비즈니스 문제를 결정적으로 해결할 수는 없다. 실질적인 비즈니스 가치를 제공하는 애플리케이션은 애플리케이션의 일부로 수많은 AI 파운데이션 모델 호출을 수행한다. 이러한 잦은 모델 호출은 RAG같은 걸 거치며, 엄청난 토큰을 먹어대고, 고품질의 답변을 위해 참기 힘들정도의 느린 성능을 초래한다.

아! 한개의 단일 모델로는 응답이 부족한거 같아? 그러면 TPU 하드웨어가 받쳐준다면 그럼 동시에 여러개의 우수한 전문가 모델 집단들을 8개정도 구성해서 동시에 응답을 하게 할테니 그중 하나 골라잡으라는 식의 구성도 가능하다. 이전 chatHUB나 poe.com등에서 하는 시도다.

삼바노바는 초당 1000개 이상의 토큰(t/s)을 처리하는 1000 t/s 추론 속도와 CoE 전문가 구성(Composition of Experts ) 아키텍처를 구성해 여러 AI 파운데이션 모델들이 여러 개의 응답을 생성하고, 단 몇 초 만에 진정한 비즈니스 품질의 답변을 생성할 수 있도록 지원해준다.

AI 기술은 이미 사람의 프롬프트와 챗봇을 뛰어넘는 수준으로 발전하고 있다. 곧 에이전트 AI(사람이 아닌 AI 모델이나 기타 도구가 연쇄적으로 결과물을 소비하는 시스템)가 기업이 AI를 사용하는 주요 방식이 될 예정이다. 사람들은 한 번의 호출과 응답 대신 복잡한 작업 집합을 완료하기 위해 AI에 명령을 연쇄적으로 요청할 것이다.

예를 들어 의학 연구자가 삼바-1 터보에게 한 가지 질문을 한다.

“UN 온실가스 인벤토리 데이터셋을 기반으로 내 PPT에 차트 장표를 갖춰서 배치해줘”라고 요청할 수 있다. 백그라운드에선 일련의 작은 전문가 AI 모델들이 파이썬 코드를 작성하여 데이터셋을 가져와 스프레드시트에 입력하고 시각화 그래프를 만들어 PPT 프레젠테이션에 삽입한다. 각 요청에는 시간이 걸리겠지만, 이걸 상쇄시킬 TPU 추론 하드웨어가 커버해줄거다

SambaNova SN40L RDU (Reconfigurable Dataflow Unit)는 수백 개의 오픈소스 모델을 동시에 서빙 할 수 있고 마이크로 초 단위로 전환도 할 수 있기 때문에 AI 기술의 혁신이 가능하다.

TPU같은 추론 칩 throughput 속도 부터 모델의 응답 최적화, API의 응답 속도 최적화, 방화벽 뒤의 고객 데이터에 대해 부분까지 속도를 향상시키는게 목표다.

개발자 지원

사용해볼 수 있는 AI파운데이션 모델은 91개가 제공된다.

다만 개발자 지원이 조금 아쉬운데, 테스트할 수 있는 API키도 무료로 주지만, Curl 구문만 제공한다.

파이썬이나 node.js구문이 제공되지않는다.

samvanova4

메타 라마3 70B랑 8B Instrction 모델 두개에서 동시에 출력된 나온 응답이다.

samvanova6

View Code에서 curl구문을 보여준다.

samvanova7

Curl구문만 가지고도 파이썬 코드나 웹개발자가 편애하는 POSTMAN 사이트와 연동 웹 방식의 코드를 만들수 있기에 변형이 크게 어렵진않다. 주어진 Curl 예제를 가지고, 파이썬 코드를 만들어냈다.

우분투리눅스 bash 쉘에서 테스트하면 된다.

samvanova8

삼바노바 파이썬 코드 응답 테스트

samvanova9

삼바노바AI의 응답결과

curl -X POST -H 'Content-Type: application/json' -H 'key: XXXXXXXXXXXX' 
  -H 'modelName: Meta/Meta-Llama-3-70B-Instruct' 

--data '{"instance":"{\"conversation_id\":\"sambaverse-conversation-id\",\"messages\":
     [{\"message_id\":0,\"role\":\"user\",\"content\":\"아이브 안유진에 대해서 알려줘 답변은 한글로 써줘\"}]}"
     ,"params":{"do_sample":{"type":"bool","value":"true"},
     "max_tokens_to_generate":{"type":"int","value":"1024"},
     "process_prompt":{"type":"bool","value":"true"},
     "repetition_penalty":{"type":"float","value":"1.0"},
     "return_token_count_only":{"type":"bool","value":"false"},
     "select_expert":{"type":"str","value":"Mistral-7B-Instruct-v0.2"},
     "stop_sequences":{"type":"str","value":""},
     "temperature":{"type":"float","value":"0.7"},
     "top_k":{"type":"int","value":"50"},
      "top_p":{"type":"float","value":"0.95"}}}' 'https://sambaverse.sambanova.ai/api/predict'

====================================

 응답 부분 

{"result":{"status":{"complete":false,"exitCode":0,"elapsedTime":0.9185397624969482,
"message":"","progress":0,"progressMessage":"","reason":""},
"responses":[{"completion":"","is_last_response":false,"logprobs":{"text_offset":[],
"top_logprobs":[]},"prompt":"","stop_reason":"",
"stream_token":" 아이브는 2016년  Debut한 여자 그룹입니다. 그중 안유진은 1996년 8월 5일 생겨 앨베이터, 팔린, 샤크나이브에서 활동하였습니다. 2016년 아이브 ","tokens":[],"total_tokens_count":0}]}}
{"result":{"status":{"complete":false,"exitCode":0,"elapsedTime":1.2963809967041016,
"message":"","progress":0,"progressMessage":"","reason":""},
"responses":[{"completion":"","is_last_response":false,"logprobs":{"text_offset":[],
"top_logprobs":[]},"prompt":"","stop_reason":"",
"stream_token":"Debut 후로서 안유진 은 아이브에서 활동하며 노래 작성, 멤버 관리, 공연 준비 등을 담당합니다.","tokens":[],"total_tokens_count":0}]}}
{"result":{"status":{"complete":true,"exitCode":0,"elapsedTime":1.2998988628387451,
"message":"","progress":0,"progressMessage":"","reason":""},
"responses":[{"completion":"아이브는 2016년  Debut한 여자 그룹입 니다. 그중 안유진은 1996년 8월 5일 생겨 앨베이터, 팔린, 샤크나이브에서 활동하였습니다. 2016년 아이브 Debut 후로서 안유진은 아이브에서 활동하며 노래 작성, 멤버 관리, 공연 준비 등을 담당합니다.","is_last_response":true,"logprobs":{"text_offset":[],"top_logprobs":[]},
"prompt":"[INST] 아이브 안유진에 대해서 알려줘 답변은 한글로 써줘 [/INST]","stop_reason":"end_of_text",
"stream_token":"","tokens":["","아","이","브"," 는","","2","0","1","6","년","","Deb","ut","한",
"","여","자","","그","룹","입","니","다",".","","그","중","","안","유","진","은","","1","9","9",
"6","년","","8","월","","5","일","","생","겨","","앨","베","이","터",",","","팔","린",",","",
"샤","크","나","이","브","에","서","","활","동","하","였","습","니","다",".","","2","0","1","6",
"년","","아","이","브","Deb","ut","","후","로","서","","안","유","진","은","","아","이","브","에",
"서","","활","동","하","며","","노","래","","작","성",",","","멤","버","","관","리",",","","공",
"연","","준","비","","등","을","","담","당","합","니","다","."],"total_tokens_count":195}]}}

삼바노바의 1000토큰/ 1초는 그록 LPU 칩의 800토큰을 능가하는 세계 최고로 빠른 속도를 자랑해 다시 한번 놀랐다. 이제 텔레그램이나 카카오톡 챗봇 응답이 단 0.8s만에 도달한다니 진짜 대 고객용 서비스가 얼마나 빠를지 기대된다.

UCA수퍼컴퓨팅아카데미

ulsancoding.com

교육문의: 052-708-0001

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 90
heart
T
페이지 기반 대답
AI Chat