허깅 페이스 트랜스포머 에이전트 : 모델들을 연결하라
Huggingface Transformers Agent
허깅페이스에서 트랜스포머 에이전트를 내놓았습니다. 1만개가 넘는 허깅페이스의 모델을 연결해 주는 모델입니다. 트랜스포머와 디퓨저(Transformers and Diffusers)에 대화를 하는 방식으로 모델들을 서로 연결할 수 있다고 합니다.
텍스트, 이미지, 비디오, 오디오, 문서 (text, images, video, audio, docs)를 모두 지원하는 멀티 모달이라고 합니다.
작은 LLM이 도구(Tools)들을 서로 연결해 주는 에이전트(agent)와 같은 개념이라고 보면 될 것 같습니다.
예를 들어 이미지를 생성해달라고 하면 에이전트가 도구를 선택해서 이미지를 생성하는 방식입니다.
허깅페이스에서 미리 선별한 도구들을 제공하고 원한다면 직접 도구를 만들거나 import 하여 사용할 수 있습니다.
다음과 같은 도구들이 있습니다.
이미지 생성 및 변형하기
문서를 기반으로 대답하기
이미지 캡션 : 이미지에서 텍스트 생성 (BLIP)
이미지를 바탕으로 질문하기 (VILT)
요약하기 (BART)
텍스트를 음성으로 변환하기 Text to speech (SpeechT5)
번역 : 지정한 언어로 번역하기 (NLLB)
파이썬이나 코랩으로 돌려볼 수 있습니다. Google Colaboratory
오픈AI의 gpt api는 유료이지만 BigCode나 OpenAssistant 의 경우 허깅 페이스에서 제공하는 무료 엔드포인트를 사용할 수 있습니다.
ChatGPT 플러그인도 그렇고 요즘 다들 생태계 구축에 진심이군요.
공유하기
조회수 : 461