검색
검색
공개 노트 검색
회원가입로그인

Fuyu 8B - Adept의 이미지 멀티모달 공개

후유 8B

Adept에서 Fuyu-8B라는 멀티 모달을 공개 라이센스로 허깅페이스에 공개했습니다.

디지털 에이전트를 위해 처음부터 설계된 이 모델은 대규모 이미지에 대해 100 밀리초 미만으로 응답할 수 있다고 합니다.

Instrucstions나 샘플링이 되어 있지 않은 기본 모델이라고 합니다.

디지털 에이전트의 경우 화면에 보이는 것을 해석할 수 있어야 하는데 이런 점을 염두에 두고 만들어진 모델인 것 같습니다. 차트나 다이어 그램, 문서 이해와 같은 기능이 있다고 합니다.

특이한 것은 이미지 인코더 없이 디코더만 가지고 있는 트랜스포머라고 합니다.

Fuyu-8B: A Multimodal Architecture for AI Agents

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
조회수 : 195
heart
T
페이지 기반 대답
AI Chat