검색
검색
공개 노트 검색
회원가입로그인

맘바란 무엇인가? 상태 공간 모델을 기반으로 하는 AI 모델 아키텍처

맘바란 State Space Models (SSMs, 상태 공간 모델)을 기반으로 하는 AI 모델 아키텍처입니다. 트랜스포머의 대안 중 하나로 꼽히고 있습니다.

맘바는 긴 시퀀스 길이(예: 100만 토큰)에서도 실행 가능하며, 트랜스포머보다 최대 5배 빠른 속도를 자랑합니다.

언어, 오디오, 유전체학 등 여러 분야에서 최첨단 성능을 달성했다고 합니다.

이 상태 공간 모델은 기존 Transformers의 "quadratic bottleneck"을 제거하여 처리 속도를 향상시켰습니다.

quadratic bottleneck은 모든 토큰이 이전의 모든 토큰을 참조하는 문제입니다. 때문에 컨텍스트가 커질 수록 모델이 느려지게 됩니다.

맘바는 이 문제를 해결하기 위해 트랜스포머의 Attention 메커니즘을 대체할 새로운 통신 방법으로 SSM을 사용합니다.

맘바는 효율성과 효과성의 균형을 맞추기 위해 선택 메커니즘을 도입하여 각 토큰이 상태에 포함될 정보를 독특하게 변환합니다.

선택 메커니즘을 적용함으로써 트랜스포머에 비해 기억해야 할 정보의 양을 줄이면서 필요한 정보는 보존할 수 있게 됩니다.

논문 : Mamba: Linear-Time Sequence Modeling with Selective State Spaces

참고 : Mamba Explained

생각

맘바는 트랜스포머 아키텍처의 단점을 보완하려는 시도 중 하나이다. 상태를 선택적으로 기억함으로써 빠른 속도와 더 많은 컨텍스트 길이를 포함한다. 모든 토큰이 이전의 토큰을 참조할 필요가 없기 때문에 더 적은 컴퓨팅 연산을 필요로 한다. 아마 트랜스포머의 대안이 되는 아키텍처들은 계속 개발될 것 같다.

참고로 맘바는 코브라과 맘바속에 속하는 매우 빠른 독사를 의미한다.

DALL·E 2024-02-26 11

조회수 : 255
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기