본문으로 바로가기
검색
회원가입로그인
page thumbnail

맘바란 무엇인가? 상태 공간 모델을 기반으로 하는 AI 모델 아키텍처

맘바란 State Space Models (SSMs, 상태 공간 모델)을 기반으로 하는 AI 모델 아키텍처입니다. 트랜스포머의 대안 중 하나로 꼽히고 있습니다.

맘바는 긴 시퀀스 길이(예: 100만 토큰)에서도 실행 가능하며, 트랜스포머보다 최대 5배 빠른 속도를 자랑합니다.

언어, 오디오, 유전체학 등 여러 분야에서 최첨단 성능을 달성했다고 합니다.

이 상태 공간 모델은 기존 Transformers의 "quadratic bottleneck"을 제거하여 처리 속도를 향상시켰습니다.

quadratic bottleneck은 모든 토큰이 이전의 모든 토큰을 참조하는 문제입니다. 때문에 컨텍스트가 커질 수록 모델이 느려지게 됩니다.

맘바는 이 문제를 해결하기 위해 트랜스포머의 Attention 메커니즘을 대체할 새로운 통신 방법으로 SSM을 사용합니다.

맘바는 효율성과 효과성의 균형을 맞추기 위해 선택 메커니즘을 도입하여 각 토큰이 상태에 포함될 정보를 독특하게 변환합니다.

선택 메커니즘을 적용함으로써 트랜스포머에 비해 기억해야 할 정보의 양을 줄이면서 필요한 정보는 보존할 수 있게 됩니다.

논문 : Mamba: Linear-Time Sequence Modeling with Selective State Spaces

참고 : Mamba Explained

생각

맘바는 트랜스포머 아키텍처의 단점을 보완하려는 시도 중 하나이다. 상태를 선택적으로 기억함으로써 빠른 속도와 더 많은 컨텍스트 길이를 포함한다. 모든 토큰이 이전의 토큰을 참조할 필요가 없기 때문에 더 적은 컴퓨팅 연산을 필요로 한다. 아마 트랜스포머의 대안이 되는 아키텍처들은 계속 개발될 것 같다.

참고로 맘바는 코브라과 맘바속에 속하는 매우 빠른 독사를 의미한다.

DALL·E 2024-02-26 11

공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기

저자의 책