마이크로소프트의 "DIFF Transformer"는 더 적은 환각과 더 효율적인 LLM을 약속합니다.
- 마이크로소프트 연구팀이 "Differential Transformer" (DIFF Transformer)라는 새로운 AI 아키텍처를 개발함.
- DIFF Transformer는 관련된 맥락에 대한 집중도를 높이고 간섭을 줄이도록 설계됨.
- "차등 주의"가 핵심 기법으로, 두 개의 소프트맥스 주의 맵을 계산하고 서로 빼는 방식으로 공통 잡음을 제거함.
- 기존 트랜스포머보다 약 65% 적은 모델 크기 또는 학습 데이터로 유사한 성능을 달성함.
- 최대 64,000 토큰 길이의 긴 맥락에서 더 우수한 성능을 보임.
- 환각 현상을 줄이고 양자화 성능을 향상시킴.
- 텍스트 요약과 질의응답 작업에서 기존 트랜스포머보다 높은 정확도를 보임.
- 새로운 아키텍처는 모델의 크기를 줄이고 추론 속도를 높이는 데 유리함.
- DIFF Transformer는 처리량이 약간 낮음에도 불구하고 향후 대형 언어 모델의 유망한 기반으로 평가됨.
5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.