Google의 Nested Learning은 LLM이 치명적인 망각을 막는 것을 목표로 합니다.

  • Google Research는 대규모 언어 모델(LLM)이 새로운 장기 기억을 학습한 후 얻게 하지 못하는 "치명적인 망각" 문제를 해결하고 지속적인 학습을 지원하기 위해 "중첩 학습(nested learning)"을 소개했습니다.

  • 이러한 접근 방식은 뇌과학에 영감을 받아 개발되었으며, 뇌가 다양한 속도로 작동하는 것처럼 모델 구성 요소를 그룹화하여 업데이트 빈도에 따라 기억을 층으로 나누는 시스템을 형성합니다.

  • 중첩 학습의 핵심은 모델의 각 부분, 옵티마이저 및 학습 알고리즘을 기억으로 취급하고, 연속 기억 시스템(CMS)으로 여러 모듈을 구분하여 각 모듈이 다양한 속도로 업데이트되게 함으로써 새로운 정보를 기존 정보와 상호 작용하지 않도록 합니다.

  • 이러한 시스템을 통해 HOPE 아키텍처는 장기 기억 모듈인 Titans를 사용하여 예기치 않은 정보를 저장하고, CMS 블록으로 더 큰 컨텍스트 창을 활용합니다.

  • 테스트 결과, HOPE는 Transformer++, RetNet 및 DeltaNet 등과 같은 최신 모델보다 더 낮은 손실과 높은 벤치마크 점수를 기록하며 뛰어난 성능을 보였습니다.

  • 특히 긴 컨텍스트 및 대량의 텍스트에서 특정 정보를 찾는 시험에서 HOPE는 기존의 트랜스포머 및 현대 순환 네트워크를 능가하는 일관된 이점을 나타냈습니다. 이 재현은 GitHub에서 독립적으로 실행됩니다.


4the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기