Dola Decoding by Contrasting Layers는 대형 언어 모델의 사실성을 향상시킵니다.

2024-07-11

제목: DoLa: 대비 층을 이용한 디코딩이 대형 언어 모델의 사실성을 향상시킴
저자: Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He
발표일: 2023년 9월 7일 (v1), 2024년 3월 11일 (v2)
주제: 대형 언어 모델(LLM)이 생성하는 내용의 사실성을 향상시키기 위한 새로운 디코딩 전략 제안
문제점: LLM은 종종 훈련 중 본 사실에서 벗어난 '환상'을 생성함
제안된 방법:
- DoLa(Decoding by Contrasting Layers)라는 디코딩 전략 도입
- 외부 지식 검색 또는 추가 미세 조정 없이 환상 감소 가능
- 어휘 공간에 투영된 나중 층과 이전 층의 로짓 차이를 대비하여 다음 토큰 분포를 얻음
- 특정 변환기 층에 사실 지식이 국한되어 있다는 점 활용
결과:
- DoLa는 여러 선택 과제와 개방형 생성 과제에서 진실성 향상
- 예: TruthfulQA에서 LLaMA 모델군의 성능을 12-17% 포인트 향상
의의: LLM이 진실된 사실을 신뢰성 있게 생성하는 데 잠재력 입증
발표: ICLR 2024 메인 컨퍼런스 논문
코드 배포: 논문에 대한 소스 코드는 제공됨
분야: 컴퓨터 과학 > 계산 및 언어, 인공지능, 기계 학습
참조: arXiv:2309.03883 [cs.CL]

4arxiv.org링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.