대형 언어 모델에서 의미 엔트로피를 사용한 환각 탐지

2024-06-24

대형 언어 모델(LLM) 시스템, 예를 들어 ChatGPT나 Gemini는 뛰어난 추론 및 질의응답 능력을 보이지만 종종 실제와 다르거나 근거 없는 답변(공상)을 생성함.
이러한 공상은 법률이나 의학과 같은 중요한 분야에서 위험을 초래할 수 있음.
연구자들은 새로운 질문에 대해 사람도 모르는 답변을 할 때 오류를 검출할 일반적인 방법이 필요함.
새로운 방법론으로서 통계적 접근 기반의 엔트로피를 이용해 언어 모델의 공상을 검출할 수 있는 방법을 제안함.
이 방법은 특정 시퀀스가 아닌 의미 단위로 불확실성을 계산함.
데이터와 작업에 걸쳐 사전 지식 없이도 잘 작동하며, 새로운 작업에도 강하게 일반화됨.
공상을 일으킬 가능성이 높은 입력을 검출해 사용자가 언어 모델의 신뢰성을 보다 잘 이해할 수 있도록 도움.
공상은 랜덤 시드 같은 무관한 세부 사항에 민감한 경우 발생.
제안된 방법은 의미적인 엔트로피를 사용해 공상을 검출하며, 공상은 높은 엔트로피로 감지됨.
공상 검출을 통해 모델이 오류를 일으킬 가능성이 있는 질문에 답변하지 않도록 하며, LLM의 신뢰성을 높일 수 있음.
다양한 데이터셋 및 도메인(TriviaQA, SQuAD, BioASQ 등)에서 공상을 잘 검출함을 입증함.
공상은 LLM이 제공하는 부정확한 답변의 주요 원인 중 하나로 나타남.
방법의 유효성을 측정하기 위해 AUROC 및 AURAC 지표 사용.
제안된 방법이 기존의 엔트로피 기반 방법 및 감독된 학습 방법보다 뛰어남을 보임.
GPT-4 같은 모델에서도 공상 검출의 효과를 실험적으로 확인함.
LLM은 때로 자신이 모르는 것을 "알 고 있는" 것처럼 행동할 수 있지만, 새로운 방법론을 통해 더 정확한 감시가 가능해짐.

5nature.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기