메인 콘텐츠로 건너뛰기
page thumbnail

언어 모델이 환각을 일으키는 이유 (번역)

달의이성
달의이성
조회수 292
요약

2025년 9월 5일 연구 간행물

원문

Why language models hallucinate | OpenAI - https://openai.com/index/why-language-models-hallucinate/

언어 모델이 환각을 일으키는 이유

OpenAI는 AI 시스템을 더욱 유용하고 신뢰할 수 있도록 만들기 위해 노력하고 있습니다. 언어 모델의 역량이 향상됨에 따라, 완전히 해결하기 어려운 고질적인 문제 하나가 남아있습니다. 바로 환각 현상(hallucinations)입니다. 이는 모델이 사실이 아닌 답변을 확신에 차서 생성하는 경우를 의미합니다. 저희의 새로운 연구 논문(새 창에서 열기)에서는 언어 모델이 환각을 일으키는 이유가 표준적인 훈련 및 평가 절차가 불확실성을 인정하기보다 추측을 보상하기 때문이라고 주장합니다.

ChatGPT 역시 환각 현상을 보입니다. GPT-5는 특히 추론 과정에서 환각 현상이 현저히 줄었지만, 여전히 발생합니다. 환각 현상은 모든 거대 언어 모델의 근본적인 과제로 남아있지만, 저희는 이를 더욱 줄이기 위해 노력하고 있습니다.

환각 현상이란 무엇인가?

환각 현상은 언어 모델이 생성하는 그럴듯하지만 사실이 아닌 진술을 말합니다. 이는 간단해 보이는 질문에 대해서도 놀라운 방식으로 나타날 수 있습니다. 예를 들어, 널리 사용되는 한 챗봇에게 이 논문의 저자 중 한 명인 Adam Tauman Kalai의 박사 학위 논문 제목을 물었을 때, 챗봇은 확신에 차서 세 가지 다른 답변을 내놓았지만 모두 오답이었습니다. 그의 생일을 물었을 때도 세 가지 다른 날짜를 제시했지만, 마찬가지로 모두 틀렸습니다.

시험 점수 위주의 평가 방식

환각 현상이 지속되는 이유 중 하나는 현재의 평가 방식이 잘못된 동기를 부여하기 때문입니다. 평가 자체가 직접적으로 환각 현상을 유발하는 것은 아니지만, 대부분의 평가는 불확실성에 대한 정직함보다는 추측을 장려하는 방식으로 모델의 성능을 측정합니다.

객관식 시험을 생각해보십시오. 답을 모르지만 맹목적인 추측을 한다면, 운 좋게 맞을 수도 있습니다. 답을 비워두면 0점이 보장됩니다. 마찬가지로, 모델이 오직 정확도, 즉 질문에 정확히 답한 비율로만 평가받는다면, "모르겠습니다"라고 말하기보다 추측하도록 장려됩니다.

또 다른 예로, 언어 모델이 누군가의 생일을 질문받았지만 답을 모른다고 가정해 봅시다. 만약 "9월 10일"이라고 추측한다면, 맞을 확률은 1/365입니다. "모르겠습니다"라고 말하면 0점이 보장됩니다. 수천 개의 테스트 질문에 걸쳐, 추측하는 모델은 불확실성을 인정하는 신중한 모델보다 순위표에서 더 나아 보이게 됩니다.

단일 "정답"이 있는 질문의 경우, 응답은 세 가지 범주로 나눌 수 있습니다: 정확한 응답, 오류, 그리고 모델이 추측을 시도하지 않는 기권(답변 보류). 답변 보류는 OpenAI의 핵심 가치 중 하나인 겸손함의 일부입니다. 대부분의 순위표는 정확도를 기준으로 모델의 우선순위를 정하고 순위를 매기지만, 오류는 기권보다 더 나쁜 결과입니다. 저희의 모델 스펙(새 창에서 열기)은 부정확할 수 있는 정보를 확신에 차서 제공하는 것보다 불확실성을 나타내거나 설명을 요청하는 것이 더 낫다고 명시하고 있습니다.

구체적인 예로, GPT-5 시스템 카드(새 창에서 열기)의 SimpleQA 평가를 살펴보겠습니다.

지표gpt-5-thinking-miniOpenAI o4-mini
기권율(특정 답변을 제공하지 않음)52%1%
정확도(정답, 높을수록 좋음)22%24%
오류율(오답, 낮을수록 좋음)26%75%
합계100%100%

정확도 측면에서는 구형 모델인 OpenAI o4-mini가 약간 더 나은 성능을 보입니다. 하지만 오류율(즉, 환각 현상 발생률)은 훨씬 더 높습니다. 불확실할 때 전략적으로 추측하는 것은 정확도를 높이지만, 오류와 환각 현상을 증가시킵니다.

수십 개의 평가 결과를 평균 낼 때, 대부분의 벤치마크는 정확도 지표만을 선택하지만, 이는 정답과 오답이라는 잘못된 이분법을 내포합니다. SimpleQA와 같은 단순한 평가에서는 일부 모델이 거의 100%의 정확도를 달성하여 환각 현상을 제거하기도 합니다. 그러나 더 어려운 평가와 실제 사용 환경에서는, 정보 부재, 소형 모델의 사고 능력 한계, 또는 명확화가 필요한 모호함 등 다양한 이유로 일부 질문에 답할 수 없기 때문에 정확도는 100% 미만으로 제한됩니다.

그럼에도 불구하고, 정확도만을 중시하는 평가 방식이 리더보드와 모델 카드를 지배하며, 개발자들이 신중하기보다 추측하는 모델을 만들도록 동기를 부여합니다. 이것이 바로 모델이 발전함에도 불구하고 여전히 불확실성을 인정하는 대신 확신에 찬 오답을 제시하는 환각 현상을 일으킬 수 있는 한 가지 이유입니다.

더 나은 평가 채점 방식

간단한 해결책이 있습니다. 불확실성을 표현하는 것보다 확신에 찬 오류에 더 큰 페널티를 부여하고, 불확실성의 적절한 표현에 대해서는 부분 점수를 주는 것입니다. 이 아이디어는 새로운 것이 아닙니다. 일부 표준화 시험에서는 맹목적인 추측을 막기 위해 오답에 대한 감점제나 답을 비워두는 것에 대한 부분 점수 버전을 오랫동안 사용해 왔습니다. 여러 연구 그룹 또한 불확실성과 캘리브레이션(보정)을 고려한 평가를 탐구해왔습니다.

저희의 주장은 다릅니다. 불확실성을 인지하는 몇 가지 새로운 테스트를 추가하는 것만으로는 충분하지 않습니다. 널리 사용되는 정확도 기반의 평가 방식 자체가 추측을 지양하도록 채점 방식을 개정해야 합니다. 주요 순위표가 계속해서 운 좋은 추측을 보상한다면, 모델들은 계속해서 추측하는 법을 배울 것입니다. 순위표를 바로잡는 것은 새롭게 개발된 기술뿐만 아니라 이전 연구에서 나온 환각 현상 감소 기술의 채택을 넓힐 수 있습니다.

다음 단어 예측에서 환각 현상이 비롯되는 방식

환각 현상을 제거하기 어려운 이유에 대해 이야기했지만, 이처럼 매우 구체적인 사실적 부정확성은 애초에 어디서 오는 것일까요? 결국, 거대한 사전 훈련 모델은 철자 오류나 괄호 불일치와 같은 다른 종류의 오류는 거의 보이지 않습니다. 그 차이는 데이터에 어떤 종류의 패턴이 존재하는지와 관련이 있습니다.

언어 모델은 방대한 양의 텍스트에서 다음 단어를 예측하는 과정인 사전 훈련을 통해 먼저 학습합니다. 전통적인 머신러닝 문제와 달리, 각 진술에는 "참/거짓" 레이블이 붙어있지 않습니다. 모델은 유창한 언어의 긍정적인 예시만을 보고 전체적인 분포를 근사해야 합니다.

유효하지 않다고 레이블된 예시가 전혀 없다면 유효한 진술과 그렇지 않은 진술을 구별하기가 훨씬 더 어렵습니다. 하지만 레이블이 있더라도 일부 오류는 불가피합니다. 그 이유를 이해하기 위해 더 간단한 비유를 들어보겠습니다. 이미지 인식에서 수백만 장의 고양이와 개 사진에 "고양이" 또는 "개"라고 레이블이 붙어있다면, 알고리즘은 이를 안정적으로 분류하는 법을 배울 수 있습니다. 하지만 대신 각 반려동물 사진에 반려동물의 생일을 레이블로 붙인다고 상상해보십시오. 생일은 본질적으로 무작위적이기 때문에, 이 작업은 알고리즘이 아무리 발전해도 항상 오류를 낳을 것입니다.

동일한 원리가 사전 훈련에도 적용됩니다. 철자와 괄호는 일관된 패턴을 따르므로, 이러한 오류는 규모가 커짐에 따라 사라집니다. 그러나 반려동물의 생일처럼, 임의적이고 빈도가 낮은 사실들은 패턴만으로는 예측할 수 없으므로 환각 현상으로 이어집니다. 저희의 분석은 다음 단어 예측에서 어떤 종류의 환각 현상이 발생해야 하는지를 설명합니다. 이상적으로는 사전 훈련 이후의 추가 단계에서 이를 제거해야 하지만, 앞서 설명한 이유들로 인해 이는 완전히 성공적이지 못합니다.

결론

저희 논문의 통계적 관점이 환각 현상의 본질을 명확히 하고, 일반적인 오해에 대해 반론을 제기할 수 있기를 바랍니다.

주장: 100% 정확한 모델은 결코 환각을 일으키지 않으므로, 정확도를 향상시키면 환각 현상이 제거될 것이다. 연구 결과: 모델의 크기, 검색 및 추론 능력과 관계없이 일부 현실 세계의 질문들은 본질적으로 답할 수 없기 때문에 정확도는 결코 100%에 도달할 수 없다.

주장: 환각 현상은 불가피하다. 연구 결과: 그렇지 않다. 왜냐하면 언어 모델은 불확실할 때 답변을 보류할 수 있기 때문이다.

주장: 환각 현상을 피하기 위해서는 일정 수준의 지능이 필요하며, 이는 더 큰 모델로만 달성할 수 있다. 연구 결과: 작은 모델이 자신의 한계를 아는 것이 더 쉬울 수 있다. 예를 들어, 마오리어 질문에 답하라는 요청을 받았을 때, 마오리어를 전혀 모르는 작은 모델은 단순히 "모르겠습니다"라고 말할 수 있지만, 마오리어를 어느 정도 아는 모델은 자신의 확신 수준을 결정해야 한다. 논문에서 논의된 바와 같이, "보정(calibrated)"되는 것은 정확해지는 것보다 훨씬 적은 계산을 필요로 한다.

주장: 환각 현상은 현대 언어 모델의 신비로운 결함이다. 연구 결과: 우리는 환각 현상이 발생하고 평가에서 보상받는 통계적 메커니즘을 이해하고 있다.

주장: 환각 현상을 측정하기 위해서는 좋은 환각 평가가 필요하다. 연구 결과: 환각 평가는 이미 발표되었다. 그러나 하나의 좋은 환각 평가는 겸손함을 불리하게 만들고 추측을 보상하는 수백 개의 전통적인 정확도 기반 평가에 맞서기에는 거의 효과가 없다. 대신, 모든 주요 평가 지표가 불확실성의 표현을 보상하도록 재정비되어야 한다.

저희의 최신 모델들은 더 낮은 환각 현상 발생률을 보이며, 저희는 언어 모델이 출력하는 확신에 찬 오류의 비율을 더욱 줄이기 위해 계속 노력하고 있습니다.


[주석] 번역 과정 설명

  • 분석 (Analysis):

    • 본 텍스트는 OpenAI에서 발표한 기술 에세이/연구 간행물로, 언어 모델의 '환각 현상(hallucination)'의 원인을 진단하고 해결책을 제시하는 내용을 담고 있습니다.

    • 핵심 주장은 현재의 평가 방식(evaluation)이 모델이 불확실성을 인정하기보다 추측하도록 유도하여 환각 현상을 지속시킨다는 것입니다.

    • 전문가 및 AI에 관심 있는 일반 대중을 대상으로 하며, 권위 있고 정보 전달적인 어조를 유지합니다.

  • 전략 (Strategy):

    • 페르소나의 설정값(직역: 0.3, 의역: 0.7)과 텍스트의 장르(에세이)를 고려하여, 원문의 의미를 정확히 전달하면서도 한국어 독자에게 자연스럽고 명료하게 읽히도록 의역에 비중을 둔 번역 전략을 채택했습니다.

    • 컨텍스트: 전문가 설정에 따라, AI 및 머신러닝 분야에서 통용되는 전문 용어를 일관되게 사용하여 번역의 전문성을 높였습니다.

  • 주요 용어 번역 (Key Terminology Translation):

    • Hallucination: 환각 또는 환각 현상. 문맥에 따라 '현상'을 붙여 기술적 용어로서의 의미를 강조했습니다.

    • Evaluation (eval): 평가, 성능 평가. 'eval'이라는 구어적 축약형 대신 공식적인 용어를 사용했습니다.

    • Stubbornly hard to solve: 해결하기 어려운 고질적인 문제. 'stubbornly'의 뉘앙스를 '고질적인'으로 번역하여 문제의 지속성을 표현했습니다.

    • Abstention: 기권, 답변 보류. 문맥상 더 자연스러운 표현을 선택하여 사용했습니다.

    • Teaching to the test: 시험 점수 위주의 평가 방식. 직역인 '시험에 맞춰 가르치기'보다, 본문 내용의 핵심인 '평가 방식'의 문제를 부각하는 표현으로 의역했습니다.

    • Scoreboards / Leaderboards: 순위표, 리더보드. 기술 분야에서 널리 사용되는 '리더보드'를 적절히 병기하여 이해를 도왔습니다.

    • Calibrated: 보정, 캘리브레이션. 원어의 느낌을 살리면서도 의미를 명확히 하기 위해 '보정(calibrated)'과 같이 병기하는 방식을 고려했으나, 문맥의 흐름을 위해 최종적으로는 '보정' 또는 '보정되는 것'으로 통일했습니다.

  • 결론 (Conclusion):

    • 최종 번역본은 원문의 논리적 구조와 권위 있는 어조를 유지하면서, 핵심 개념과 주장이 한국 독자에게 명확하게 전달되도록 하는 데 중점을 두었습니다. 비유(객관식 시험, 반려동물 생일)를 자연스럽게 한국어 문맥에 맞게 풀어내어 가독성을 높였습니다.


논문 Why Language Models Hallucinate (2025.09.04)

https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

(파인만 기법으로 쉽게 정리한 글)

AI는 왜 거짓말을 할까? - ChatGPT가 틀린 정보를 자신있게 말하는 이유

메타 디스크립션: AI 환각 현상이 왜 발생하는지 쉽게 설명합니다. 시험 보는 학생에 비유해서 ChatGPT와 같은 AI가 거짓 정보를 생성하는 근본 원인과 해결책을 알아보세요.

핵심 요약

  • AI 환각: AI가 그럴듯하지만 틀린 정보를 확신에 차서 제공하는 현상

  • 발생 원인: 훈련 방식과 평가 방식이 "모르겠다"보다 "추측"을 선호하도록 설계됨

  • 비유: 시험에서 모르는 문제에 빈칸을 두면 0점, 추측해서 쓰면 점수를 받을 가능성이 있는 상황

  • 해결책: 평가 방식을 바꿔서 불확실할 때 솔직하게 말하도록 유도


AI가 만들어낸 가짜 정보들

ChatGPT에게 "아담 칼라이의 생일이 언제야? 안다면 월-일 형태로만 대답해줘"라고 물어보면 어떻게 될까요?

같은 AI 모델이 세 번에 걸쳐 서로 다른 날짜를 제시했습니다:

  • "03-07" (3월 7일)

  • "15-06" (6월 15일)

  • "01-01" (1월 1일)

실제 정답은 가을 어느 날인데 말이죠. "안다면"이라는 조건을 명시했음에도 AI는 확신에 찬 듯 틀린 정보를 제공했습니다.

시험 보는 학생으로 이해하는 AI 환각

왜 AI는 "모르겠다"고 말하지 않을까?

상상해보세요. 한 학생이 어려운 시험을 치르고 있습니다.

상황 1: 객관식 시험

  • 문제: "한국 최초의 커피숍은 언제 생겼을까?"

  • 학생이 확실히 모르는 상황

  • 선택지: ① 빈칸으로 둔다 ② 적당히 찍는다

결과: 빈칸은 무조건 0점, 찍으면 25% 확률로 점수를 받습니다.

합리적인 학생이라면 어떻게 할까요? 당연히 찍겠죠.

AI도 마찬가지입니다

현재 AI 평가 방식은 이런 시험과 똑같습니다:

  • 정답: 1점

  • 오답: 0점

  • "모르겠다": 0점

AI 입장에서는 불확실해도 추측하는 것이 더 유리한 구조입니다.

날씨 예보관으로 이해하는 AI 학습 과정

잘못된 학습이 만드는 문제

AI가 학습하는 과정을 날씨 예보관으로 비유해보겠습니다.

예보관의 학습 과정:

  1. 과거 날씨 데이터를 분석

  2. 패턴을 찾아서 예측 모델 생성

  3. 새로운 날에 대한 예보 제공

문제점:

  • 훈련 데이터에 없는 새로운 상황이 나타나면?

  • 패턴이 명확하지 않은 경우에는?

생일 정보의 함정

논문에서 제시한 흥미로운 발견:

  • 자주 언급되는 유명인 (아인슈타인 등): AI가 정확히 답변

  • 한 번만 언급된 사람들: AI가 환각을 일으킬 확률이 20% 이상

이는 마치 시험 범위를 여러 번 공부한 부분은 잘 기억하지만, 한 번만 본 내용은 헷갈리는 것과 같습니다.

교육 시스템이 만든 근본적 문제

인간과 AI의 다른 학습 환경

인간의 경우:

  • 학교에서는 추측을 배움 (시험 점수를 위해)

  • 사회에서는 솔직함을 배움 ("모르겠다"고 말하는 것이 더 나을 때가 많음)

AI의 경우:

  • 평생 "시험 환경"에서만 평가받음

  • "모르겠다"고 말할 기회가 거의 없음

평가 방식의 문제점

현재 AI 성능을 측정하는 주요 벤치마크들을 분석한 결과:

  • 90% 이상이 정답/오답 방식으로만 평가

  • "모르겠다"는 답변에 대해서는 점수를 주지 않음

평가 방식정답오답"모르겠다"
현재 방식1점0점0점
개선된 방식1점-2점0점

구체적인 해결책들

1. 신뢰도 기반 평가 도입

제안 방식:

"75% 이상 확신할 때만 답하세요. 틀리면 2점 감점, 맞으면 1점, '모르겠다'는 0점입니다."

이렇게 하면 AI가 불확실할 때 솔직하게 "모르겠다"고 말하게 됩니다.

2. 다층적 신뢰도 표현

현재: "김철수의 생일은 3월 15일입니다." 개선: "김철수의 생일에 대한 확실한 정보를 찾지 못했습니다. 추측하자면 봄 즈음일 가능성이 있지만, 정확하지 않을 수 있습니다."

3. 평가 기준의 다양화

기존 평가 요소:

  • 정확도만 측정

새로운 평가 요소:

  • 정확도 + 솔직함 + 유용성

실생활에서 AI 환각 대처법

사용자가 할 수 있는 것들

1. 비판적 사고 유지

  • AI 답변을 무조건 신뢰하지 말 것

  • 중요한 정보는 반드시 추가 확인

2. 효과적인 질문 방법

  • "확실하지 않다면 솔직히 말해줘"라는 문구 추가

  • "정보의 출처나 근거를 알려줘"라고 요청

3. 맥락 정보 제공

  • 구체적이고 명확한 질문하기

  • 필요한 배경 정보 함께 제공

기업과 개발자들의 역할

단기 해결책:

  • 불확실성 표현 방법 개선

  • 검색 결과와 연동한 팩트체크

장기 해결책:

  • 평가 기준 개선

  • 신뢰도 기반 학습 방법 도입

미래의 AI는 어떻게 달라질까?

기술적 발전 방향

1. 검색 연동형 AI

  • 실시간 정보 검색으로 환각 감소

  • 단, 완벽한 해결책은 아님

2. 추론 과정 공개

  • AI가 어떻게 결론에 도달했는지 설명

  • 사용자가 신뢰성을 직접 판단 가능

3. 개인화된 신뢰도 조절

  • 사용자별로 AI의 "대답 기준" 조정 가능

  • 보수적 vs 적극적 응답 모드 선택

사회적 변화의 필요성

교육 분야:

  • AI와 함께 일하는 법 교육

  • 정보 검증 능력 향상

평가 분야:

  • 새로운 AI 성능 측정 기준 개발

  • "솔직함"을 포함한 종합적 평가

마무리: AI 환각을 이해하는 것의 중요성

AI 환각 현상은 기술의 한계가 아니라 설계의 문제입니다. 마치 시험에서 찍기를 장려하는 채점 방식처럼, 현재의 AI 훈련과 평가 방식이 환각을 조장하고 있습니다.

핵심 교훈:

  1. AI가 확신에 찬 말투로 답한다고 해서 반드시 옳은 것은 아님

  2. "모르겠다"고 말할 수 있는 AI가 오히려 더 신뢰할 만함

  3. 평가 방식을 바꾸면 AI의 행동도 바뀔 수 있음

앞으로는 "모든 것을 아는 척하는 AI"보다 "자신의 한계를 아는 AI"가 더 가치 있을 것입니다.

이러한 변화를 만들어가는 것은 개발자들만의 몫이 아닙니다. 사용자인 우리 모두가 AI와 상호작용하는 방식을 개선하고, 더 나은 AI 평가 기준을 요구할 때 진정으로 신뢰할 수 있는 AI를 만날 수 있을 것입니다.


참고자료:

  • Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). "Why Language Models Hallucinate"

  • OpenAI GPT-4 Technical Report (2023)

  • 다양한 AI 벤치마크 분석 결과

태그: AI환각, ChatGPT, 인공지능, 머신러닝, 신뢰성, 기술윤리