메인 콘텐츠로 건너뛰기
조회수 3

HalluHard 벤치마크가 밝힌 충격: AI 환각, 아직도 끝나지 않았다

요약

HalluHard 벤치마크가 밝힌 충격: AI 환각, 아직도 끝나지 않았다

AI “환각(hallucination)”은 그럴듯하게 말하지만 사실이 아닌 내용을 만들어내는 현상입니다. 한동안 “요즘 모델은 검색만 붙이면 거의 안 틀린다”는 분위기가 있었죠. 그런데 스위스·독일 연구진이 공개한 새 벤치마크 Halluhard는, 최신 상위 모델조차 웹 검색을 켜도 오답/허구가 꽤 자주 나온다는 현실을 숫자로 보여줍니다12. 이 글에서는 Halluhard가 왜 더 무서운 테스트인지, 결과가 무엇을 의미하는지, 그리고 실무에서 어떻게 대비해야 하는지까지 한 번에 정리해보겠습니다.

HalluHard 벤치마크란? “실제 대화”를 흉내 낸 시험

기존의 많은 LLM 평가는 ‘한 번 묻고 한 번 답하는’ 단문 퀴즈에 가깝습니다. 그런데 우리가 AI를 쓰는 방식은 정반대예요. 보통 첫 답을 듣고 “그럼 이건?”, “근거는?”, “예외는?”처럼 꼬리를 물죠.

Halluhard는 이 지점을 정면으로 건드립니다. 950개의 초기 질문을 준비한 뒤, 각 질문마다 후속 질문 2개를 붙여 총 3턴 대화로 성능을 봅니다. 게다가 영역이 가볍지 않습니다. 법률 판례, 학술(연구) 질의, 의료 가이드라인, 프로그래밍처럼 틀리면 비용이 큰 고위험 도메인으로 구성했습니다2.

요약하면 “AI가 한 번 멋지게 맞히는지”가 아니라, 대화가 이어지는 동안도 계속 믿을 만한지를 시험한 겁니다.

최신 상위 모델도 3번 중 1번은 환각: “검색=해결”은 아님

가장 눈에 띄는 결론은 이겁니다. 검색을 켰는데도 강력한 구성의 모델에서 환각이 약 30% 수준으로 보고됩니다2. 즉, 대화 3번 중 1번 꼴로 “그럴듯한 오답”이 끼어들 수 있다는 뜻이죠.

그리고 더 중요한 비교가 있습니다. 같은 모델이라도 웹 검색을 끄면 환각이 약 60%로 뛰는 결과가 나옵니다2. 검색은 분명 도움 됩니다. 다만 “검색 붙이면 끝”이 아니라, 리스크를 ‘낮출’ 뿐 ‘종결’하지는 못한다는 게 Halluhard가 던지는 메시지입니다12.

현장에서 이 차이는 체감이 큽니다. 예를 들어 고객 응대 챗봇이 60% 틀리면 서비스가 무너지고, 30% 틀려도 사고가 납니다. 특히 법률·의료처럼 한 번의 오답이 신뢰를 파괴하는 분야라면요.

‘출처 링크’가 있어도 안심 금지: 내용 왜곡(콘텐츠 그라운딩)이 남는다

요즘 많은 제품이 “답변에 링크 달아줌”을 신뢰의 상징처럼 씁니다. Halluhard는 여기에도 경고등을 켭니다.

연구진은 환각을 두 겹으로 쪼갭니다. 첫째는 참조(Reference) 그라운딩—인용한 출처가 실제 존재하느냐. 둘째는 내용(Content) 그라운딩—그 출처가 모델의 주장 내용을 실제로 뒷받침하느냐 입니다2.

웹 검색은 첫 번째(출처 존재 여부)는 확실히 개선합니다. 하지만 문제는 두 번째입니다. 링크는 진짜인데, 링크가 말하지 않은 디테일을 모델이 덧칠하는 패턴이 꽤 남습니다2. 실무적으로는 “근거 있는 척하는 날조”가 가장 골치 아픕니다. 사람은 링크를 보는 순간 경계를 풀어버리거든요.

그래서 앞으로의 핵심은 “링크를 달아라”가 아니라, 주장-근거 정렬(이 링크의 어느 문장이 이 주장에 해당하나?)을 확인하라로 바뀌어야 합니다.

대화가 길어질수록 환각이 늘어나는 이유: ‘자기 오류’를 근거로 삼는다

Halluhard가 특히 현실적인 이유는, 대화가 길어질수록 AI가 더 위험해질 수 있다는 점을 보여주기 때문입니다. 많은 모델에서 후반 턴으로 갈수록 환각률이 상승하는 경향이 관찰됩니다2.

이게 왜 무섭냐면, 대화형 모델은 앞선 내용을 컨텍스트로 계속 물고 갑니다. 초반에 작은 오류가 섞이면, 그게 다음 턴에서는 “이미 합의된 전제”처럼 재사용됩니다. 연구에서도 1턴의 잘못된 참조가 이후 턴에서 다시 등장하는 현상이 보고됩니다2.

이 흐름은 “대화 길이가 길어지면 취약점이 드러난다”는 다른 멀티턴 평가 연구의 문제의식과도 맞닿아 있습니다. 단문 테스트에서 멀쩡해 보이던 모델이, 긴 상호작용에서 갑자기 다른 얼굴을 보인다는 거죠3.

예외도 있다: 코딩은 왜 뒤로 갈수록 더 나아질까?

재밌는 반전도 있습니다. 프로그래밍 영역에서는 대화가 진행될수록 환각이 줄어드는 경향이 관찰됩니다2. 이유는 직관적입니다.

코딩 대화는 보통 처음엔 “전체 설계”처럼 넓게 시작하지만, 몇 턴 지나면 “이 함수의 예외 처리만 고쳐줘”처럼 문제가 좁아집니다. 범위가 좁아질수록 모델이 상상으로 메우는 공간이 줄어들고, 검증도 쉬워집니다.

이 포인트는 실무 팁으로 바로 연결됩니다. 고위험 질문일수록 한 방에 크게 묻기보다, 작은 단위로 쪼개서 확인 가능한 단계로 몰아가는 게 안전합니다.

니치 지식이 제일 위험하다: “없는 것”보다 “희귀한 것”에서 더 틀린다

많은 사람이 환각을 “완전히 없는 걸 지어내는 현상”으로 생각합니다. 그런데 Halluhard의 통제 실험에서는, 세상에 없는 대상을 던지면 오히려 모델이 답변을 거절하는 경향이 보입니다. 반면 희귀 논문, 지역 작품 같은 니치 지식에서는 환각이 더 잘 발생합니다2.

왜냐하면 니치 정보는 학습 데이터에 ‘조각’으로만 남아 있는 경우가 많아서, 모델이 “나 이거 어렴풋이 알아” 모드로 들어가기 쉽습니다. 하지만 조각난 기억으로 정답을 재구성하는 건 실패하죠.

이건 기업 환경에서 특히 치명적입니다. 사내 규정, 로컬 프로세스, 내부 용어처럼 웹에 희박한 지식이 핵심인 조직은, “그럴듯한 오답”이 가장 자주, 가장 조용히 쌓일 수 있습니다.

마지막으로, “에이전트(agent)가 여러 단계로 도구를 쓰며 일하는 흐름”에서도 중간 단계 환각이 전체 결과를 망치고, 어떤 단계가 원흉인지 가려내는 것 자체가 어렵다는 별도의 벤치마크도 나왔습니다. 가장 잘하는 모델도 단계 위치를 정확히 맞히는 비율이 41.1%에 그쳤습니다4. 즉, 자동화가 복잡해질수록 “환각은 더 관리하기 어려운 리스크”가 됩니다.

시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...

Halluhard가 보여준 현실은 단순합니다. AI는 분명 좋아졌지만, 환각은 아직 구조적으로 남아 있고, 특히 대화가 이어질수록 그리고 니치 지식으로 갈수록 더 위험해질 수 있습니다12.

그래서 제품/운영 관점에서의 정답은 “검색 켜기” 하나가 아닙니다. 검색은 기본으로 두되, (1) 답변을 짧게 강제해 주장 수를 줄이고, (2) 턴이 늘어날수록 요약·정리로 컨텍스트를 정제하고, (3) 가장 중요한 주장에는 “이 문장을 뒷받침하는 출처의 정확한 문장”을 붙이게 하거나 사람 검토로 에스컬레이션하는 흐름을 넣는 게 안전합니다.

그리고 고위험 도메인이라면, “모르면 모른다고 말하기”를 기능이 아니라 정책으로 설계해야 합니다. 사용자에게는 불친절하게 보일 수 있지만, 장기적으로는 그게 서비스의 신뢰를 지키는 가장 현실적인 선택이니까요.

참고

1새로운 벤치마크에 따르면 AI 모델은 여전히 환각을 너무 자주 일으킨다

2HalluHard: A Hard Multi-Turn Hallucination Benchmark

3Is Length Really A Liability? An Evaluation of Multi-turn LLM Conversations using BoolQ

4AgentHallu: Benchmarking Automated Hallucination Attribution of LLM-based Agents

HalluHard 벤치마크가 밝힌 충격: AI 환각, 아직도 끝나지 않았다

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.