LLM과 과학 논문: 환각, 인용 오류, 재현성 논쟁 정리

핵심 요약

NeurIPS 2025 논문들에서 발견된 인용 오류를 계기로, LLM(대형 언어 모델)을 연구 논문 작성에 어디까지 허용할 수 있는지에 대한 격렬한 논쟁이 벌어지고 있다.

표면적인 인용·저자 표기 오류 너머로, 연구 검증·재현성 위기, 학계 인센티브 구조, LLM의 적절한 활용 범위를 어떻게 정할지에 대한 근본적인 질문이 드러나고 있다.

NeurIPS 2025 사건: 무엇이 문제의 출발점인가

GPTZero라는 서비스가 NeurIPS 2025 채택 논문들을 분석해 "약 100개의 새로운 환각(hallucination) 사례"를 발견했다고 주장한 것이 논쟁의 시작이다.

대표적인 사례로, 실제 존재하는 논문을 인용했지만 저자 두 명이 빠지고 다른 사람이 추가되어 있었고, 학회 이름(ICLR 2024)이 잘못 기재되어 있었다. 인용된 논문 자체는 실제로 존재하지만, 메타데이터(저자·발표 장소)가 뒤섞인 것이다.

또 다른 예시로, 인용문에 저자가 "John Smith와 Jane Doe" 같은 가짜 플레이스홀더 이름으로 들어간 경우도 발견되었다. 일부 항목은 명백한 자리표시자처럼 보였지만, 일부는 가짜 DOI·URL까지 포함한 완전한 허구 인용이었다.

이 도구는 이런 사례를 "확정된 환각(confirmed hallucinations)"이라고 부르지만, 댓글에서는 "정말 LLM 탓인지, 아니면 기존에 흔하던 인용 실수인지"에 대해 논쟁이 이어진다.

인용 오류인가, LLM 환각인가: 해석의 갈림길

첫 번째 쟁점은 "이 오류들을 LLM 환각이라고 불러도 되는가"이다.

한 연구자는 자신이 공저자로 참여한 논문이 잘못 인용된 사례를 살펴보고, 이것이 LLM 오토컴플리션으로 생긴 실수일 가능성은 인정하면서도, 이 인용은 논문 핵심이 아닌 배경 설명에 쓰인 것이라 과대해석은 경계해야 한다고 말한다.

다른 이들은 "유사한 인용 오류는 예전부터 있었다"고 지적한다. 오래된 BibTeX 파일, Google Scholar의 잘못된 메타데이터, 출판사 사이트의 형식 오류 등으로 저자·발표 형식이 꼬이는 일은 이미 흔했다는 것이다.

반대로, "존재하지 않는 논문, 가짜 DOI, 플레이스홀더 이름까지 등장하는 수준이면, 과거의 '부주의'와는 질적으로 다르다"며 LLM 사용을 강하게 의심하는 목소리도 있다. 특히 "인용을 복붙만 해도 막을 수 있는 수준의 오류를 그대로 통과시킨 것" 자체가, LLM이 초안을 쓰고 사람이 제대로 검토하지 않았다는 간접 증거라고 본다.

사소한 인용 오류인가, 연구 신뢰 붕괴 신호인가

둘째 쟁점은 "이런 오류를 얼마나 심각하게 봐야 하는가"이다.

한 입장은, 인용에서 저자 한두 명이 잘못 들어간 정도는 "철자 오류와 비슷한, 비교적 무해한 실수"라고 본다. DOI 검사를 한 번만 돌렸어도 바로 잡을 수 있고, 논문의 실험·결과 자체에는 영향을 안 줄 수도 있다는 것이다. 실제로 다른 분야에서는 "재현 자체가 안 되는 핵심 실험"이 절반이 넘는 경우도 있는데, 이에 비하면 인용 실수 1%는 그리 큰 숫자가 아니라는 주장도 나온다.

반대 입장은, 이런 오류들이 "논문이 대충 작성되었고, 저자와 리뷰어 모두 충분히 검토하지 않았다"는 시그널이라고 본다. 인용은 논문의 문맥과 지적 계보를 보여주는 중요한 장치인데, 여기서조차 AI가 만들어준 내용을 그대로 믿고 검토하지 않았다면, 본문 실험·결과 파트는 오죽하겠냐는 것이다.

결국 논쟁의 핵심은 "사소해 보이는 오류를 연구 전체의 신뢰도에 대한 지표로 볼 것인가, 아니면 단순 부주의로 취급할 것인가"로 정리된다.

LLM 활용에 대한 윤리 논쟁: 어디까지가 허용인가

가장 뜨거운 논쟁은 "연구자가 LLM을 논문 작성에 쓰는 것이 정당한가"이다.

한쪽에서는, LLM을 사용해 텍스트를 생성하고 이를 자신의 저작물로 발표하는 것은 "형편없고 무책임하며, 본질적으로 표절에 가깝다"고 강하게 비판한다. 특히 환각을 걸러내지 못한 것은 "부정 행위를 제대로 숨기지 못한 증거"고, 이런 것을 허용하는 학계는 마땅히 평판 하락과 실무 혼란을 감수해야 한다고 본다.

반대편에서는, "계산기·위키피디아가 처음 나왔을 때도 비슷한 비난이 있었다"며, LLM을 도구로 사용하는 것 자체를 비난하는 태도는 과장된 도덕주의라고 본다. 계산기나 위키가 인간 판단을 완전히 대체하진 않지만, 생산성과 편의를 크게 높인 것처럼, LLM도 적절한 용도를 찾으면 유용한 도구가 될 수 있다는 입장이다.

여기서 중요한 분기점은 "어디까지가 도구 사용이고, 어디부터가 '내가 하지 않은 작업을 내 것이라 주장하는' 부정인가"이다. 문법 교정·표현 다듬기·번역 같은 보조 작업은 합법적인 도움으로 보는 사람도 많지만, 서론·관련 연구·결론 전체를 AI에 쓰게 하는 것은 명백히 선을 넘는다고 보는 시각이 강하다.

LLM의 정당한 활용: 번역·교정 vs 내용 생성

논쟁 속에서도 비교적 합의에 가까운 부분이 있다. 바로 "언어 보조"로서 LLM의 역할이다.

영어가 모국어가 아닌 연구자들은, 전통적인 기계 번역(예: 구글 번역)이 전문적인 논문 수준의 품질을 내지 못해 오랫동안 불리함을 겪어 왔다. LLM 기반 번역은 문장 구조와 맥락을 잘 살리기 때문에, 모국어로 논문을 쓰고 영어로 번역하는 데 유용한 도구가 될 수 있다는 평가가 많다.

또한, 동사 시제, 전치사, 접속사 사용 등 세밀한 문법 오류를 LLM에게 교정받는 용도는 많은 연구자가 실제로 활용하고 있고, 이를 "부정행위"로 보는 시각은 비교적 적다. 이 경우 핵심 아이디어·논리·구성은 저자가 직접 만들고, LLM은 '교열자' 역할을 하는 셈이기 때문이다.

다만, 번역이나 교정에 LLM을 쓰더라도, 최종 문장은 반드시 사람이 검토해야 하고, 가능하면 "LLM 번역·교정 사용"을 논문 어딘가에 명시해야 한다는 제안도 나온다. 번역 품질에 대해 책임을 지려면, 도구 사용 사실도 투명하게 밝혀야 한다는 논리다.

LLM을 계산기·위키와 비교하는 비유들

댓글에서는 LLM을 둘러싼 인식 차이를 보여주는 흥미로운 비유들이 많이 등장한다.

한쪽은 LLM을 계산기·위키백과와 비슷한 도구라고 본다. 계산기는 정확한 연산을 빠르게 해주고, 위키는 개괄적 정보를 신속히 제공해준다. 이들 역시 처음 등장했을 때 "학생들이 생각을 안 하게 된다", "믿을 수 없는 자료"라는 비판을 받았지만, 오늘날에는 "참고 도구로서, 검증을 전제로 사용"하는 것이 상식이 되었다. LLM도 "진리의 근원"이 아니라 "아이디어·검색·초안" 수준의 도구로 쓰면 된다는 주장이다.

다른 쪽은 이 비유를 거부한다. 계산기는 원리상 정답을 내도록 설계된 결정적 도구지만, LLM은 확률적 모델로서 동일 입력에도 다른 출력을 내고, 사실을 꾸며낼 수도 있다. 위키는 최소한 출처와 편집 기록이 남지만, LLM은 내부 생성 과정을 추적하기 어렵다. 그래서 "계산기처럼 믿어서는 안 되고, 항상 별도의 검증을 동반해야 한다"는 주장이다.

또 어떤 이는 "LLM을 진리의 원천으로 쓰는 것은 버터 나이프를 드라이버로 쓰는 것과 같다"며, 도구를 올바른 목적에 맞게 써야 한다고 강조한다. 정보 생성·요약·언어 교정에는 쓸 수 있지만, 사실 검증의 최종 권위자처럼 쓰면 안 된다는 뜻이다.

재현성 위기와 인센티브 문제: LLM은 촉매에 불과한가

논의는 곧 "LLM 이전부터 이어져 온 더 큰 문제"로 확장된다. 바로 재현성 위기와 학계 인센티브 구조다.

많은 연구자들이 "이미 수많은 고임팩트 논문들이 재현되지 않는다"고 지적한다. 실험 코드는 엉성하고, 데이터는 공유되지 않거나 불완전하며, 통계 처리는 미흡한데도, 논문은 화려한 스토리와 그림으로 포장되어 주목을 받는다.

문제는 "재현 연구"를 할 인센티브가 거의 없다는 점이다. 다른 사람의 결과를 검증하기 위해서는 시간·인력·실험 비용이 든다. 그러나 이런 결과는 "새로운 발견"이 아니라면 잘 출판되지도 않고, 연구자의 커리어에 도움이 되지 않는다.

여기에 LLM이 들어오면서, 논문 작성 속도가 더 빨라지고, 심지어 "겉으로만 그럴듯한 논문"을 대량 생산할 가능성이 생겼다. 많은 사람들은 "이제라도 재현성과 검증을 제도 차원에서 강화해야 한다"고 주장하지만, 실제로는 연구비·평가·승진 시스템 전체를 건드려야 해서 쉽지 않은 과제다.

인용 검증과 워크플로우: 기술적·제도적 보완 아이디어

인용 오류 문제를 두고, "이건 LLM 문제라기보다 워크플로우 문제"라는 지적도 나온다.

인용을 단순한 텍스트 조각이 아니라 "검증 가능한 객체"로 취급하면, 제출 시스템 수준에서 자동 검사가 가능하다는 생각이다. 예를 들어, 모든 인용을 "의존성(dependency)"처럼 보고, DOI·URL·제목·저자 정보를 자동 조회해 일치 여부를 검증하면, 존재하지 않는 논문·가짜 DOI는 애초에 통과하지 못하게 할 수 있다.

참고문헌 관리 도구도 이미 수십 년 전부터 존재한다. Zotero, Mendeley, Papers 같은 도구는 다수의 논문을 정리하고, BibTeX를 안정적으로 내보낼 수 있다. 이런 도구를 일관되게 사용하고, 새로 추가되는 인용은 사람이 2~5분 투자해 한 번씩 원문과 대조한다면, 지금과 같은 수준의 인용 오류는 상당 부분 줄일 수 있다.

또 어떤 연구자는, 아예 "재현·검증"을 1급 시민으로 취급하는 인프라를 만들려는 시도를 소개한다. 인용, 리뷰, 재현 실험 같은 행위를 각각 명시적으로 기록하고, 기계가 검증할 수 있도록 하는 시스템을 도입하면, "누가 무엇을 어떻게 검증했는가"를 보다 투명하게 추적할 수 있다는 발상이다.

인사이트

LLM이 학술 글쓰기에 들어오면서, 단순히 "AI를 쓰느냐 마느냐"를 넘어, 연구 윤리·검증 문화·인센티브 구조까지 한꺼번에 드러나고 있다.

현실적으로는 "완전 금지"와 "무제한 허용" 사이에서, 역할에 따라 선을 나누는 방향이 필요해 보인다.

내용 생성(아이디어 도출, 논리 구성, 결과 해석)은 여전히 인간 연구자의 책임 영역으로 남겨 두되, 번역·문법 교정·부분 요약 정도는 도구 사용으로 인정하고, 대신 "사용 사실 공개"와 "철저한 사람 검토"를 의무화하는 식이다.

실무적으로는, 논문을 읽을 때 인용과 참고문헌을 더 적극적으로 확인하고, LLM이 쓴 흔적이 보인다면 그 논문 전체의 내용을 한 번 더 의심해 보는 습관이 필요하다. 연구를 쓰는 입장에서는, 참고문헌 관리 도구와 DOI 검사를 기본으로 사용하고, LLM이 제공한 정보는 항상 원문을 대조한 뒤에만 채택하는 "이중 검증" 원칙을 세우는 것이 좋다.

결국 LLM은 계산기나 위키처럼 "잘 쓰면 강력한 도구, 잘못 쓰면 문제를 증폭시키는 위험 요소"다. 도구 자체를 악으로 볼 필요는 없지만, 인간 쪽의 책임·검증·투명성을 강화하지 않으면, 논문 한 편 한 편이 아니라 연구라는 활동 전체에 대한 신뢰가 조금씩 침식될 수 있다는 점을 기억해야 한다.

출처 및 참고 : GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers | Hacker News