4400만 원 보고서에 AI 오류, 실제 발견 사례와 정부 대응 총정리

최근 호주 정부가 델로이트에 의뢰한 복지 시스템 검토 보고서에서 인공지능(AI) 활용이 드러나며, 실제로 발생한 오류들이 큰 이슈가 되었습니다. 복지 정책에 중요한 영향을 미칠 수 있는 내용이었기에 논란은 더욱 커졌고, 실제 현장에서 어떤 문제가 있었는지, 정부와 전문가들은 어떻게 대응했는지를 구체적으로 정리합니다.

오류 발견의 배경과 실제 사례

지난 8월, 시드니대 법학과의 크리스 러지가 정부에 제출된 델로이트 보고서를 꼼꼼히 검토하던 중 20건이 넘는 실수와 허위 정보를 발견하게 되었습니다. 특히 인용 문헌과 참고 자료에서 계속해서 단순 숫자 오류, 동료의 이름이 들어간 익숙한 책 제목, 존재하지 않는 서적 등 복합적인 문제가 반복적으로 드러났습니다.

예를 들어, 보고서에는 실제 연방 법원의 핵심 판례를 잘못 언급하면서 존재하지 않는 판결문 단락과 허구의 인용문이 포함되어 있었습니다. 한 판사의 이름 역시 오기되어, 원래 이름은 멜리사 페리임에도 불구하고 나탈리 키스 페리로 잘못 기록되었고, 그가 발표하지 않은 연설이 인용되는 등 기본적인 사실 확인조차 누락된 사례도 있었습니다.

보고서가 인용한 학자인 리사 버튼 크로포드는 직접 자신의 저서를 확인한 결과, 보고서에 자신의 이름으로 잘못된 책 제목과 주제가 명기되어 있었다고 밝혔습니다. 실제로 그런 책은 존재하지 않았으며, AI가 존재하지 않는 문헌을 만들어낸 전형적인 'AI 환각' 사례라는 점이 강조되었습니다.

고비용 보고서의 AI 활용과 논란

델로이트가 작성한 이 보고서는 약 44만 달러(한화 약 4400만 원)의 예산이 투입된 손쉬운 과업이 아니었습니다. 특히, 과거 '로보데트' 스캔들로 인해 진위 확인 및 정확한 정책 검토가 매우 중요하게 요구되던 시점이었습니다. 그러나 AI가 작성 과정에서 사용되었고, 오류와 허위 인용 등이 빈번하게 발생해 신뢰도와 품질 자문에 대한 의문이 크게 제기되었습니다.

더욱이, 델로이트 측은 보고서 생성 과정에 MS Azure 기반 AI 툴을 활용했다는 점을 뒤늦게 고지했으며, 보고서의 어느 부분까지 인공지능이 작성했는지, 오류 발생 책임에 대해 구체적인 설명을 피했습니다.

정부와 사회의 반응, 실제 조치

크리스 러지가 언론에 문제를 공개하자, 정부는 즉각 델로이트에 보고서 수정과 오류 시정을 요청했고, 최종적으로 9만7천 달러 상당의 부분 환불을 받게 되었습니다. 정부 관계자는 "이런 품질의 보고서에 전액을 지급할 수 없다"고 밝혔으며, 특히 고위 정책 결정에 참고되는 문건에 이같은 오류가 그대로 수용될 위험성을 강조했습니다.

사실, 이번 사건은 정부가 왜 민간 컨설팅을 이용하느냐에 대한 근본적인 의문을 낳았습니다. 신규 계약 48건, 2.5억 달러 매출 등 델로이트의 호주 정부 수주가 활발하게 진행 중인 가운데, 품질 검증 및 AI 사용 현황 공개, 검증 절차의 투명성이 필요하다는 지적도 커졌습니다.

AI 활용의 한계와 실제 리스크

법률, 학계 등에서 AI를 활용한 문서가 늘어나는 가운데, 잘못된 인용, 오류, 가공의 판례가 실제 의사결정에 반영될 수 있다는 현장의 우려도 강하게 대두되고 있습니다. 최근에는 법률업계 일부 변호사들이 잘못된 판례와 허위 정보를 법원에 제출하는 실수도 발생하고 있어, 인공지능이 자동으로 생성한 결과물을 사람이 꼼꼼히 검증하지 않을 경우 정책이나 판결에 직접적 악영향을 줄 수 있음이 확인되었습니다.

실제로 보고서, 논문, 법적 문서가 AI 기반으로 작성된 것인지 판별하는 것은 쉽지 않습니다. AI 생성물 검증 도구도 있으나, 그 신뢰도 역시 계속 논란이 되고 있습니다. 이런 복합적인 상황은 사용자와 정책 담당자가 AI 활용 방식을 근본적으로 재점검할 필요성을 보여주고 있습니다.

실제 활용과 주의점, 앞으로의 기준

현재로서는 AI가 자동으로 생성한 보고서나 결과물에 대한 신뢰성이 불충분할 수 있으며, 반드시 전문가가 수기로 확인하는 절차가 필요합니다. 특히 정책 변경, 제도 개선 등 실질적 결과에 영향을 줄 수 있는 문건에는 과도한 AI 의존도를 경계하는 것이 중요합니다. 또한, 향후 정부나 기관에서는 컨설팅사에 AI 활용 사실 공개와 품질 관리 시스템 강화를 요구하는 흐름이 더욱 확산될 전망입니다.

이 사건을 통해 드러난 핵심 교훈은, AI가 만들어내는 '환각'과 오류를 사람이 얼마나 효과적으로 걸러낼 수 있는지에 따라, 미래 사회의 의사결정 품질이 좌우될 수 있다는 점입니다. 실제 보고 사례와 정확한 데이터, 그리고 각 계의 반응은 AI 활용성과 한계를 깊이 고민할 근거로 작용하고 있습니다.

정책, 보고서, 연구 등 실제 문서에 AI가 쓰인다면, 반드시 여러 단계의 검증과 품질 점검이 필수적임을 이번 사건이 명확히 보여주고 있습니다. 복지나 법률 등 높은 신뢰도가 요구되는 업무일수록 AI의 결과를 그대로 받아들이는 대신, 사람이 직접 검토하고, 반복적으로 신뢰성을 점검할 필요가 있습니다.

출처 및 참고 :