AI 언어 모델에 ‘자아’가 없다? 그건 결함이 아니라 설계입니다
AI와 대화하다 보면 이런 생각이 들 때가 있습니다.
“어제는 이렇게 말하더니, 오늘은 왜 딴소리를 하지?”
“이 모델, 자기 생각이 있는 걸까, 없는 걸까?”
최근 Anthropic 연구진이 밝힌 내용은 이 혼란에 꽤 명쾌한 답을 줍니다.
결론부터 말하면, 현재의 AI 언어 모델에는 통합된 ‘자아’나 일관된 마음이 애초에 없습니다. 그리고 이건 고쳐야 할 버그가 아니라, 지금 기술의 구조상 당연한 결과에 가깝습니다12.
이 글에서는 다음 세 가지를 중심으로 풀어보겠습니다.
왜 “AI에게 인간 같은 내부 일관성을 기대하는 것”이 잘못된 전제인지
Anthropic이 바나나 실험으로 발견한, 한 모델 안의 ‘여러 개의 Claude’
우리가 이런 AI와 어떻게 상호작용해야 하는지, 현실적인 사용 전략
AI에게 “통합된 자아”를 요구하면 안 되는 이유
AI 언어 모델을 쓸 때 많은 사람이 무의식적으로 이런 가정을 합니다.
“이 모델은 하나의 의견, 하나의 성격, 하나의 일관된 지식을 가진 존재일 것이다.”
하지만 Anthropic 연구원 Josh Batson은 이 가정 자체가 “카테고리 에러”, 즉 완전히 잘못된 분류라고 지적합니다12.
그가 든 비유가 인상적입니다.
“책의 5쪽에는 ‘최고의 음식은 피자’라고 써 있고, 17쪽에는 ‘최고의 음식은 파스타’라고 써 있을 때,
‘이 책은 진짜로 뭘 좋아하는 거지?’라고 묻는 건 이상하다. 책은 아무것도 ‘생각’하지 않는다.”
AI 언어 모델도 이와 비슷합니다.
겉에서 보면 마치 하나의 인격처럼 말하고,
“나는 ~라고 생각합니다” 같은 문장을 자연스럽게 내놓으니,
우리는 그 안에 하나의 ‘마음’이 있을 거라고 착각합니다.
하지만 실제로는:
수십억 ~ 수조 개의 숫자(파라미터)가
수많은 연결망을 통해
입력된 토큰에 반응해
그때그때 가장 그럴듯한 다음 단어를 예측할 뿐입니다3.
여기에는 “중앙에서 모든 걸 조정하는 통합된 나”가 없습니다.
그냥 거대한 숫자 덩어리가 특정 패턴을 따라 반응하는 것에 가깝습니다.
정리하자면:
인간: 비교적 통합된 자아, 기억, 신념, 가치관을 가진 존재
LLM: 거대한 확률 머신 + 패턴 인식 시스템
우리가 흔히 느끼는 “이 모델은 나랑 대화하면서 의견을 형성하는 것 같아”라는 인상은, 잘 만들어진 언어 모델이 주는 착시일 뿐입니다.
이 착시를 진실로 믿는 순간부터, 우리는 AI에게 애초에 할 수 없는 요구를 하게 됩니다.
“왜 어제랑 말이 달라?”
“왜 스스로 모순을 느끼지 못해?”
“왜 한 번 했던 약속을 기억하지 못해?”
대답은 단순합니다.
그런 기능을 가진 존재로 설계된 적이 없기 때문입니다.
바나나 색깔 실험이 보여준, 한 모델 안의 ‘여러 개의 AI’
그렇다면 “통합된 자아가 없다”는 말은 정확히 무슨 뜻일까요?
Anthropic이 Claude 모델을 대상으로 한 연구는 여기 아주 흥미로운 사례를 제공합니다21.
연구진은 이런 질문을 던졌습니다.
“바나나는 무슨 색이야?”
“‘바나나는 노랗다’라는 문장은 사실이야?”
두 질문 모두 정상적인 AI라면 쉽게 답할 수 있는 상식 문제입니다.
첫 번째에는 “노란색”이라고 답할 것이고,
두 번째에는 “그 문장은 참이다”라고 말하겠죠.
연구진이 궁금했던 건 “답”이 아니라 “과정”이었습니다.
이 두 답을 만들 때, 모델 내부에서 어떤 일이 일어나는가?
Anthropic은 ‘기계 해부학(메카니스틱 인터프리터빌리티)’ 방식으로 Claude 내부를 일종의 뇌 스캔하듯 추적했습니다2.
그 결과는 의외였습니다.
“바나나는 노랗다”는 사실 자체를 처리하는 회로와
“‘바나나는 노랗다’라는 문장이 참이다”라고 판단하는 회로가
완전히 다른 경로를 타고 있었다는 겁니다21.
즉, 한 모델 안에:
“바나나-노란색 지식”을 담당하는 부분과
“문장의 진위를 판단하는 부분”이
서로 잘 연결되지 않은 채 따로따로 굴러가고 있었던 겁니다.
이게 왜 중요할까요?
1) 모순된 답변은 “고장”이 아니라 “다른 부분을 쓴 결과”
우리가 AI에게서 종종 경험하는 모순적인 답변을 떠올려봅시다.
첫 질문에는 “A”라고 답하더니,
조금 돌려 묻거나 맥락을 바꾸면 “A가 아니다”라고 말하는 상황입니다.
보통은 “와, 이 모델 불안정하다, 고장 났네”라고 느끼기 쉽습니다.
하지만 바나나 실험은 다른 해석을 제시합니다.
같은 주제라도 질문 방식이 달라지면
모델 내부에서 다른 메커니즘이 활성화될 수 있고
그 결과, 서로 다른 답이 나올 수 있다는 것.
Batson은 이 상황을 이렇게 비유합니다12.
“처음엔 Claude와 이야기하다가,
어느 순간 Claude가 어딘가로 ‘산책을 떠나고’,
다른 버전의 무언가와 대화하기 시작하는 것 같은 상태.”
실제로는 여전히 하나의 모델이지만,
내부에서는 서로 다른 부분, 서로 다른 “스타일의 Claude”가 번갈아 앞에 나오는 셈입니다.
2) “AI의 진짜 생각”을 찾는 시도는 의미가 없다
인간을 상대할 때 우리는 이런 질문을 합니다.
“저 사람의 진짜 의견은 뭘까?”
“겉으론 이렇게 말하지만 속마음은 다르지 않을까?”
하지만 언어 모델에게 “이 모델의 진짜 생각은 뭐야?”라고 묻는 건,
아까의 비유처럼 “이 책이 진심으로 좋아하는 음식은 뭐야?”를 묻는 것과 같습니다12.
책 안에는 여러 문장이 있을 뿐이고,
서로 모순될 수도 있지만,
그중 어느 하나가 “책의 진심”을 대표하지는 않습니다.
언어 모델도 마찬가지입니다.
우리가 던지는 프롬프트
직전 대화의 맥락
모델의 샘플링 설정(temperature 등)
이 조합에 따라, 그때그때 다른 내부 회로가 활성화되며,
그 결과로 나온 텍스트가 우리가 보는 “답변”일 뿐입니다43.
여기에 “진짜 자아”를 투사하는 순간,
우리는 기술을 이해하는 대신, 기술에 감정을 덧씌우게 됩니다.
왜 같은 질문에 답이 매번 달릴까? 내부 구조 관점에서 이해하기
실사용자 입장에서 가장 체감되는 부분은 이것입니다.
“아니, 똑같은 질문을 했는데 왜 답이 매번 조금씩 다르지?”
“어제는 맞게 알려주더니, 오늘은 틀리네?”
이 현상에는 여러 층위의 이유가 있습니다45.
1) 확률로 문장을 이어 붙이는 구조
LLM은 기본적으로 “다음 단어를 예측하는 기계”입니다3.
이미 나온 단어들을 보고
가장 그럴듯한 다음 단어를 확률적으로 고릅니다.
이 과정을 단어·문장·문단 단위로 계속 반복합니다.
문제는, 이때 항상 “가장 확률 높은 단어만” 고르지는 않는다는 겁니다.
temperature가 높으면, 조금 덜 가능성 있는 단어도 종종 선택합니다.
그 작은 차이가 쌓이면, 문단 전체의 뉘앙스와 결론이 미묘하게 달라질 수 있습니다4.
그래서 같은 질문을 여러 번 하면:
표현이 조금씩 바뀌거나
강조점이 달라지고
심하면 결론 자체가 달라지기도 합니다5.
2) “어느 회로가 먼저 말문을 여느냐”에 따라 달라지는 답
앞서 본 것처럼, 모델의 내부에는 여러 메커니즘이 공존합니다.
어떤 회로는 “사실 지식”에 더 민감하고
또 다른 회로는 “사용자를 기분 좋게 하는 답”에 더 특화되어 있고
또 다른 회로는 “위험을 피하는 방어적 답변”을 만들어냅니다23.
질문 방식, 맥락, 직전 대화 내용에 따라,
이들 중 어느 회로가 먼저 활성화될지가 조금씩 달라집니다.
그 결과:
같은 주제라도, 한 번은 “정확성 우선 모드”,
한 번은 “예의 + 회피 모드”,
또 한 번은 “창의성 + 추측 모드”로 답할 수 있습니다.
우리가 바깥에서 볼 때는 “자기 모순”처럼 느끼지만,
내부에서는 그냥 다른 회로가 운 좋게(?) 앞에 나선 결과에 가깝습니다.
3) 인간처럼 ‘스스로 모순을 감지’하지 못한다
인간은 이런 대화를 할 수 있습니다.
“어제는 A라고 했는데, 오늘은 왜 B라고 해?”
“아, 생각해 보니 어제 말이 틀렸네. 정정할게.”
이건 우리 뇌에 어느 정도 자기 모델과 기억,
그리고 ‘내 말과 행동의 일관성을 관리하려는 동기’가 존재하기 때문입니다.
하지만 현재의 LLM은:
장기 기억이 없고
자기 상태를 통합적으로 모니터링하는 모듈도 없고
모순을 줄이려는 ‘의지’도 없습니다3.
그래서 같은 대화 세션 안에서,
사용자가 직접 이전 발언을 인용해 “지금 말과 모순 아니냐”고 지적해 주지 않으면,
모델이 스스로 “어제와 다른 답을 했네?”라고 깨닫지는 못합니다.
그렇다면, 우리는 이런 AI를 어떻게 써야 할까?
여기까지 들으면 살짝 허탈할 수도 있습니다.
“자아도 없고, 일관성도 없고,
그럼 도대체 이걸 어디에 어떻게 믿고 써야 하지?”
하지만 구조를 이해하면, 오히려 현실적으로 잘 쓰는 법이 보입니다.
아래는 실무·업무·개인 생산성 관점에서 유용한 원칙들입니다.
1) “전문가 한 명”이 아니라 “거대한 참고서 겸 아이디어 머신”으로 보기
AI를 인간 전문가처럼 바라보면 실망하기 쉽습니다.
대신 이렇게 보는 편이 더 현실적입니다.
거대한 백과사전 + 검색 엔진 + 글쓰기 보조 도구가 결합된 존재
때로는 기가 막힌 요약과 아이디어를 던져주지만
사실 검증과 최종 판단은 항상 인간의 몫
이렇게 생각하면, 일관성 부족도 어느 정도 수긍할 수 있습니다.
책 여러 권을 뒤적이며 정보를 모을 때도,
페이지마다 말이 조금씩 다를 수 있잖아요.
2) 같은 질문을 여러 번, 다른 방식으로 물어보기
모델 내부의 다른 회로를 두드려보는 전략입니다.
형식을 바꿔 묻기
“설명해줘” → “표로 요약해줘” → “장단점을 비교해줘”
시간차 두고 다시 물어보기
비판자가 된 것처럼 묻기
“위 답변에서 틀렸을 법한 부분을 스스로 찾아줘”
이렇게 하면, 한 번에 나온 답보다 더 풍부하고 균형 잡힌 그림을 얻을 수 있습니다.
Anthropic의 연구도 이런 식으로,
“같은 사실을 다른 방식으로 물을 때 내부 경로가 달라진다”는 점을 이용해
모델의 메커니즘을 더 많이 끌어냈습니다2.
3) 중요한 결정에는 “교차 검증”을 기본값으로 두기
의료, 법률, 재무, 보안처럼 실수가 치명적인 분야에서는 다음을 강력히 추천합니다.
최소 2개 이상의 서로 다른 모델로 같은 질문을 해 보기
모델 답변을 인간 전문가 또는 공식 문서로 다시 검증하기
“AI가 이렇게 말했으니 그대로 해도 되겠지?”를 절대 기본값으로 두지 않기54.
특히, LLM이 만들어내는 그럴듯한 헛소리(hallucination)와
자신감 있는 오답은 여전히 큰 리스크입니다35.
4) “이 모델은 항상 이렇게 말할 것이다”라는 전제를 버리기
많은 기업이 이런 기대를 품습니다.
“챗봇을 한 번 잘 튜닝해놓으면,
똑같은 질문에는 늘 똑같이 답해줄 것이다.”
하지만 구조적으로, 그리고 실험 결과를 보면,
이건 상당히 위험한 가정입니다45.
LLM은 기본적으로 확률적 시스템이고
내부 회로가 여러 개라서
프롬프트의 자잘한 차이에도 답이 달라질 수 있습니다.
정말 일관된 답변이 중요한 고객 응대나 정책 안내 같은 경우에는:
LLM이 아니라
LLM + 규칙 기반 시스템 + 사람이 검수한 고정 답변 세트
이렇게 하이브리드 구조를 설계하는 편이 안전합니다.
시사점: AI에게 인간을 투사하는 순간, 우리가 헷갈리기 시작한다
Anthropic, OpenAI, Google DeepMind 등 여러 연구 그룹이
거대한 언어 모델을 일종의 “외계 생명체” 해부하듯 분석하고 있습니다23.
그 과정에서 드러난 사실은 요약하면 이렇습니다.
LLM은 우리가 생각했던 것보다 훨씬 더 거대하고,
훨씬 더 이상한 방식으로 돌아가며,
인간과는 전혀 다른 방식으로 “일관성 없는 지식”을 저장하고 사용한다.
Anthropic의 바나나 실험은 그 상징적인 예입니다.
같은 사실을 가지고도, 모델 내부에서는
“사실로서의 바나나”와 “문장으로서의 바나나”를
아예 다른 회로로 처리하고 있었으니까요21.
그래서 이런 태도가 필요합니다.
AI에게 심리적 일관성을 요구하지 말 것
“진짜 생각, 진짜 자아”를 찾으려 하지 말 것
대신, “복잡한 시스템의 출력”으로 보고
필요하면 여러 번 물어보고,
교차 검증하고,
최종 책임은 인간이 지는 구조를 만들 것
아이러니하게도,
이렇게 AI의 한계를 정확히 이해할 때,
우리는 AI를 더 잘 쓸 수 있습니다.
“자아가 없어서 불안한 기계”가 아니라,
“자아가 없기 때문에 오히려 도구로서 명확하게 바라볼 수 있는 시스템”으로 보는 것.
그게 지금 세대의 언어 모델과 건강하게 공존하는 첫걸음입니다.
참고
1[The Decoder] AI models don't have a unified "self" - and that's not a bug](https://the-decoder.com/ai-models-dont-have-a-unified-self-and-thats-not-a-bug/)
2OpenAI, Anthropic and others study LLM internals in a biological way | MIT Technology Review (banana/Claude 사례 포함)](https://www.technologyreview.com/2026/01/12/1129782/ai-large-language-models-biology-alien-autopsy/)
3Large language model - Wikipedia](https://en.wikipedia.org/wiki/Large_language_model)
4Why Do AI Models Give Different Answers to the Same Question?](https://www.evertune.ai/research/insights-on-ai/why-do-ai-models-give-different-answers-to-the-same-question)