메인 콘텐츠로 건너뛰기

Your Brain on ChatGPT: 에세이 과제에서 LLM 사용의 인지적 비용 요약

요약

개요

이 논문은 대형 언어 모델(LLM, 예: ChatGPT), 웹 검색(검색엔진), 그리고 아무 도구도 쓰지 않는 브레인 온리(Brain‑only) 조건에서 같은 에세이 쓰기 과제를 수행할 때, 사람의 뇌 활동·글의 특성·학습/기억·소유감이 어떻게 달라지는지를 비교한 실험 연구이다.

연구진은 4개월 동안 54명의 대학생·대학원생을 대상으로 SAT 스타일 에세이 과제를 3세션 동안 반복시키고, 4번째 세션에서는 그룹을 일부 교차(LLM→브레인, 브레인→LLM)시켜 'AI 사용 경험이 이후의 사고와 뇌에 남기는 흔적'을 살펴보았다. 각 세션마다 EEG(뇌파)로 뇌 연결성과 인지 부하·참여를 측정하고, NLP 분석과 인터뷰, 사람·AI 채점으로 에세이의 질과 학습·기억·소유감(이 글이 내 글이라는 느낌)을 종합적으로 평가했다.

핵심 결론은 다음과 같다. 외부 도구(LLM·검색)를 많이 쓸수록 뇌 네트워크 연결성이 줄어들고, LLM 사용 그룹은 브레인 온리 그룹에 비해 학습·기억·소유감에서 일관되게 낮은 성과를 보였다. 4번째 세션에서는 LLM 사용 후 도구를 끊고 '뇌만' 쓰게 한 그룹에서 뇌 연결성과 인지 참여가 회복되지 않고 약하게 남았고, 반대로 브레인 온리 경험 후 LLM을 쓴 그룹은 기억력과 전략적 통합이 높고 뇌 연결성이 크게 치솟는 패턴을 보여, LLM이 단기 생산성을 높여도 장기적인 학습 능력·비판적 사고·기억 형성엔 부정적 영향을 줄 수 있음을 시사한다.


실험 설계와 참가자 구성

연구에는 18명씩 3그룹, 총 54명이 포함되었고, 보스턴 인근 5개 대학(MIT, Wellesley, Harvard, Tufts, Northeastern)의 학부생 및 대학원생·연구자들로 구성되었다. 나이는 18-39세(평균 약 23세)였고, 여성 비율이 다수였다.

참가자는 처음부터 끝까지 세션 1-3에서 같은 조건에 배정되었다.

  • LLM 그룹

    • 오직 ChatGPT만 사용 가능

    • 웹 브라우저·다른 앱·다른 LLM 금지

    • 제공된 ChatGPT 계정 사용, 기록 삭제·설정 변경 금지

  • 검색엔진 그룹

    • 웹 검색과 웹사이트 사용 가능, 단 LLM·AI 답변(쿼리에 '-ai' 추가) 금지

    • 사실상 "클래식 웹 검색+웹페이지 읽기"

  • 브레인 온리 그룹

    • 인터넷·LLM·기타 자료 전부 금지

    • 자신의 기억·지식만 이용

각 세션 구성은 다음과 같다.

  1. 동의서·배경 설문(LLM 사용 경험 등)

  2. EEG 헤드셋(Neuroelectrics Enobio 32) 착용 및 품질 확인

  3. 6분 캘리브레이션(암산, 휴식, 눈깜빡임·시선 이동)

  4. 에세이 쓰기 20분

    • 3개의 SAT형 에세이 프롬프트 중 1개 선택

    • 맥북의 텍스트 편집 앱으로 작성

  5. 인터뷰(약 5분)

    • 주제 선택 이유, 구조 사용 여부, 인용 가능 여부, 요약, 도구 사용 방식, 소유감, 만족도 등

  6. 정리·뇌파 데이터·에세이·로그 저장

세션 1-3에서는 9개의 SAT 프롬프트(LOYALTY, HAPPINESS, CHOICES, FORETHOUGHT, PHILANTHROPY, ART, COURAGE, PERFECT, ENTHUSIASM)를 세션당 3개씩 제공해 선택하게 했다. 이 주제들은 도덕·행복·선택·용기·이상 사회 등 추상적 논증을 요구하는, 전형적인 대학입학시험형 에세이 주제들이다.


4번째 세션: 그룹 교차(LLM↔브레인)

세션 4에는 세션 1-3을 마친 18명이 추가 참여했다. 여기서는 두 가지 중요한 변화가 있었다.

  1. 그룹 스위칭

    • LLM→브레인 그룹: 1-3세션 동안 LLM을 쓰던 사람이 4세션에서는 아무 도구 없이 브레인 온리로 작성

    • 브레인→LLM 그룹: 1-3세션 동안 브레인 온리로 쓰던 사람이 4세션에서는 처음으로 LLM을 사용

    • 검색엔진 그룹은 세션 4 없음

  2. 주제 재사용

    • 완전히 새로운 프롬프트를 주는 대신, 각 참가자가 이전에 자신이 썼던 주제들 중에서 하나를 고르게 했다.

    • 예: 1-3세션에서 CHOICES, PHILANTHROPY, PERFECT를 썼다면, 4세션에서 이 셋 중 하나를 선택해 다시 에세이 작성.

    • 연구진은 세션 4 전까지 이런 구조 변화와 스위칭 사실을 참가자에게 알리지 않았다.

세션 4 인터뷰에서는 추가로 "이전 에세이의 내용·구조를 기억하는지, 어떤 에세이가 더 쓰기 쉬웠는지, 둘 중 어느 것을 더 선호하는지" 등을 물어 기억·비교·전략 변화를 조사했다.


EEG 분석: 인지 부하·참여·뇌 연결성

EEG와 dDTF 개념

연구진은 32채널 EEG로 전두엽, 두정엽, 후두엽 등을 포함한 뇌 피질 전반의 활동을 측정했다. 핵심 분석 도구는 dynamic Directed Transfer Function(dDTF)으로, 시간에 따라 어떤 뇌 영역이 다른 영역에 정보를 '보내는지'(방향성 연결성)를 주파수 대역별(델타, 세타, 알파, 베타)로 추정하는 방법이다.

  • 알파(α): 대략 8-12 Hz, 주의 전환·억제·통합에 관련

  • 베타(β): 약 13-30 Hz, 적극적 인지 처리·집중·작업 기억

  • 세타(θ): 약 4-7 Hz, 기억 인코딩·집중

  • 델타(δ): 약 0.5-4 Hz, 전반적 긴장·깊은 처리·느린 조절

연구의 관심은 "도구 사용 수준에 따라 뇌 네트워크가 얼마나 넓고 강하게 연결되는지"와 "세션 4에서 패턴이 어떻게 변하는지"였다.

LLM vs 브레인 온리: 뇌 연결성의 체계적 감소

LLM 그룹과 브레인 온리 그룹의 비교에서, 모든 세션(1-3)을 통틀어 다음과 같은 일관된 패턴이 발견되었다.

  • 브레인 온리 그룹

    • 가장 강하고 넓은 범위의 연결성을 보였다.

    • 전두엽(계획·논리)-두정엽(통합)-후두엽(시각화) 사이의 네트워크가 폭넓게 활성화.

    • 알파·베타 밴드에서 특히 두드러지며, "스스로 생각하고 구조화하는" 고난도 인지 작업의 특징을 보였다.

  • LLM 그룹

    • 가장 약한 전체 연결성을 보였다.

    • 같은 과제를 수행해도 뇌 영역 간 상호작용 범위와 강도가 줄어든 상태.

    • 알파·베타뿐 아니라 세타·델타에서도 전반적인 "저연결" 패턴.

연구진은 이를 "외부 도구에 의존할수록 뇌 네트워크가 덜 협업하는 경향, 즉 인지적 '오프로딩(cognitive offloading)'의 신경학적 흔적"으로 해석한다. 즉, LLM이 글의 내용·구조를 상당 부분 대신 떠안으면서, 사람의 뇌가 해야 할 통합·계획·검토 작업이 줄어드는 것이다.

검색엔진 vs 브레인 온리: 중간 수준의 참여

검색엔진 그룹은 두 그룹의 중간 특성을 보였다.

  • 브레인 온리보다 연결성이 약하지만, LLM 그룹보다는 강하고 폭넓게 유지됨.

  • 시각적 검색 결과를 보고, 여러 페이지를 탐색하고, 스스로 골라 조합해야 하기 때문에

    • 후두-두정-전두 네트워크의 시각-실행 통합이 꽤 높게 나타났다.

  • 세션이 반복되면서 브레인 온리·검색 그룹 둘 다 일부 대역에서 연결성이 약간 줄어드는 경향을 보이는데, 연구진은 이를 "숙련에 따른 신경 효율성(neural efficiency) 적응"으로 해석한다.

    • 같은 과제를 더 적은 에너지로 처리하는 패턴.

정리하면, 뇌 연결성 강도: 브레인 온리 > 검색엔진 > LLM 순서로 "외부 지원이 많을수록 내적 네트워크 동원이 줄어드는" 계단형 패턴이 관찰되었다.

세션 4: 뇌가 보여준 'AI 중독'과 'AI 부스터' 효과

세션 4는 LLM→브레인과 브레인→LLM이라는 전환이 있어 EEG 결과가 특히 흥미롭다.

  • 브레인→LLM 그룹

    • 1-3세션 동안 브레인 온리로 이미 주제를 깊이 생각하고 쓴 경험이 있음.

    • 4세션에서 LLM을 사용해 같은 주제로 다시 에세이를 작성했을 때

      • 알파·베타·세타·델타 모든 주파수 대역에서 뇌 연결성이 크게 '스파이크'.

      • 이전(브레인 온리 시절)의 최고 수준까지는 아니지만, 세션 1보다는 높고, LLM만 쓰던 사람들의 1-3세션보다 훨씬 강함.

    • 이는 기존에 형성된 '내적 지식 구조'를 LLM이 보완·확장하는 과정에서 전략적 판단·검증·재구성이 활발히 일어났다는 신호로 해석된다.

  • LLM→브레인 그룹

    • 1-3세션 내내 LLM에 의존해 같은 유형의 과제를 수행.

    • 4세션에서 갑자기 어떤 도구도 없이 같은 주제를 다시 쓰게 했을 때

      • 알파·베타에서 저조한 연결성과 참여가 지속됐다.

      • 네트워크 패턴이 "세션 1의 브레인 온리 초보자" 수준으로도 회복되지 못하고, 과거 LLM 사용기록이 남아 있는 듯한 중간·저활성 상태.

    • 이는 LLM 사용이 단순한 '도구 선택'이 아니라, 실제로 뇌가 문제를 다루는 방식 자체를 바꾸고, 나중에 도구를 제거해도 완전히 되돌아가지 않는 '인지적 부채(cognitive debt)'를 남긴다는 해석과 연결된다.


NLP·에세이 분석: 토픽, 어휘, 점수, 스타일

연구진은 참가자들이 쓴 모든 에세이를 대상으로 다양한 NLP 분석을 수행했다.

  • 문서 임베딩·클러스터링(에세이 간 의미적 유사도)

  • Named Entity Recognition(NER): 사람·장소·날짜·개념 등 고유명사 추출

  • n‑그램 분석: 자주 쓰인 표현 패턴

  • 온톨로지 분석: 주제별 개념 구조·하위 토픽 구성

  • ChatGPT 대화 로그(LLM 그룹)

  • 사람 교사 vs AI 채점 에이전트의 점수 비교

핵심적인 패턴은 다음과 같다.

그룹별 스타일과 내용의 동질성

  • LLM 그룹

    • 같은 세션·같은 주제 내에서 에세이들이 매우 동질적이다.

    • NER·n‑그램·주제 온톨로지가 서로 거의 겹치며,

      • 예를 들어 특정 SAT 주제를 쓸 때, 비슷한 구조·예시·표현이 반복되는 경향.

    • LLM이 생성하는 전형적인 문장을 다소 수정·편집하는 수준에 그치는 경우가 많아, "디폴트 ChatGPT 답변에서 크게 벗어나지 않는" 에세이도 많았다.

  • 검색엔진 그룹

    • 특정 키워드·사례가 검색 최적화된 자료에서 가져와지는 패턴이 관찰됨.

      • 예: PHILANTHROPY(자선) 주제에서 'homeless(노숙인)'라는 표현이 여러 에세이에서 반복 등장.

    • 그러나 LLM 그룹처럼 '한 모델의 말투'로 수렴되지는 않고, 어느 정도 개인적 변형·조합이 이루어진다.

  • 브레인 온리 그룹

    • 각 참가자 에세이 사이의 거리(다름)가 가장 크고, 항상 유의미하게 상이함.

    • 같은 주제라도 사례·구조·표현이 상당히 다양하게 나타나, 개별적인 사고 과정이 글에 강하게 반영됨.

요약하면, 동질성: LLM > 검색엔진 >> 브레인 온리. LLM은 개인 차를 지워버리는 경향이 크고, 브레인 온리는 개성을 극대화한다.

길이·정확도·점수

  • 브레인 온리

    • 에세이 길이는 중간 정도, NER 사용량은 LLM보다 50-100% 적다.

    • 사람·AI 평가에서 내용 통합·일관성·주제 충실도가 높고, 특히 장기적으로(세션이 진행될수록) 구조적 완성도가 개선되는 경향.

  • 검색엔진

    • 에세이가 상대적으로 길고, 다양한 자료에서 가져온 정보가 포함.

    • AI 및 인간 채점에서 정확성과 정보량 측면에서는 좋은 점수를 받지만, 창의성·차별성에서는 브레인 온리보다 낮은 경우도 있다.

  • LLM

    • 짧거나 중간 길이의 에세이가 많고, 문장은 유려하고 논리 구조도 깔끔하지만,

    • 사람·AI 평가에서 브레인 온리보다 항상 뒤처지는 경향이 관찰되었다(정확성·깊이·비판적 사고 측면).

    • 특히 "문제의 프롬프트를 피하거나 표면적으로만 다루는" 패턴이 자주 나타남.

세션 4에서 브레인→LLM 그룹은 이전 브레인 온리 세션에서 쌓인 내용과 LLM이 제공하는 추가 정보를 잘 통합해, 대체로 그룹 내 상위 점수를 받았고, LLM→브레인 그룹은 LLM이 썼던 표현을 다시 사용하는 경향은 있었지만, 구조·내용 통합은 상대적으로 약했다.


인터뷰 결과: 소유감·기억력·전략

인터뷰는 각 세션 이후 진행되었고, 특히 다음 4가지 측면이 중요했다.

1. 주제 선택 이유

모든 그룹에서 공통적으로 개인적 공감·경험·친숙함이 주제 선택의 1순위였다.

  • "평소 많이 생각해보던 주제라 선택"

  • "예전에 비슷한 내용을 다른 과목에서 썼기 때문"

  • "이게 제일 재미있을 것 같아서"

브레인 온리 그룹에서는 "이 주제에 대해 내가 아는 내용이 있어서"라는 사전 지식 의식이 특히 두드러졌다. 도구가 없는 상황에서 자신의 지식 기반이 중요하다는 것을 스스로 인식한 것이다.

2. 에세이 구조 사용

세션이 거듭될수록 모든 그룹에서 구조 사용(서론-본론-결론, 주장-근거-반론 등)이 더 명확해졌다.

  • LLM 그룹 일부는 "먼저 ChatGPT에게 구조를 물어보고, 그 틀 안에 내 생각을 넣었다"고 답함.

  • 브레인 온리·검색엔진 그룹은 스스로 구조를 세우거나, 검색 과정에서 본 논증 구조를 참고함.

하지만 LLM 그룹에서 구조를 LLM이 제안할 경우, 구조 자체가 획일적이어서 에세이들 간의 유사성이 더욱 커지는 효과가 있었다.

3. 인용(quote) 능력과 정확성

세션 1에서 인용 능력 차이는 매우 극적이었다.

  • LLM 그룹

    • 대부분(15/18)이 아예 인용을 제대로 하지 못했고, 정확한 인용은 0명.

  • 검색엔진·브레인 온리 그룹

    • 인용을 못한 사람은 극소수(각 2-3명)였고, 대다수는 정확한 문장을 재현.

세션 2-3에서는 "이번에는 인용이 나올 것을 알고 준비한" 효과 때문에 전체 인용률은 올라갔지만, LLM 그룹의 정확 인용률은 끝까지 다른 그룹보다 낮게 유지되었다. 이는 LLM 사용 시, 사람들이 자신이 쓴 문장을 '깊게 처리'하지 않고, 외부에서 온 텍스트로 느끼며 표층적 검토만 하는 경향과 맞닿아 있다.

4. 소유감("이 글이 내 글인가?")

세션 1-3을 통틀어 소유감 패턴은 매우 일관적이었다.

  • 브레인 온리

    • 거의 모두(대부분 100% 응답)가 "완전히 내 글"이라고 답함.

    • 일부만 "아전에 읽은 기사·책의 영향을 조금 받았다"며 90% 정도라고 응답.

  • 검색엔진

    • 대다수는 "대체로 내 글이지만, 자료에서 가져온 내용이 있어 70-90% 정도"라고 응답.

    • 완전한 '내 글 아님' 응답은 없음.

  • LLM

    • '완전 내 글(100%)' 응답이 절반 정도였지만,

    • 나머지는 50-90% 등 다양한 "부분 소유감"을 보고했고,

    • 세션 1에서는 아예 "전혀 내 글이 아니다"라고 말한 참가자도 있었다.

또한 LLM 그룹 참가자들 중 일부는 ChatGPT의 스타일을 "너무 로봇 같다"고 평가하며, "내 말투로 바꾸려고 꽤 손을 댔다"고 진술했다. 그럼에도 글 전체를 자신의 산물로 느끼기 어렵다는 말들이 자주 나왔다.

5. 만족도

  • 모든 그룹에서 전반적인 만족도는 높았다.

  • 검색엔진 그룹은 3세션 내내 전원 만족을 보고.

  • LLM·브레인 온리는 대부분 만족하지만, 일부가 "시간이 부족해서" 또는 "표현을 더 다듬고 싶었다"며 부분 만족·불만족을 표시.

'만족도'는 글의 출처와는 상관 없이 "과제 수행을 잘 했다"는 감각에 더 가까운 지표로 보인다. 즉, LLM으로 썼어도 "점수 잘 나올 것 같아서 만족"할 수 있지만, 그 글을 자기 것이라 느끼는 정도(소유감)는 별개의 문제라는 점이 드러난다.


핵심 결과 정리

연구의 주요 결과를 요구하신 8가지 항목에 맞춰 간단히 정리하면 다음과 같다.

  1. LLM·웹 검색·브레인 온리 비교

    • 에세이 내용·스타일·토픽 구조는 도구에 따라 명확히 달랐고,

    • LLM일수록 에세이 간 동질성이 커지고, 브레인 온리일수록 다양성과 개성이 컸다.

    • 뇌 연결성·학습·기억·소유감 측면에서는 브레인 온리가 가장 우수했다.

  2. 참가자 구성·실험 설계

    • 54명, 3그룹(LLM, 검색엔진, 브레인 온리) × 3세션 기본 구조.

    • 4개월에 걸친 반복 측정.

    • 4번째 세션에서 LLM→브레인, 브레인→LLM으로 일부 그룹 스위칭.

  3. EEG(뇌파) 분석 결과

    • 브레인 온리: 가장 강하고 넓은 네트워크 연결성(알파·베타 중심).

    • 검색엔진: 중간 수준, 시각-실행 통합 패턴 두드러짐.

    • LLM: 전반적으로 가장 약한 연결성, 도구 의존에 따른 인지적 오프로딩으로 해석.

    • 세션 4에서 브레인→LLM은 네트워크 스파이크, LLM→브레인은 저활성 유지.

  4. NLP·인터뷰: 글 특징, 소유감·기억력

    • LLM: NER·n‑그램·온톨로지 구조가 매우 균질, 인용 능력과 정확성 낮음, 소유감 낮거나 분열.

    • 검색엔진: 특정 키워드·사례가 검색 최적화 자료에 수렴하지만, LLM보다 개성 유지, 소유감은 중간.

    • 브레인 온리: 에세이 간 거리가 크고, 소유감·인용·기억 모두 가장 우수.

  5. 외부 도구와 뇌 연결성 관계

    • 외부 도구 지원이 많을수록 뇌 연결성 약화.

    • 브레인 온리가 최강, 검색엔진 중간, LLM 최약.

    • LLM 사용 그룹은 브레인 온리에 비해 학습·기억·소유감에서 일관되게 낮은 성과.

  6. 세션 4의 전환 효과

    • LLM→브레인: 이전 LLM 사용의 영향으로 뇌 연결성과 참여가 회복되지 못하고 약함, LLM 특유 표현에 의존.

    • 브레인→LLM: 기억력·전략적 통합이 높고, 모든 주파수 밴드에서 연결성이 스파이크, 기존 지식을 바탕으로 LLM을 "전략적 도구"로 활용하는 모습.

  7. 시사점: 단기 생산성 vs 장기 학습

    • LLM은 단기적으로 생산성과 편의성을 크게 향상시키지만,

    • 장기적으로는 비판적 사고·깊은 이해·기억 형성·자기 효능감에 부정적 영향을 줄 위험.

    • 특히 "LLM이 없으면 같은 과제를 수행하기 어려운 상태"라는 의미에서 인지적 부채(cognitive debt)가 축적될 수 있음.

  8. 교육 설계·연구 한계·향후 과제

    • 교육 환경 설계 시, LLM·검색·브레인 온리의 차이를 명확히 인식해야 함.

      • 예: 초반엔 브레인 온리로 개념·구조를 형성하고, 이후 LLM은 발전·피드백·확장 도구로 제한적으로 사용.

    • 한계

      • 비교적 소규모(54명)·특정 집단(명문대 학생 중심)이라는 표본.

      • 에세이 과제라는 단일 과업에 집중했으며, 수학·프로그래밍 등 다른 영역은 직접 다루지 않음.

      • LLM·검색엔진·브레인 온리 전략의 세부 차이를 더 정교하게 통제하진 못함.

    • 향후 과제

      • 더 다양한 인구집단·과목·과업에 대한 반복 연구.

      • LLM을 "인지 증강 도구"로 쓰는 최적 전략 설계(언제·어떻게 브레인 온리를 먼저 요구할 것인가?).

      • 장기 추적 연구를 통한 실제 학업 성취·직업 능력에 미치는 영향 평가.


빠르게 복습할 수 있는 구조화 메모

  • 실험 구조

    • 54명, 3그룹(LLM, 검색, 브레인 온리), 3세션+4세션(그룹 교차).

    • SAT형 에세이, 20분, EEG+NLP+인터뷰+사람/AI 채점.

  • 주요 결과

    • 뇌 연결성: 브레인 온리 > 검색 > LLM (도구 많을수록 약함).

    • 글의 동질성: LLM > 검색 >> 브레인 온리.

    • 기억·인용·소유감: 브레인 온리 > 검색 > LLM.

    • 세션 4:

      • LLM→브레인: 뇌 연결성 낮고 참여 부족, LLM 흔적 남음.

      • 브레인→LLM: 연결성 스파이크, 전략적 통합·기억 우수.

  • 교육적 시사점

    • LLM은 "초기 학습을 대체"하는 도구가 아니라,

      • 기본 개념·사고 구조를 브레인 온리로 형성한 후,

      • 검토·확장·연습/피드백을 위해 "나중에" 사용하는 보조 도구로 설계해야 함.

    • 그렇지 않으면 LLM 사용 경험 자체가 뇌와 인지 전략을 바꿔,

      • 나중에 도구 없이 생각·글쓰기·기억하기를 어렵게 만들 수 있음(인지적 부채).

#대형언어모델#브레인온리#뇌파분석#에세이과제#인지적부채

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.

Tilnote 를 사용해 보세요.

키워드만 입력하면 나만의 학습 노트가 완성돼요.

책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.

콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.