안드레이 카르파티가 말하는 '에이전트의 10년' 핵심 가이드
안드레이 카파시의 팟 캐스트 영상을 기반으로 작성되었습니다. 아직 인간과 같은 에이전트는 10년 정도가 걸릴 것이라는 입장이네요.
핵심 요약
지금은 '에이전트의 해'가 아니라, 핵심 구성요소를 쌓아 올리는 '에이전트의 10년'의 초입이다.
LLM은 지식과 지능을 함께 얻지만, 기억·계획·지속학습·현실 세계 상호작용 등 핵심 능력은 아직 미완성이다.
앞으로의 돌파구는: 더 나은 표현 학습, 장기 기억/작업 기억의 연결, 과정 감독, 반성/리뷰 루프, 스파스 어텐션 같은 시스템적 진화다.
왜 '에이전트의 해'가 아니라 '에이전트의 10년'인가
현재 모델은 인상적이지만, 진짜 '업무를 맡길 만한' 에이전트가 되기엔 결손이 크다.
부족한 것들: 멀티모달 이해, 도구/컴퓨터 사용, 지속적 기억/학습, 안정적 계획·실행.
이 격차를 메우는 데는 다년간의 기초 연구, 엔지니어링, 운영 노하우가 필요하다.
결론: 성급한 기대보다 "기반을 갖추는 10년"이 더 현실적이다.
지난 15년의 큰 전환: 무엇이 맞았고 무엇이 빗나갔나
전환 1: 딥러닝(특히 알렉스넷)으로 '표현 학습'의 힘이 확인됨(이미지, 번역 등 과제별 모델).
전환 2: 게임 기반 강화학습 열풍(아타리 등)은 일반적 지능으로 곧장 이어지지 못함('너무 이른' 에이전트 시도).
전환 3: LLM의 대규모 사전학습이 강력한 '표현/지식 기반'을 마련, 그 위에 에이전트 시도가 재점화.
교훈: 에이전트를 만들려면 먼저 강력한 표현(모델 코어)을 갖춰야 한다.
동물 만들기 vs 유령 만들기: 두 가지 길
동물 비유: 진화는 '알고리즘'을 심어 주고, 개인은 평생 학습으로 지식을 얻는다.
우리가 실제로 하는 것: 진화가 아니라, 인간 인터넷 데이터의 '모사'를 통해 디지털 '유령' 같은 지능을 만든다.
사전학습은 '형편없는 진화'지만 현실적으로 가능한 최선의 스타팅 포인트.
방향성: 장차 더 '동물적' 요소(온라인 학습, 본능/감정/동기, 장기 기억)도 조금씩 도입될 것.
사전학습이 만드는 두 가지: 지식과 '인지 코어'
LLM 사전학습 결과:
지식: 인터넷에서 본 사실·문체·상식.
인지 코어: 패턴을 잡아내고, 맥락에서 배우고, 문제를 푸는 알고리즘적 능력.
문제: 과도한 지식 의존은 데이터 밖으로 벗어나는 능력을 방해할 수 있다.
제안: 지식을 덜어내고, 문제 해결력(인지 코어)을 보존·강화하는 방향의 연구가 필요.
작업 기억 vs 장기 기억: 컨텍스트 창과 가중치의 차이
가중치(장기 기억): 15조 토큰을 수십억 파라미터로 압축한 '희미한 회상'에 가깝다.
컨텍스트 창(KV 캐시, 작업 기억): 현재 입력된 정보는 바로 접근 가능, 세밀하고 정확한 판단에 유리.
실전 팁: 중요한 자료(문서/장/코드)를 직접 컨텍스트로 넣으면 답변 품질이 크게 향상한다.
비유: 사람도 '오래전 기억'보단 '눈앞 자료'를 보고 답할 때 정확도가 높다.
아직 채워지지 않은 인간 능력: 무엇이 비어 있나
계획·추론(전전두엽 유사 기능)의 싹은 있지만, 장기 기억(해마), 감정/본능(편도체), 동기/가치 체계 등은 미흡.
'수면 같은' 재정리/증류(경험을 요약해 가중치로 내재화), 개인화(소량 가중치 적응) 메커니즘 부재.
멀티모달, 장문 맥락, 희소(스파스) 주의 등은 이제 막 본격 도입되는 중.
10년 후 모델의 모양: 크게 같고, 디테일은 달라진다
변하지 않을 것: 거대 신경망, 경사하강 기반의 학습, 데이터·컴퓨트·시스템·알고리즘의 동시 진화.
달라질 것: 더 길고 효율적인 주의(스파스 어텐션), 더 좋은 최적화/정규화/메모리, 멀티모달 통합 강화.
체감: '정확히 무엇이 바뀌었나?'보다 '전체 스택이 다 조금씩 좋아져서 확 좋아진' 느낌에 가깝다.
강화학습(RL)의 구조적 한계: 결과만 빨아들이는 감독
결과 보상만 쓰는 RL은 '긴 과정'을 '마지막 점수'로만 평가해 전체 경로를 통째로 올리거나 내린다.
문제: 중간의 잘못된 선택까지 보상될 수 있어 잡음과 고분산이 크다. 사람이 하는 세밀한 자기평가와 동떨어짐.
장점도 있음: 정답 검증이 가능한 과제에서 인간 시범 없이 탐색으로 새로운 해법을 찾을 수 있다.
결론: RL만으론 부족, 과정 감독과 반성/리뷰 같은 정교한 루프가 필요.
과정 감독은 왜 어려운가: 'LLM 심사관'의 덫
이상적: 단계별로 부분 점수를 주며 세밀하게 지도하기.
현실적 난관:
자동 채점(LLM 심사관)은 거대하고 비선형이라 쉽게 '속이기' 대상이 된다(적대적 예시).
한 번 뚫리면 모델이 허깨비 해법으로 최고 점수를 얻고 품질은 망가질 수 있다.
대응: 심사관 학습(적대 예시 추가)으로 단단하게 만들 수 있지만, 무한한 취약 케이스를 모두 막긴 어렵다.
반성·리뷰·수면: 우리가 놓친 학습 루프
사람은 책을 '그대로 암기'하지 않고, 토론·노트·재구성·잠을 통해 자기 지식으로 만든다.
LLM에 필요한 것:
읽기 후 반성(내용을 연결·요약·검증·질문 생성) 단계의 표준화.
세션 종료 후 '수면 같은' 증류: 유용한 경험을 가중치(또는 소량 어댑터)로 내재화.
개인별 얕은 맞춤(LoRA 등)로 '개인 기억' 축적.
하지만: 합성 데이터만 계속 먹이면 분포가 '붕괴'(다양성 저하)되어 성능 악화 위험.
합성 데이터와 '붕괴'를 피하는 법: 엔트로피(다양성)가 산소다
LLM이 만든 문장은 그럴듯하지만, 분포 폭이 좁아 점점 비슷해진다(숨은 모드 붕괴).
지속 사용 시 위험: 자기표절·표현 단조화·새로움 상실 → 점점 더 못 배운다.
사람의 해법: 대화, 새로운 경험, 꿈처럼 '예상 밖 입력'을 꾸준히 섞어 엔트로피(다양성)를 불어넣는다.
모델에도 필요: 외부 신선 데이터 주입, 다양성 보존 샘플링, 적대적·드문 케이스 학습의 균형.
아이·어른·LLM의 차이: 암기와 일반화의 줄다리기
아이: 세부 기억은 약하지만, 패턴·규칙을 빨리 잡아내는 '높은 일반화' 능력.
어른: 기억은 늘지만 유연성은 줄어듦.
LLM: 초단기 암기력은 탁월하지만, 그 때문에 오히려 높은 차원의 일반화가 방해될 때가 있다.
시사점: 모델 설계에서 '암기력 줄이고 코어 추론 가중'을 노리는 기법이 필요.
코딩 보조의 현실: 지금 가장 쓸모 있는 건 '자동완성'
실무 체감:
자동완성은 정보 대역폭이 크고, 작성자의 의도·스타일을 잘 따른다.
'시켜서 전체를 짓는' 에이전트 코딩은 새롭고 복잡한 레포에선 자주 헛발질(보일러플레이트엔 쓸만).
생태계에 흔한 패턴(웹 CRUD, 러스트 표준 라이브러리 등)일수록 모델이 강하다.
이유: 레포 고유 설계·가정·커스텀 동기화/메모리 관리 등은 인터넷에 사례가 적고 통합이 어렵다.
팁: 새로운 언어로의 이식, 반복 문서화, 테스트 작성 등은 모델의 도움을 크게 받는다.
에이전트를 키우는 데 필요한 스택: 무엇을 더해야 하나
표현 코어: 강력한 사전학습 + 멀티모달.
장기 기억: 컨텍스트를 넘는 개인화된 메모리(해마 유사).
반성/리뷰: 세션 후 숙고·요약·증류 루프(수면 유사).
계획/도구 사용: 브라우저·IDE·OS를 안정적으로 다루는 실행 시스템.
감독: 결과+과정 혼합, 심사관의 견고화, 다양성 보존.
시스템: 스파스 어텐션, 장문 컨텍스트, 효율적 분산 학습/추론.
인사이트
지금 당장 쓰는 법
답변 품질을 올리고 싶다면 '필요한 원문'을 최대한 컨텍스트에 넣자. 모델의 작업 기억을 채우는 게 가장 즉효다.
코드 작성은 자동완성 중심으로, 새 언어/보일러플레이트/테스트는 에이전트를 보조적으로 쓰자.
자기 데이터로 개인화를 하되, 과도한 자기생성 데이터 학습은 붕괴 위험이 있다. 항상 신선한 외부 데이터를 섞자.
조직이 준비할 것
에이전트 도입은 '오토파일럿'이 아니라 '어시스트'부터 시작하라. 절차·검증·롤백 체계를 먼저 깐다.
장문 컨텍스트, 문서 파이프라인, 도구 접속(브라우저/IDE/API), 장기 메모리 저장소를 아키텍처 초기에 포함하라.
학습 루프에 '반성/리뷰' 단계를 도입하고, 결과·과정 혼합 감독으로 품질을 끌어올려라.
장기 관점
앞으로 10년은 '거대한 한 방'보다 데이터·컴퓨트·알고리즘·시스템이 동시에 조금씩 좋아지는 복합 개선의 시대다.
목표는 '지식 많은 앵무새'를 넘어 '지식이 적어도 스스로 배우고 계획하는 인지 코어'를 기르는 것.
엔트로피(다양성)는 학습의 산소다. 꿈, 대화, 예외 케이스 같은 '예상 밖' 입력을 의도적으로 설계하라.