메인 콘텐츠로 건너뛰기

안드레이 카르파티가 말하는 '에이전트의 10년' 핵심 가이드

요약

안드레이 카파시의 팟 캐스트 영상을 기반으로 작성되었습니다. 아직 인간과 같은 에이전트는 10년 정도가 걸릴 것이라는 입장이네요.

핵심 요약

  • 지금은 '에이전트의 해'가 아니라, 핵심 구성요소를 쌓아 올리는 '에이전트의 10년'의 초입이다.

  • LLM은 지식과 지능을 함께 얻지만, 기억·계획·지속학습·현실 세계 상호작용 등 핵심 능력은 아직 미완성이다.

  • 앞으로의 돌파구는: 더 나은 표현 학습, 장기 기억/작업 기억의 연결, 과정 감독, 반성/리뷰 루프, 스파스 어텐션 같은 시스템적 진화다.

왜 '에이전트의 해'가 아니라 '에이전트의 10년'인가

  • 현재 모델은 인상적이지만, 진짜 '업무를 맡길 만한' 에이전트가 되기엔 결손이 크다.

  • 부족한 것들: 멀티모달 이해, 도구/컴퓨터 사용, 지속적 기억/학습, 안정적 계획·실행.

  • 이 격차를 메우는 데는 다년간의 기초 연구, 엔지니어링, 운영 노하우가 필요하다.

  • 결론: 성급한 기대보다 "기반을 갖추는 10년"이 더 현실적이다.

지난 15년의 큰 전환: 무엇이 맞았고 무엇이 빗나갔나

  • 전환 1: 딥러닝(특히 알렉스넷)으로 '표현 학습'의 힘이 확인됨(이미지, 번역 등 과제별 모델).

  • 전환 2: 게임 기반 강화학습 열풍(아타리 등)은 일반적 지능으로 곧장 이어지지 못함('너무 이른' 에이전트 시도).

  • 전환 3: LLM의 대규모 사전학습이 강력한 '표현/지식 기반'을 마련, 그 위에 에이전트 시도가 재점화.

  • 교훈: 에이전트를 만들려면 먼저 강력한 표현(모델 코어)을 갖춰야 한다.

동물 만들기 vs 유령 만들기: 두 가지 길

  • 동물 비유: 진화는 '알고리즘'을 심어 주고, 개인은 평생 학습으로 지식을 얻는다.

  • 우리가 실제로 하는 것: 진화가 아니라, 인간 인터넷 데이터의 '모사'를 통해 디지털 '유령' 같은 지능을 만든다.

  • 사전학습은 '형편없는 진화'지만 현실적으로 가능한 최선의 스타팅 포인트.

  • 방향성: 장차 더 '동물적' 요소(온라인 학습, 본능/감정/동기, 장기 기억)도 조금씩 도입될 것.

사전학습이 만드는 두 가지: 지식과 '인지 코어'

  • LLM 사전학습 결과:

    • 지식: 인터넷에서 본 사실·문체·상식.

    • 인지 코어: 패턴을 잡아내고, 맥락에서 배우고, 문제를 푸는 알고리즘적 능력.

  • 문제: 과도한 지식 의존은 데이터 밖으로 벗어나는 능력을 방해할 수 있다.

  • 제안: 지식을 덜어내고, 문제 해결력(인지 코어)을 보존·강화하는 방향의 연구가 필요.

작업 기억 vs 장기 기억: 컨텍스트 창과 가중치의 차이

  • 가중치(장기 기억): 15조 토큰을 수십억 파라미터로 압축한 '희미한 회상'에 가깝다.

  • 컨텍스트 창(KV 캐시, 작업 기억): 현재 입력된 정보는 바로 접근 가능, 세밀하고 정확한 판단에 유리.

  • 실전 팁: 중요한 자료(문서/장/코드)를 직접 컨텍스트로 넣으면 답변 품질이 크게 향상한다.

  • 비유: 사람도 '오래전 기억'보단 '눈앞 자료'를 보고 답할 때 정확도가 높다.

아직 채워지지 않은 인간 능력: 무엇이 비어 있나

  • 계획·추론(전전두엽 유사 기능)의 싹은 있지만, 장기 기억(해마), 감정/본능(편도체), 동기/가치 체계 등은 미흡.

  • '수면 같은' 재정리/증류(경험을 요약해 가중치로 내재화), 개인화(소량 가중치 적응) 메커니즘 부재.

  • 멀티모달, 장문 맥락, 희소(스파스) 주의 등은 이제 막 본격 도입되는 중.

10년 후 모델의 모양: 크게 같고, 디테일은 달라진다

  • 변하지 않을 것: 거대 신경망, 경사하강 기반의 학습, 데이터·컴퓨트·시스템·알고리즘의 동시 진화.

  • 달라질 것: 더 길고 효율적인 주의(스파스 어텐션), 더 좋은 최적화/정규화/메모리, 멀티모달 통합 강화.

  • 체감: '정확히 무엇이 바뀌었나?'보다 '전체 스택이 다 조금씩 좋아져서 확 좋아진' 느낌에 가깝다.

강화학습(RL)의 구조적 한계: 결과만 빨아들이는 감독

  • 결과 보상만 쓰는 RL은 '긴 과정'을 '마지막 점수'로만 평가해 전체 경로를 통째로 올리거나 내린다.

  • 문제: 중간의 잘못된 선택까지 보상될 수 있어 잡음과 고분산이 크다. 사람이 하는 세밀한 자기평가와 동떨어짐.

  • 장점도 있음: 정답 검증이 가능한 과제에서 인간 시범 없이 탐색으로 새로운 해법을 찾을 수 있다.

  • 결론: RL만으론 부족, 과정 감독과 반성/리뷰 같은 정교한 루프가 필요.

과정 감독은 왜 어려운가: 'LLM 심사관'의 덫

  • 이상적: 단계별로 부분 점수를 주며 세밀하게 지도하기.

  • 현실적 난관:

    • 자동 채점(LLM 심사관)은 거대하고 비선형이라 쉽게 '속이기' 대상이 된다(적대적 예시).

    • 한 번 뚫리면 모델이 허깨비 해법으로 최고 점수를 얻고 품질은 망가질 수 있다.

  • 대응: 심사관 학습(적대 예시 추가)으로 단단하게 만들 수 있지만, 무한한 취약 케이스를 모두 막긴 어렵다.

반성·리뷰·수면: 우리가 놓친 학습 루프

  • 사람은 책을 '그대로 암기'하지 않고, 토론·노트·재구성·잠을 통해 자기 지식으로 만든다.

  • LLM에 필요한 것:

    • 읽기 후 반성(내용을 연결·요약·검증·질문 생성) 단계의 표준화.

    • 세션 종료 후 '수면 같은' 증류: 유용한 경험을 가중치(또는 소량 어댑터)로 내재화.

    • 개인별 얕은 맞춤(LoRA 등)로 '개인 기억' 축적.

  • 하지만: 합성 데이터만 계속 먹이면 분포가 '붕괴'(다양성 저하)되어 성능 악화 위험.

합성 데이터와 '붕괴'를 피하는 법: 엔트로피(다양성)가 산소다

  • LLM이 만든 문장은 그럴듯하지만, 분포 폭이 좁아 점점 비슷해진다(숨은 모드 붕괴).

  • 지속 사용 시 위험: 자기표절·표현 단조화·새로움 상실 → 점점 더 못 배운다.

  • 사람의 해법: 대화, 새로운 경험, 꿈처럼 '예상 밖 입력'을 꾸준히 섞어 엔트로피(다양성)를 불어넣는다.

  • 모델에도 필요: 외부 신선 데이터 주입, 다양성 보존 샘플링, 적대적·드문 케이스 학습의 균형.

아이·어른·LLM의 차이: 암기와 일반화의 줄다리기

  • 아이: 세부 기억은 약하지만, 패턴·규칙을 빨리 잡아내는 '높은 일반화' 능력.

  • 어른: 기억은 늘지만 유연성은 줄어듦.

  • LLM: 초단기 암기력은 탁월하지만, 그 때문에 오히려 높은 차원의 일반화가 방해될 때가 있다.

  • 시사점: 모델 설계에서 '암기력 줄이고 코어 추론 가중'을 노리는 기법이 필요.

코딩 보조의 현실: 지금 가장 쓸모 있는 건 '자동완성'

  • 실무 체감:

    • 자동완성은 정보 대역폭이 크고, 작성자의 의도·스타일을 잘 따른다.

    • '시켜서 전체를 짓는' 에이전트 코딩은 새롭고 복잡한 레포에선 자주 헛발질(보일러플레이트엔 쓸만).

    • 생태계에 흔한 패턴(웹 CRUD, 러스트 표준 라이브러리 등)일수록 모델이 강하다.

  • 이유: 레포 고유 설계·가정·커스텀 동기화/메모리 관리 등은 인터넷에 사례가 적고 통합이 어렵다.

  • 팁: 새로운 언어로의 이식, 반복 문서화, 테스트 작성 등은 모델의 도움을 크게 받는다.

에이전트를 키우는 데 필요한 스택: 무엇을 더해야 하나

  • 표현 코어: 강력한 사전학습 + 멀티모달.

  • 장기 기억: 컨텍스트를 넘는 개인화된 메모리(해마 유사).

  • 반성/리뷰: 세션 후 숙고·요약·증류 루프(수면 유사).

  • 계획/도구 사용: 브라우저·IDE·OS를 안정적으로 다루는 실행 시스템.

  • 감독: 결과+과정 혼합, 심사관의 견고화, 다양성 보존.

  • 시스템: 스파스 어텐션, 장문 컨텍스트, 효율적 분산 학습/추론.

인사이트

  • 지금 당장 쓰는 법

    • 답변 품질을 올리고 싶다면 '필요한 원문'을 최대한 컨텍스트에 넣자. 모델의 작업 기억을 채우는 게 가장 즉효다.

    • 코드 작성은 자동완성 중심으로, 새 언어/보일러플레이트/테스트는 에이전트를 보조적으로 쓰자.

    • 자기 데이터로 개인화를 하되, 과도한 자기생성 데이터 학습은 붕괴 위험이 있다. 항상 신선한 외부 데이터를 섞자.

  • 조직이 준비할 것

    • 에이전트 도입은 '오토파일럿'이 아니라 '어시스트'부터 시작하라. 절차·검증·롤백 체계를 먼저 깐다.

    • 장문 컨텍스트, 문서 파이프라인, 도구 접속(브라우저/IDE/API), 장기 메모리 저장소를 아키텍처 초기에 포함하라.

    • 학습 루프에 '반성/리뷰' 단계를 도입하고, 결과·과정 혼합 감독으로 품질을 끌어올려라.

  • 장기 관점

    • 앞으로 10년은 '거대한 한 방'보다 데이터·컴퓨트·알고리즘·시스템이 동시에 조금씩 좋아지는 복합 개선의 시대다.

    • 목표는 '지식 많은 앵무새'를 넘어 '지식이 적어도 스스로 배우고 계획하는 인지 코어'를 기르는 것.

    • 엔트로피(다양성)는 학습의 산소다. 꿈, 대화, 예외 케이스 같은 '예상 밖' 입력을 의도적으로 설계하라.