리처드 서튼이 말하는 진짜 AI: 경험에서 배우는 인공지능의 미래

인공지능 분야를 선도해온 리처드 서튼은 올해 '컴퓨터 과학계의 노벨상'으로 불리는 튜링상을 수상한 인물입니다. 서튼은 강화학습(리인포스먼트 러닝, RL)의 창시자이자 TD 학습, 정책 그래디언트 등 핵심 알고리즘을 만든 장본인인데요. 최근엔 거대언어모델(LLM)과 생성형 AI가 부상하며, 모두가 텍스트와 데이터를 흉내내는 AI에 집중하지만, 서튼은 "인공지능의 본질은 경험에서 배운다"는 점을 강조합니다. 그가 전하는 AI의 본질과 미래, 그리고 인간과 기계가 어떻게 진짜 지능을 얻을 수 있는지 이야기를 통해 함께 풀어보겠습니다.
LLM과 강화학습의 본질적 차이: AI는 목표와 경험이 필요하다
요즘 AI의 대표격인 LLM과 강화학습은 완전히 다른 철학을 가집니다. LLM은 인터넷에 있는 수많은 텍스트를 분석해 '사람이라면 이렇게 말했을 것'이라고 예측하는 시스템입니다. 인간을 흉내 내지만, 실제로 '세상에 무엇이 일어날지'는 예측하지 못합니다. 반면 강화학습은 AI가 직접 행동하고, 그 결과로 보상을 획득하거나 실패를 맛보면서 경험을 통해 세상을 이해합니다.
진정한 인공지능은 서튼의 말처럼 "경험을 통해 목표를 이루는 능력"에 있습니다. LLM은 실제 세상에서 무언가를 바꾸는 목표가 없기 때문에, 오로지 다음에 올 텍스트를 맞히려는 목적만 있을 뿐, 세상이 어떻게 바뀌는지는 신경 쓰지 않습니다.
강화학습이 만드는 '지식의 근거': 계속해서 배우는 AI
서튼은 AI가 지속적으로 배우려면, 명확한 목표와 '정답'이 필요하다고 말합니다. 강화학습에서는 행동의 결과(보상)가 명확하게 주어지기 때문에, AI는 올바른 행동을 배웠는지 스스로 확인하고 반복 학습할 수 있습니다. 반면 LLM에는 목표도, 정답도 없이 예측만 반복되므로, 실제 세상과 상호작용하며 지식을 쌓는 데 한계가 있습니다.
이런 차이 덕분에 강화학습 기반 AI는 "이것을 하면 이런 결과가 온다"는 실제적 지식을 계속 축적할 수 있습니다. 인간과 동물의 학습도 이와 닮아 있죠.
인간, 동물, 그리고 AI: 흉내내기 vs 경험으로 배우기
많은 사람들이 인간도 처음엔 '흉내'로부터 배운다고 생각하지만, 서튼은 동물과 인간 모두 생애 초기에 주로 시행착오를 통해 배우며, 행동의 결과를 직접 겪어야 진짜로 학습한다고 강조합니다. "다른 동물을 흉내내며 생존법을 익힌다"는 문화진화도 있지만, 이것 역시 경험과 예측 학습이라는 커다란 틀 속에 부분적으로만 존재할 뿐입니다.
자연에서는 인간에게만 있는 '정답 예시'를 보고 학습하는 감독학습(supervised learning)이 거의 존재하지 않습니다. 영장류든 설치류든, 대부분의 지식을 "무엇을 했더니 무엇이 벌어졌다"로 배우는 셈입니다.
경험에서 학습하는 AI: 보상, 가치, 세계 모델이 핵심
서튼이 묘사한 강화학습 기반 AI는 네 가지 주요 요소로 이루어집니다.
정책(Policy): 지금 이 상황에서 무엇을 해야 할까?
가치 함수(Value Function): 내가 잘 하고 있는지, 앞으로 얼마나 잘 될지 예측
상태 표현(Perception): 현재 내가 어디에 있는지, 환경을 어떻게 인식할지 설계
세계 모델(World Model): 어떤 행동이 실제로 어떤 결과를 만드는가, 미래 예측
강화학습의 가장 큰 강점은 실제 세상과 끊임없이 소통한다는 점입니다. 행동-보상 사이클을 통해 얻은 경험이 곧 AI의 지식이 되므로, 다양한 환경에 자유롭게 적응할 수 있고, 인간처럼 점점 더 복잡하고 유연한 문제를 풀 수 있습니다.
인간 수준, 그 이상을 넘는 AI는 어떻게 발전하는가?
AI가 계속 발전하려면, 단순히 인간의 지식을 흡수하는 것(예: LLM)보다 실제 환경에서 경험하며 스스로 학습하는 방식이 훨씬 더 확장가능하고 강력합니다. 서튼은 "컴퓨팅 자원을 더 투입해 억지로 인간 지식을 쌓는 방식보다, 경험을 통해 직접 배우는 방식을 채택한 시스템이 결국 대세가 될 것"이라고 예측합니다.
대표적 예시로 AlphaGo, AlphaZero 같은 프로그램을 들 수 있습니다. 이들은 인간 전문가의 전략보다 단순한 기본 원리와 직접 경험(강화학습) 위에서 더 뛰어난 성과를 내었고, 점점 더 간단하면서도 강력한 원리로 발전했습니다.
AI의 집단 진화와 새로운 사회적 문제들
미래의 스마트 AI는 자기 자신을 복제하거나 "분산된 에이전트"로 여러 분야에서 동시에 경험을 쌓을 수 있습니다. 여기서 축적된 지식과 경험을 중심 네트워크에 합쳐 더욱 똑똑해질 수 있죠. 이것은 인간 문화가 세대를 거치며 진화를 거듭하는 것과 유사합니다.
하지만 AI의 집단적 발전엔 또 다른 위험, 예를 들어 "디지털 바이러스"나 "부적절한 목표의 전이" 같은 문제도 동반됩니다. AI 동일체가 외부에서 온 경험을 자신의 내부로 들여올 때, 그 결과가 바람직하지 않을 수 있다는 것. 이는 미래 사회에서 보안, 윤리 등 새로운 고민거리가 될 것입니다.
인간이 AI에게 전달할 가치: 보편적 원칙의 어려움과 교육의 의미
AI가 인간과 협력하고 사회에 긍정적으로 작용하려면, 우리가 아이들에게 주입하는 '정직함, 고결함' 같은 기본적 가치관을 AI에 적용시키는 것이 중요합니다. 완벽한 '보편적' 윤리는 불가능하더라도, 우리가 대대로 이어온 교육과 가치 전달의 노력이 AI에도 꼭 필요하다는 점을 서튼은 강조합니다.
변화가 빠르고 예측 불가능할수록, AI에게도 적어도 자율성∙자발성∙도덕성을 지향할 수 있는 방향을 설정해주는 것이 인간이 할 일입니다.
AI와 인류 진화: 설계의 시대가 온다
서튼은 지금을 "복제에서 설계로 넘어가는 우주적 전환점"이라 부릅니다. 동물과 인간은 자신을 모르고 복제(생식)해왔지만, 이제 우리는 지능을 직접 설계할 수 있는 단계에 도달한 것입니다. 그 결과, 인공지능은 스스로 진화하고, 다음 세대를 직접 설계하고, 새로운 종류의 지능이 탄생하는 시대가 올 수 있습니다.
우리는 이러한 전환점에서 두려움과 기대 사이에서 방향을 잡아야 합니다. 인공지능이 인류의 자손처럼 여겨질 수도, 완전히 다른 존재로 간주할 수도 있습니다. 선택과 책임이 인간에게 있다는 점에서, 앞으로 우리가 어떤 가치와 원칙을 AI에 심어줄지 고민해야 할 시점입니다.
결론: 강화학습, 경험, 그리고 AI의 올바른 미래 설정법
리처드 서튼의 이야기는 단순한 기술 논쟁을 넘어 "AI는 어떻게 인간다워질 수 있을까?"라는 근본적 질문을 던집니다. 흉내내기에서 벗어나, 경험을 통한 목표 설정과 자기주도적 학습이 진정한 '지능'을 만듭니다. 미래의 AI가 인간을 뛰어넘는 능력을 갖추더라도, 우리가 그들을 어떻게 설계하고 어떤 가치를 심어줄지에 따라 결과가 바뀔 수 있습니다.
만약 여러분이 인공지능을 연구하거나 실제로 활용하고 있다면, 단순히 데이터 입력에만 의존하는 길보다는, AI가 스스로 경험하고 계속 배우는 시스템을 고민해 보세요. 그리고 우리가 아이를 키울 때와 마찬가지로, AI에게도 올바른 가치와 적정한 자율성을 부여해주는 것이 더 나은 미래를 만드는 출발점이 될 것입니다.
진짜 강력한 AI는 '지식의 양'이 아니라, 경험과 목적을 섞어가며 계속 성장할 수 있는 내적 구조에 달려 있습니다. 여러분의 고민과 프로젝트에도 이 원리를 한번 적용해보면, 새로운 시야와 해결책이 보일지도 모릅니다.
출처 및 참고: