안드레이 카파시 2025 회고 : LLM 패러다임 변화 정리

핵심 요약

2025년에는 RLVR, 에이전트, 로컬 도구, 멀티모달 UI 등으로 LLM이 "그냥 잘 말하는 모델"에서 "새로운 종류의 지능이자 도구 생태계"로 진화했다.

성능은 이전보다 훨씬 뛰어나지만, 특정 영역만 과도하게 잘하는 '들쭉날쭉한 지능' 특성이 뚜렷해졌고, 이로 인해 벤치마크와 기존 사고방식이 점점 덜 믿을 만해지고 있다.

동시에, 코드 작성·앱 개발·UI 상호작용이 근본적으로 바뀌며, 일반 사용자와 개발자 모두의 작업 방식이 재정의되고 있다.

안드레이 카파시가 블로그에 남긴 내용을 바탕으로 자세히 알아보자.

안드레이 카파시 2025 회고 : LLM 패러다임 변화 정리 image 1

RLVR: LLM 훈련 레시피에 추가된 새 단계

기존 LLM 생산용 훈련 흐름은 크게 세 단계로 정리할 수 있다.

첫째, 인터넷 텍스트 등 대규모 데이터를 이용한 사전학습이 있다. 여기서 모델은 언어와 세계 지식을 넓고 얕게 익힌다.

둘째, 사람이 작성한 지시·응답 데이터를 이용한 지도 미세조정이 뒤따른다. 이 단계에서 모델은 "사람 말을 잘 알아듣고, 그럴듯하게 응답하는 법"을 배운다.

셋째, RLHF를 통해 사람의 선호(좋아요, 나빠요)를 보상으로 삼아 출력을 더 유용하고 안전하게 조정한다. 이때의 보상은 본질적으로 "사람의 주관적 평가"에 기반한다.

2025년에 본격적으로 자리 잡은 RLVR(Reinforcement Learning from Verifiable Rewards)은 네 번째 큰 단계로 추가된 개념이다.

여기서 모델은 수학 문제, 알고리즘 퍼즐, 코드 챌린지처럼 정답이 객관적으로 판별 가능한 환경에서 보상을 받으며 강화학습을 한다.

정답을 맞추면 보상이 주어지고 틀리면 패널티를 받기 때문에, 사람 대신 환경이 자동으로 "이 출력이 좋은가?"를 판정해 준다.

이 과정에서 모델은 스스로 문제를 쪼개고, 중간 계산을 적어보고, 틀리면 되돌아가 수정하는 등 인간이 보기에도 "추론처럼 보이는 패턴"을 학습하게 된다.

중요한 점은, 사람에게 "어떻게 생각해야 하는지"를 일일이 가르치지 않고, 단지 "결과가 맞았는지"만 알려줘도, 모델이 자기 식의 효과적인 추론 전략을 발견한다는 것이다.

또 하나의 큰 변화는, RLVR은 검증 가능한 보상을 사용하기 때문에, 이전 단계들보다 훨씬 긴 시간 동안, 훨씬 많은 계산량을 투입해도 덜 위험하고 효율적이라는 점이다.

이에 따라 2025년에는 "모델 크기"를 키우기보다는 "RLVR 단계에서 더 오래, 더 깊게 훈련"시키는 방향으로 컴퓨트가 쓰이기 시작했다.

이와 함께 "테스트 시간에 생각을 얼마나 오래 하게 할 것인가(예: 더 긴 중간 추론, 더 많은 샘플 탐색)"라는 새로운 조절 레버와 그에 따른 스케일링 법칙도 등장했다.

이런 흐름 속에서 OpenAI의 o1이 초기 시연, o3가 본격적인 분기점 역할을 하며, "RLVR 기반 모델이 체감상 확실히 다르다"는 인식이 생겼다.

유령 vs 동물: 들쭉날쭉한 지능과 벤치마크의 한계

LLM의 지능을 사람이나 동물의 연속선상에 놓고 이해하려는 시도가 오래 이어졌지만, 2025년에는 이 비유가 근본적으로 어긋난다는 인식이 널리 퍼졌다.

인간 뇌는 수십만 년에 걸친 진화 과정에서 "부족을 살리고 번식하는 데 유리한 행동"을 하도록 최적화되어 왔다.

반면 LLM은 인터넷 텍스트를 모방하고, 수학·코드 퍼즐을 푸는 보상을 극대화하고, 사람의 좋아요를 얻는 방향으로 훈련된다.

즉, 두 시스템은 구조, 데이터, 목적 함수가 완전히 다르므로, 같은 "지능"이라는 말을 쓰더라도 서로 다른 영역의 생명체에 가깝다.

이를 표현하기 위해 "동물을 기르는 게 아니라 유령을 소환한다"는 비유가 등장한다.

LLM은 인간처럼 일관된 상식과 직관을 가진 존재가 아니라, 특정 영역에서는 천재적인데 다른 영역에서는 당황스러울 정도로 허술한, 이상한 모양의 지능 덩어리라는 뜻이다.

특히 RLVR이 적용된 수학, 코드, 문서 처리 등 영역은 가파르게 능력이 튀어 오르지만, 일상 상식 추론이나 속임수 방지 같은 영역은 상대적으로 취약하게 남는 경우가 많다.

이로 인해 LLM은 "한쪽에서는 박사급, 다른 쪽에서는 초등학생 이하" 같은 들쭉날쭉한 성능 프로필을 보인다.

이를 시각적으로 표현한 밈이 아래와 같은 이미지다. 인간 지능도 영역마다 차이가 있지만, LLM의 "빨간 곡선"은 특정 포인트에서 비정상적으로 튀어오른 모양을 하고 있다.

g6zymj4a0amnjkj

이 특성은 벤치마크에 대한 불신으로 이어진다. 대부분의 벤치마크는 "정답 여부를 명확히 판정할 수 있는" 문제로 구성되기 때문에 RLVR의 직격 대상이 된다.

모델 개발 팀은 해당 벤치마크 주변의 문제들을 대규모로 생성하고, 그 환경에서 RL·미세조정을 반복하여, 벤치마크 스코어를 인위적으로 끌어올리기 쉽다.

즉, "테스트셋에 가까운 공간에서 집중적으로 근육을 키운" 결과만으로, 실제 일반 지능을 과대평가하게 되는 셈이다.

따라서 2025년에는 "벤치마크를 다 깨도, 우리가 기대하는 의미의 AGI와는 아직 거리가 멀다"는 감각이 더 명확해졌다.

이 관점에서 보면, 중요한 것은 점수 자체보다 "어떤 영역이 왜 잘 되고, 어디서 어떻게 무너지는지"를 파악하는 것이다.

LLM 앱의 새 층: Cursor와 'X를 위한 Cursor' 패턴

2025년 Cursor는 단순한 "코딩 어시스턴트"가 아니라, 새로운 형태의 LLM 기반 앱을 보여주는 대표 사례로 떠올랐다.

이 새로운 앱 계층의 핵심은 "하나의 거대한 LLM"이 아니라, 다양한 LLM 호출을 조합하고, 입력·맥락·출력을 정교하게 조율하는 오케스트레이션에 있다.

먼저, 이러한 앱은 사용자가 매번 시스템 프롬프트를 설계하지 않아도 되도록, 맥락과 히스토리를 설계해 주는 일종의 "컨텍스트 엔지니어링"을 수행한다.

예를 들어, 현재 파일 구조, 열려 있는 탭, 최근 대화 내역, 프로젝트 설명 등을 자동으로 긁어 모아 모델에 전달하여, 사용자는 자연어로만 "이거 리팩토링해 줘"라고 말해도 된다.

둘째, 백엔드에서는 하나의 요청이 여러 LLM 호출로 분해되어 DAG 형태로 실행될 수 있다.

DAG는 Directed Acyclic Graph의 약자로, 방향성이 있는 화살표로 이어진 노드들로 이루어져 있는데, 그 화살표를 따라가다 보면 절대 원점으로 되돌아오는 순환이 없는 구조를 뜻한다. 작업들을 노드로, 의존 관계를 화살표로 표현할 때 자주 쓰이며, "무엇을 먼저, 무엇을 나중에 실행해야 하는지"를 깔끔하게 정리해 주는 틀이라고 보면 된다.

Claude Code: 내 컴퓨터에 사는 에이전트

Claude Code는 "AI 에이전트"라는 개념을 가장 직관적으로 보여준 사례 중 하나다.

여기서 에이전트란, 한 번의 답변으로 끝나는 도구가 아니라, 파일 시스템, 터미널, 편집기 등 다양한 도구를 스스로 호출하고 결괏값을 해석하며, 목표를 향해 여러 번의 행동을 이어 가는 존재를 뜻한다.

Claude Code의 특징은 이 에이전트가 클라우드 환경의 추상적 컨테이너가 아니라, 사용자의 실제 개발 환경, 즉 로컬 컴퓨터에 "살고 있다"는 점이다.

이 말은 곧, 이미 설치된 도구, 설정, 비밀 키, 프로젝트 코드, 캐시된 데이터 등 현실적인 맥락 전체에 접근할 수 있다는 뜻이다.

예를 들어, 에이전트는 로컬 리포지토리를 탐색하고, 빌드 스크립트를 실행해 보고, 로그 파일을 읽고, 테스트를 돌려 문제를 재현해 볼 수 있다.

이러한 구체적 맥락은, 단순히 클라우드 상의 깨끗한 컨테이너를 띄워서 "문제만 던져주고 풀어보라"는 방식보다 훨씬 현실 업무에 가깝다.

또한, 사용자 입장에서는 브라우저를 켜서 웹사이트에 접속하는 대신, 간단한 CLI를 실행하는 것만으로 "개발 환경에 산다시피 하는 AI 동료"와 상호작용하게 된다.

이처럼 "AI가 내 컴퓨터에 상주하며, 내 파일과 툴체인과 함께 일하는 경험"은 AI 사용 방식의 새로운 패러다임으로 떠올랐다.

흥미로운 점은, 많은 사람들이 AGI를 상상할 때 "클라우드에서 수천 개의 에이전트가 협업하는 거대한 시스템"을 떠올렸지만, 실제로는 그보다 한 단계 앞선, 훨씬 소박하고 실용적인 형태의 에이전트가 먼저 대중화되고 있다는 사실이다.

Vibe Coding: 영어로 앱을 주문하는 시대

2025년에는 "코드를 직접 짜는 행위"보다 "자연어로 원하는 걸 설명하는 행위"가 더 중요해지는 지점이 분명해졌다.

Vibe coding이라는 표현은, 세부 구현을 모두 설계하지 않고도, "이런 느낌의 프로그램이었으면 좋겠다"는 요구사항과 분위기를 자연어로 설명하면, AI가 대부분의 코드를 생성하고 수정하는 방식을 가리킨다.

중요한 것은, 이 접근이 이제 더 이상 장난감 수준이 아니라 꽤 복잡한 앱, 라이브러리, 툴까지 커버할 수 있을 만큼 성숙해졌다는 점이다.

덕분에 전통적으로 코딩을 하지 않던 사람도, "데이터를 이렇게 정리해서 보고 싶다", "내 업무에 맞는 간단한 웹 대시보드를 만들고 싶다"는 요구를 자연어로 표현하는 것만으로 실제 도구를 만들어 쓸 수 있게 된다.

동시에, 숙련된 개발자에게도 Vibe coding은 새로운 힘을 준다.

필요할 때마다 언어·프레임워크를 처음부터 학습하지 않고, "Rust로 이 기능 구현해 줘. 성능은 이런 기준을 맞춰 줘"라고 요구한 뒤, 생성된 코드를 가볍게 검토·수정하는 식으로 생산성을 극대화할 수 있다.

심지어 "특정 버그를 찾기 위해 일회용으로 디버깅 도구를 하나 만들어 달라"고 요청한 뒤, 문제 해결 후 그 코드를 버려 버리는 식의 사용도 가능해졌다.

코드가 싼 자원처럼 느껴지는 순간, "지속해서 관리할 소프트웨어만 작성한다"는 기존 관념이 깨지고, "순간적으로 필요한 도구를 즉석에서 만들고 버리는 문화"가 등장한다.

이 변화는 개발자 직무 정의, 소프트웨어 생명 주기, 코드 품질의 개념 등 여러 면에서 생각을 다시 정리하게 만든다.

Nano Banana와 LLM GUI: 채팅을 넘어 시각적 상호작용으로

지금까지 LLM과의 상호작용은 대부분 "텍스트 채팅"에 의존해 왔다.

이는 초기 컴퓨터의 "명령 줄 인터페이스(CLI)"와 비슷한 단계로 볼 수 있다.

하지만 사람의 인지 방식은 텍스트보다 시각적·공간적 표현에 훨씬 친화적이다.

우리는 짧은 텍스트를 읽는 것보다, 도표, 슬라이드, 그림, 인터랙티브한 인터페이스를 보는 쪽이 훨씬 빠르고 편하다.

기존에도 Markdown, 이모지, 간단한 표 등으로 "텍스트를 예쁘게 꾸미는" 정도의 시도는 있었지만, 이것만으로는 충분히 풍부한 시각적 표현을 제공하기 어렵다.

이때 등장한 Google Gemini Nano banana는, 텍스트와 이미지를 동시에 다루는 경량 모델로서, "LLM이 직접 눈에 보이는 UI를 만들어내는 방향"을 엿보게 해 준 사례로 주목받았다.

여기서 중요한 것은 단순한 이미지 생성 능력이 아니라, 언어 이해·세계 지식·시각 표현 능력이 하나의 모델 안에서 얽혀 있다는 점이다.

예를 들어, 설명을 듣고 적절한 다이어그램을 그려 주거나, 데이터 구조를 시각화해 주거나, 슬라이드 스타일의 요약 이미지를 만들어 주는 식의 사용이 가능해진다.

이는 궁극적으로 "LLM을 위한 GUI"라는 개념으로 이어진다.

미래에는 사용자가 긴 문장을 읽는 대신, AI가 자동으로 대시보드를 만들고, 흐름도를 그리고, 인터랙티브한 미니 웹앱을 생성해 주는 방식이 보편화될 수 있다.

텍스트 채팅은 그중 하나의 모드일 뿐, 사람의 인지 습관에 맞춘 시각·공간 기반 인터페이스가 점점 주요 통로가 될 가능성이 크다.

인사이트

2025년의 흐름을 종합하면, LLM은 "크기가 커진 채팅봇"에서 "새로운 종류의 지능과 도구 생태계"로 빠르게 옮겨 가고 있다.

강화학습(RLVR)을 통한 추론 능력 증강, 특정 업무에 특화된 오케스트레이션 앱(Cusor류), 로컬 환경과 밀착된 에이전트(Claude Code), 자연어 기반 개발(Vibe coding), 시각적 UI를 향한 움직임(Nano banana)은 각기 다른 방향처럼 보이지만, 모두 "AI를 실제 작업과 삶에 깊이 끌어들이는 과정"이라는 하나의 큰 흐름 위에 있다.

실용적인 관점에서, 우리가 취할 수 있는 전략은 세 가지로 요약할 수 있다.

첫째, "모델 이름과 벤치마크 점수"에 집착하기보다, 각 도구가 실제로 내 작업 흐름 어디를 어떻게 바꿔 줄 수 있는지에 집중하는 것이 중요하다.

둘째, 자연어로 요구사항을 명확하게 표현하는 능력(문제 정의, 제약 조건, 예시 제공)이 점점 핵심 역량이 된다. 이는 비개발자에게도 강력한 무기가 된다.

셋째, 로컬 환경과 결합된 에이전트, 도메인 특화 LLM 앱, 멀티모달 UI를 직접 써 보면서, "AI와 협업하는 나만의 작업 흐름"을 설계하는 사람이 앞으로 더 큰 생산성 격차를 가지게 될 것이다.

기술은 빠르게 진화하고 있지만, 동시에 "실제로 어디에, 어떻게 쓸 것인가"를 실험하고 설계해야 할 일은 아직 엄청나게 많이 남아 있다.

지금 시기에 중요한 건 모든 것을 예측하는 것이 아니라, 이 새로운 도구들과 함께 작게라도 실험을 많이 해 보는 것이다.

출처 및 참고 : 2025 LLM Year in Review | karpathy