1장 AI 에이전트 입문과 『AI Agents in Action』

개요

이 노트는 Manning 출판사의 『AI Agents in Action』 목차와 1장 구성을 바탕으로, AI 에이전트가 무엇인지, 어떤 구성 요소로 이루어지는지, 그리고 왜 지금 "에이전트 시대"가 주목받는지 정리한 입문용 가이드입니다. 특히 1장에 해당하는 "Introduction to agents and their world"를 중심으로, 이후 장들이 어떤 흐름으로 이어지는지까지 한눈에 잡을 수 있도록 재구성했습니다.

Generated Image

또한 책 전체 구조를 훑으면서 LLM, GPT 어시스턴트, 멀티 에이전트 시스템, 액션(action), 메모리, 플래닝(planning) 등 핵심 키워드가 각 장에서 어떻게 다뤄지는지도 함께 설명합니다. 실제 코드를 따라 치지 않더라도, "AI 에이전트가 대략 이런 식으로 동작하고, 이런 도구들을 써서 이렇게 시스템을 만든다"라는 큰 그림을 이해하는 데 초점을 맞췄습니다.

1. AI 에이전트란 무엇인가: 정의와 직관

책의 1장은 먼저 "에이전트(agent)"라는 개념을 명확히 정의하는 것에서 출발합니다. 전통적인 AI 영역에서 에이전트는 보통 "환경을 관찰하고(관측·입력), 그에 따라 행동을 선택하며, 일정한 목표를 향해 움직이는 시스템" 정도로 정의됩니다. 여기서 환경은 웹, 파일 시스템, 사용자의 요청, 센서 데이터 등 에이전트가 상호작용하는 모든 것을 포함합니다.

최근 LLM 기반 에이전트 맥락에서 말하는 에이전트 역시 이 기본 틀을 따르지만, "생각하고(추론), 도구를 사용하고, 대화를 통해 상황을 이해하면서, 연속적인 목표를 수행하는 소프트웨어"에 더 가깝습니다. 즉, 단순히 질문에 답만 하는 챗봇이 아니라, 스스로 계획을 세우고, 여러 단계를 거쳐 작업을 완수하려는 '행동하는 AI'라고 이해하면 좋습니다.

사용자 입장에서 보면, AI 에이전트는 "자연어로 요청하면, 알아서 계획을 짜고, 필요한 도구를 호출해 결과를 만들어 내는 지능형 비서"에 가깝습니다. 이메일 정리, 보고서 작성, 코드 수정, 데이터 분석, 심지어 다른 시스템을 호출하는 일까지 통합적으로 처리해 주는 역할을 목표로 합니다.

2. 에이전트를 이루는 구성 시스템과 컴포넌트

1장 1.2절에서는 에이전트를 구성하는 주요 시스템과 컴포넌트를 개념적으로 나눠 설명합니다. 구체적인 구현 도구는 뒤 장에서 다루지만, 구조적 관점에서 에이전트를 보면 대략 다음과 같은 블록으로 이해할 수 있습니다.

먼저 입력과 관찰(Perception) 계층이 있습니다. 여기에는 사용자의 자연어 요청, 파일·웹 페이지 내용, API 응답, 센서 데이터 등이 포함됩니다. 에이전트는 이 입력을 LLM이 이해할 수 있는 형태로 정리하고, "지금 무엇을 해야 하는지" 판단할 재료로 삼습니다.

다음은 추론과 계획(Reasoning & Planning) 계층입니다. LLM은 주어진 목표를 달성하기 위해 어떤 단계로 작업을 나눌지, 어떤 도구를 어떤 순서로 호출할지 결정합니다. 여기에는 체인 오브 소트(chain-of-thought), 플래닝(prompt 기반 계획), 피드백·자기평가 같은 기법이 결합될 수 있는데, 이런 내용은 책의 후반부(10·11장)에서 심화해서 다룹니다.

그다음은 행동(Action / Tools) 계층입니다. 에이전트는 실제로 무언가를 하기 위해 외부 도구를 호출해야 합니다. 예를 들어, 데이터베이스를 조회하고, 코드를 실행하고, 이메일을 전송하고, 웹에서 정보를 검색하는 등의 역할을 담당하는 API·함수들이 여기에 해당합니다. 5장은 이 "액션"을 에이전트의 핵심 구성 요소로 보고 자세히 다룹니다.

또 하나 중요한 것이 메모리(Memory)와 지식(Knowledge) 계층입니다. 에이전트가 과거 대화, 문서, 작업 이력을 기억하고 활용할 수 있어야 보다 일관되고, 장기적인 업무를 수행할 수 있습니다. 이를 위해 벡터 데이터베이스, RAG(Retrieval-Augmented Generation), 문서 임베딩 같은 기술이 쓰이고, 책에서는 8장에서 에이전트의 기억과 지식을 집중적으로 다룹니다.

마지막으로, 에이전트의 프로필과 페르소나(Profile & Persona), 정책과 평가(Evaluation) 같은 메타 구성 요소도 있습니다. "이 에이전트는 어떤 말투로, 어떤 성격과 목표를 가지고 움직일 것인가?", "답변이 잘 나왔는지, 계획이 타당한지 어떻게 평가하고 수정할 것인가?"와 같은 부분으로, 이는 7장(프로필·엔진), 9~11장(프롬프트 플로우, 평가·플래닝)에서 구체적으로 전개됩니다.

3. 왜 에이전트인가: 에이전트 시대의 부상 배경

1장 1.3절은 "왜 지금 에이전트인가?"라는 질문을 던지며, 최근 몇 년 사이 에이전트 개념이 다시 각광받게 된 배경을 설명합니다. 큰 흐름은 다음과 같이 정리할 수 있습니다.

우선 LLM의 급격한 성능 향상이 가장 큰 요인입니다. 예전에는 자연어 이해와 생성이 제한적이어서, 에이전트가 복잡한 지시를 이해하고 스스로 계획을 세우기는 어려웠습니다. 하지만 GPT 계열 모델처럼 강력한 LLM이 등장하면서, 자연어만으로도 꽤 복잡한 과업을 분해하고, 상황에 맞는 도구 사용 순서를 스스로 결정하는 것이 가능해졌습니다.

다음으로, 도구·API·플랫폼 환경이 풍부해진 점도 중요합니다. 클라우드 API, SaaS 서비스, 코드 실행 환경, 데이터베이스 접근 등 다양한 기능이 "함수 호출"만으로 가능해지면서, LLM이 이 함수들을 엮어 실제 작업을 수행하는 구조가 자연스럽게 만들어졌습니다. 즉, 언어 모델이 "똑똑한 두뇌" 역할을 하고, 주변의 API들이 "손과 발"이 되는 구도가 갖춰진 것입니다.

또한, 단순한 질문-답변(Q&A) 형식의 챗봇으로는 실제 업무 자동화 요구를 충족시키기 어려운 한계도 있었습니다. 사람들은 "자료 조사해 줘"를 넘어서 "이 세 자료를 비교해 보고, 내 상황에 맞는 추천안을 문서로 정리해 줘"처럼 여러 단계의 복합적인 요구를 합니다. 에이전트는 이런 요구를 위해 "대화 → 이해 → 계획 → 실행 → 결과 정리"까지 이어지는 연속적인 플로우를 제공하려는 시도입니다.

요약하면, 에이전트는 LLM의 언어 능력 + 다양한 도구와 API + 자동화 요구의 증가라는 세 가지 흐름이 결합되면서 자연스럽게 등장한 "다음 단계의 AI 활용 방식"이라고 볼 수 있습니다.

4. 1장: 인터페이스 뒤에 숨은 AI와 에이전트 풍경

1장 후반부(1.4, 1.5절)는 "AI 인터페이스 뒤를 들여다본다(Peeling back the AI interface)"와 "에이전트 지형을 탐색한다(Navigating the agent landscape)"라는 제목을 가지고 있습니다. 목차만 봐도 이 부분은 "겉에서 보면 그냥 챗GPT 같은 인터페이스인데, 그 뒤에 실제로 어떤 구조와 종류의 에이전트들이 있는가?"를 개략적으로 소개하려는 의도임을 알 수 있습니다.

일반 사용자는 채팅창 하나만 보지만, 그 뒤에서는 LLM이 프롬프트를 해석하고, 필요한 도구(검색, 코드 실행, 데이터 조회)를 호출하고, 결과를 다시 정리해 주는 일종의 파이프라인이 돌고 있습니다. 1장은 이 파이프라인을 직관적으로 보여 주면서, 이후 장에서 다룰 각 요소(LLM, 어시스턴트, 멀티 에이전트, 액션, 메모리 등)가 전체 그림 속에서 어떤 자리를 차지하는지 미리 조망합니다.

또한 "agent landscape"라는 표현에서 알 수 있듯, 책은 특정 한 프레임워크나 한 회사의 도구만 다루지 않고, 여러 개의 에이전트 관련 도구·플랫폼(OpenAI API, GPT Assistants, AutoGen, CrewAI, Semantic Kernel 등)을 비교하며 설명합니다. 1장은 이 다양한 도구들이 "모두 에이전트 생태계의 일부이며, 서로 다른 레벨과 역할을 담당한다"는 관점을 제시하는 위치에 있다고 볼 수 있습니다.