OpenAI가 AI 코딩 에이전트의 작동 방식에 대한 기술 세부사항을 공개
-
OpenAI는 GitHub에서 코딩 CLI 클라이언트를 오픈소스로 제공하며, 개발자들이 이를 직접 살펴볼 수 있도록 하고 있습니다. 반면, ChatGPT나 Claude 웹 인터페이스에 대해서는 그러한 공개를 하지 않고 있습니다.
-
Bolin의 글은 "에이전트 루프"라고 불리는 핵심 로직에 중점을 두고 있으며, 이는 사용자, AI 모델, 소프트웨어 도구 간의 상호작용을 조율하는 역할을 합니다.
-
AI 에이전트의 중심에는 반복되는 사이클이 존재하며, 사용자의 입력을 받아 텍스트 프롬프트를 준비한 후, 모델이 응답을 생성합니다. 이 응답은 최종 답변을 제공하거나 도구 호출을 요청합니다. 도구 호출이 필요한 경우 에이전트는 이를 실행하고 결과를 프롬프트에 추가한 후, 모델에 다시 질의합니다. 이러한 과정은 모델이 도구 요청을 멈추고 사용자에게 도움 메시지를 제공할 때까지 반복됩니다.
-
Codex는 OpenAI의 Responses API로 초기 프롬프트를 보내는 방법을 설명하고 있으며, 프롬프트는 시스템, 개발자, 사용자, 어시스턴트 등 여러 구성 요소로 이루어져 있으며, 우선순위가 정해져 있습니다.
-
인스트럭션 필드는 사용자 지정 구성 파일이나 CLI에 포함된 기본 지침에서 가져오며, 도구 필드는 모델이 호출할 수 있는 기능들을 정의합니다. 여기에는 셸 명령, 계획 도구, 웹 검색 기능, 그리고 MCP 서버를 통해 제공되는 커스텀 도구들이 포함됩니다.
-
입력 필드는 샌드박스 권한, 선택적 개발자 지침, 환경 컨텍스트(현재 작업 디렉토리 등), 그리고 사용자의 실제 메시지를 설명하는 항목들로 구성됩니다.