AI, 인공지능, 그리고 자전거 타는 펠리컨: 에이전트 반복의 비밀
인공지능(AI)이 그림을 그리는 시대, 우리가 상상하지 못했던 실험들이 벌어지고 있습니다. 오늘은 조금은 엉뚱하지만, 최신 AI 모델의 창의성과 사고방식을 가장 재미있게 들여다볼 수 있는 실험인 '자전거를 타는 펠리컨' 미션을 소개합니다. 이 실험은 단순한 그림 생성이 아니라, AI의 ‘에이전트 반복’(Agentic Loop: 생성→분석→개선→반복)을 통해 얼마나 똑똑하게, 그리고 얼마나 창의적으로 자신의 결과물을 개선하는지 탐구하는 과정입니다.
이 글에서는 '자전거 타는 펠리컨' 실험과 함께 최신 멀티모달 AI들의 성능, 에이전트 방식의 의미, 그리고 이 방식이 앞으로 인공지능 발전에 던지는 시사점을 쉽고 재미있게 풀어봅니다.
'자전거 타는 펠리컨' 벤치마크란?
먼저, 이 실험의 출발점은 영국 프로그래머 Simon Willison이 만든 아주 독특한 벤치마크입니다. AI에게 “펠리컨이 자전거를 타는 그림(SVG 코드)을 그려라!”라고 부탁하는 것이죠. 겉보기엔 단순해 보여도, AI가 제대로 해내려면 자전거와 펠리컨의 생김새, 각자의 신체 구조, 실제로 어떻게 그런 조합이 그림으로 표현될지까지 이해해야 합니다. 이걸 한 번에 해내는 건 아직도 쉽지 않은 숙제입니다.
즉, 이 미션은 AI가 여러 개념(동물, 기계, 동작)을 어떻게 '진짜로' 이해하고, 조합해서, 논리적인 결과물을 만들어내는지 체크하는 완벽한 시험지인 셈이죠.
에이전트 반복: AI가 스스로 발전하는 방법
전통적인 방식(제로샷)에서는 AI에 지시를 한 번 주면 그 결과가 바로 나옵니다. 운이 좋으면 자전거에 펠리컨이 타고 있을지도, 아닐 수도 있습니다. 하지만 요즘 AI의 트렌드는 다릅니다. 바로 '에이전트 반복' 방식이죠.
이 방법에서는 AI가 자신이 만든 이미지를 직접 보고, 부족한 점을 스스로 파악해서 다음 번엔 더 개선된 결과로 다시 그립니다. 마치 사람이 그림을 그리고 자신의 그림을 비판적으로 바라보고 다시 고쳐나가는 과정과 똑같은 원리입니다.
실험에서는 AI에게 이런 반복의 자유를 주고, 얼마나 ‘스스로 발전’할 수 있는지 관찰합니다. 비전 기능(이미지 인식, 자기 피드백)이 지원되는 모델들이라면, SVG 그림을 JPG로 변환해 자신이 그린 결과를 직접 평가하고, 이를 토대로 다시 그림을 수정합니다.
주요 AI 모델들의 결과 비교
실험에는 최신 AI 모델 6종(Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5 Medium, GPT-5-Codex Medium, Gemini 2.5 Pro)이 참가했습니다.
Claude Opus 4.1: 기계적 디테일에 강한 '기계감각형'
Claude Opus 4.1은 단순한 그림 그리기를 넘어서, 실제 자전거 구조의 현실감을 살리는 방향으로 반복적으로 그림을 개선했습니다. 4번의 반복 후에는 자전거 체인을 추가하고, 펠리컨의 팔이 핸들을 잡는 모습 등 물리적으로 타당한 요소가 반영됐죠. 단순히 더 많은 세부 정보를 넣는 것이 아닌, '기계적으로 제대로 된 그림'을 만들어내는 모습을 보여줬습니다.
Claude Sonnet 4.5: 깔끔함에 집중하는 '세련미형'
Sonnet 4.5는 변화의 폭이 크지는 않지만, 매 반복마다 그림의 곡선, 그림자, 동작감을 조금씩 다듬어갑니다. 구성이 흔들리지 않으면서도 점점 더 깔끔하고 안정적인 모습으로 차분하게 발전합니다.
Claude Haiku 4.5: 디테일 완성형 '집요함 타입'
Haiku 4.5는 6번이나 반복하며 집요하게 펠리컨의 다리, 발 등 세부 사항을 조금씩 개선합니다. 큰 변화보다는 '정말 모든 부분이 제대로 모양을 갖췄나?'에 집중합니다.
GPT-5 Medium: 인식 가능한 구성을 유지하며 점진적 개선
GPT-5 Medium은 처음부터 '펠리컨+자전거'가 잘 보이는 그림을 그려낸 후, 반복을 통해 형태와 비율을 조금씩 다듬습니다. 전체적인 구조는 그대로지만, 점점 사람 눈에 보기 좋은 방향으로 발전합니다.
GPT-5-Codex Medium: 복잡성 지향형 '추상화 전문가'
GPT-5-Codex Medium은 처음부터 약간 추상적인 그림을 생산하고, 반복할수록 더 많은 레이어와 복잡한 디테일을 추가합니다. '더 복잡하게 그리는 게 더 낫다'라고 생각하는 듯한 결과로 흥미로운 예외를 보여주었습니다.
Gemini 2.5 Pro: 근본적인 구조 변화 시도
대부분의 AI들이 기본 구성을 유지하며 반복하던 것과 달리, Gemini 2.5 Pro는 반복 과정을 거치며 펠리컨의 자세와 자전거의 방향, 두 요소의 공간적 관계까지 완전히 바꿨습니다. 그림의 전체적인 구성 자체를 생각하고 변화시키는, 진짜 창의적 접근을 보여줬죠.
반복하는 에이전트가 보여준 것
실험이 남긴 결론은 단순하지 않습니다. 일부 모델(예: Opus 4.1, Gemini 2.5 Pro)은 자신의 그림을 분석하고 진짜 필요한 부분을 바꿔가며 발전합니다. 즉, 기계적 논리, 미적 판단, 공간적 사고 등 복합적인 능력이 필요하죠.
하지만 많은 모델은 반복하며 디테일을 더할 뿐, '구조적 문제'나 '창의적 변화'에는 소극적이었습니다. 심지어 GPT-5-Codex Medium은 복잡성을 무조건 "개선"이라고 오해하기도 했습니다. 즉, AI가 반복적으로 자기 피드백을 하더라도, 본질적으로 어떤 개선이 ‘진짜’ 필요한지 판단하는 능력이 없다면 반복의 의미가 작아집니다.
이 실험이 던진 질문은 이겁니다: 자기 피드백을 하는 AI, 즉 '에이전트'는 결과를 개선할 수 있는가? 그 개선은 단순히 더 복잡하게 만드는 것이 아니라, '진짜로 더 나은' 방향으로 이끌 수 있는가?
멀티모달 AI 에이전트의 미래와 시사점
최근 AI 개발은 텍스트뿐 아니라 이미지, 오디오, 동영상까지 '멀티모달'(다양한 형태를 동시에 처리)로 확장되고 있습니다. 에이전트 반복 방식은 이런 복합적인 데이터를 더 잘 이해하고 조합하는 데에 핵심이 되고 있습니다.
이제 에이전트 시스템은 다중 모델을 자동으로 조율하면서, 반복적 자기개선 루프를 통해 더 깊이 있는 답을 찾으려 합니다. 실제 최신 연구(Agent-Omni 등)는 '마스터 에이전트'가 각각의 전문 에이전트(텍스트, 이미지, 오디오, 비디오 등)를 불러와 문제를 분해해서 반복적으로 개선하는 구조를 채택하고 있습니다. 이 방식은 기존 거대 모델을 통째로 학습시키기보다, 적은 비용과 빠른 속도로 더 융합적인 사고와 답을 제공합니다.
작은 실험에서 느끼는 큰 변화
'자전거 타는 펠리컨'처럼 실제 업무와 전혀 관계 없어 보이는 벤치마크가 왜 중요한가? 바로 이런 엉뚱한 문제를 통해 AI의 창의력과 복합적 사고력 한계를 드러내면서, 앞으로 더 똑똑하고 인간스러운 AI를 만드는 길을 보여주기 때문입니다.
실전에서는 광고, 디자인, 서비스 챗봇 등 다양한 분야에서 이와 비슷한 ‘창의적 조합’이 필요한데, AI가 스스로 반복적으로 개선하는 능력이 갖춰진다면 인간의 작업 속도와 품질 모두 대폭 향상될 것입니다. 하지만 반복 루프의 진정한 가치가 발휘되려면, AI가 단순한 디테일 추가가 아닌 문제의 본질을 개선하는 '비판적 사고력'을 함께 키워야 한다는 점을 잊지 말아야겠습니다.
마무리: 반복 에이전트의 교훈과 실용적 팁
에이전트 반복 방식은 분명 AI의 그림 실력뿐만 아니라, 다양한 문제 해결에 강력한 도구가 될 수 있습니다. 하지만 현재 AI는 자기 결과를 완전히 이해하고 ‘진짜 개선’이 무엇인지 아는 데에는 아직 한계가 있습니다. 앞으로는 자기 피드백, 미적·기계적 판단, 창의성과 비판적 사고를 동시에 키우는 모델 개발이 필요합니다.
실생활에 적용해보고 싶은 분께는, 반복 피드백을 주거나 여러 번 평가 과정을 넣어서 AI 결과물을 점진적으로 다듬어가기를 추천합니다. 결국, AI의 ‘에이전트 반복’은 인간과 협업하는 미래를 더 창의적이고 유연하게 만들어줄 열쇠가 될 것입니다.
참고
[1] SVG of a Pelican Riding a Bicycling – Hybrid Copy - Hybrid Copy
[2] Agentic Pelican on a Bicycle - Robert Glaser
[3] Agent-Omni Achieves State-of-the-art Multimodal Reasoning Across Text, Image, Audio, And Video Without Retraining - Quantum Zeitgeist
[4] Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything - arXiv
[5] GPT-5 vs Gemini 3.0 vs Claude 3: The Ultimate Battle of Next-Gen AI Models - Techgenyz