구글 PaperBanana, 5개 AI 에이전트로 논문 도해 자동 생성

논문을 읽을 때 “그림 하나로 이해가 끝나는” 순간이 있습니다. 하지만 그 그림(도해)을 만드는 과정은 보통 끝없는 정렬, 아이콘 찾기, 화살표 각도 조정의 연속이죠. 구글 클라우드 AI 연구팀과 베이징대 연구진이 만든 ‘PaperBanana’는 이 고된 작업을 다섯 개의 AI 에이전트가 분업해, 논문 방법(Method) 설명만으로 학술 출판 수준의 과학 다이어그램을 자동 생성하는 시스템입니다¹. 이 글에서는 PaperBanana의 작동 방식, 왜 “그럴듯한 그림 생성”을 넘어 “논문용 도해”에 초점을 맞췄는지, 그리고 한계와 활용 팁까지 정리해봅니다.

PaperBanana란? 논문 방법을 ‘출판용 도해’로 바꾸는 AI

PaperBanana의 핵심은 “이미지 생성 모델 하나가 다 한다”가 아니라, 논문 도해 제작에 필요한 단계를 잘게 쪼개 각각의 전문 에이전트에게 맡겼다는 점입니다. 목표는 단순히 멋진 이미지를 뽑는 것이 아니라, NeurIPS 같은 학회에서 요구하는 가독성과 일관성을 갖춘 ‘논문용 그림’을 만드는 것입니다¹.

그리고 이 시스템은 공개 서비스가 아니라는 점도 중요합니다. 구글의 비공개 모델(Gemini-3-Pro, Nano-Banana-Pro)을 기반으로 한 연구 결과이며, 현재는 샘플 이미지를 통해서만 결과를 확인할 수 있습니다¹. 즉, 당장 우리가 로그인해서 쓰는 형태는 아니지만, “논문 도해 자동화의 다음 방향”을 꽤 또렷하게 보여주는 사례입니다.

5개 AI 에이전트 분업 구조: 검색→요약→스타일→생성→검수

PaperBanana는 다섯 역할의 에이전트가 릴레이를 뛰듯 작업합니다¹. 먼저 비슷한 도해 사례를 찾아 “이 논문 도해는 보통 이런 구도로 그린다”는 참고 틀을 확보합니다. 그 다음 논문의 방법 설명을 ‘이미지 설명(캡션에 가까운 설계 문장)’으로 재구성해, 그림이 담아야 할 요소와 관계를 명확히 합니다.

여기서 흥미로운 포인트가 하나 더 들어갑니다. NeurIPS 출판 기준에 맞춘 미적(레이아웃/간격/색상/정렬 등) 가이드라인을 적용해 “읽기 좋은 논문 그림”의 규칙을 강제합니다¹. 이후 이미지 생성 에이전트가 실제 다이어그램을 만들고, 마지막으로 검수 에이전트가 오류를 잡아 수정 제안을 냅니다. 이 전체 과정이 최대 3회 반복되며 결과가 다듬어집니다¹.

이 구조가 의미 있는 이유는 간단합니다. 논문 그림에서 자주 터지는 문제(정렬 불량, 관계선 실수, 요소 누락)를 “생성 모델의 감”에 맡기지 않고, 절차로 통제하려는 시도이기 때문입니다.

통계 그래프는 ‘이미지’가 아니라 Matplotlib 코드로 그린다

논문 그림에서 가장 치명적인 사고는 ‘수치가 틀린 그래프’입니다. PaperBanana는 이 지점을 정면으로 회피합니다. 막대그래프나 선그래프 같은 통계 시각화는 그림을 픽셀로 그려내는 대신, Python의 Matplotlib 코드 자체를 생성해 정확도를 보장하는 방식으로 처리합니다¹.

이 차이는 생각보다 큽니다. 일반 이미지 생성은 “그럴듯한 그래프”는 만들 수 있어도, 축 눈금이나 값의 정확성에서 흔들리기 쉽습니다. 반면 코드 기반 생성은 재현 가능하고 수정도 명확합니다. “그래프만큼은 무조건 정답이어야 한다”는 연구자 관점이 설계에 녹아든 셈이죠.

성능 결과: 가독성·미적 품질 개선, 하지만 ‘내용 충실도’는 숙제

연구진은 NeurIPS 2025 논문 292개 사례로 자체 벤치마크를 구성해 평가했고, 간결성 37.2% 향상, 가독성 12.9%, 미적 품질 6.6%, 내용 충실도 2.8% 개선을 보고했습니다¹. 심사자 선호도 평가에서도 73% 확률로 PaperBanana 결과가 더 낫다고 선택되었습니다¹.

다만 “좋아 보인다”와 “내용이 정확하다”는 같은 말이 아닙니다. 내용 충실도(정확히 담겼는가)는 여전히 45.8% 수준으로 낮고, 연결선 오류나 화살표 방향 같은 디테일 실수가 발생한다고 알려졌습니다¹. 언어 모델이 텍스트 의미는 잘 잡아도, 시각적 세부를 완벽히 ‘눈으로 검수’하듯 처리하는 데는 아직 한계가 있다는 뜻입니다.

그래서 PaperBanana가 보여주는 가장 현실적인 메시지는 이겁니다. “도해는 자동으로 만들 수 있지만, 최종 제출 전에 사람의 마지막 확인이 필요하다.”

한계와 실무 팁: 래스터 출력, 벡터 편집, 그리고 안전장치

PaperBanana 결과물은 래스터 이미지로 제공되어, 일러스트레이터처럼 벡터 기반 편집이 필요할 때 불편할 수 있습니다¹. 연구에서는 4K 출력 같은 우회가 언급되지만, 근본적 해결은 “벡터로 뽑히는 파이프라인”이겠죠. 그래서 향후 방향으로는 AI가 벡터 그래픽을 추출·재구성하거나, 아예 어도비 일러스트레이터 같은 벡터 툴 안에서 직접 작동하는 에이전트가 가능하다는 전망도 나옵니다¹.

실무 관점에서 지금 당장 적용 가능한 교훈도 있습니다. 첫째, 자동 생성 도해는 ‘초안’으로 쓰고, 최종본은 체크리스트로 검수하세요. 화살표 방향, 연결선이 가리키는 대상, 레이블 누락, 단계 순서(1→2→3)가 대표적인 사고 지점입니다.

둘째, 그래프는 코드로 남기는 습관을 강화하세요. PaperBanana가 Matplotlib을 택한 이유처럼, 그래프는 “보이는 것”보다 “재현되는 것”이 더 중요합니다.

셋째, AI 도구가 늘어날수록 윤리/품질 논쟁도 함께 커집니다. 최근 과학 워크플로우 지원 AI가 잇달아 등장하는 가운데, 생산성은 오르지만 검증이 느슨해지면 논문 품질이 떨어질 수 있다는 경고도 함께 언급됩니다¹. 과거 AI가 만든 잘못된 해부도 같은 사례가 철회로 이어진 전례도 있었던 만큼, 특히 생명과학·의학 도해는 더 보수적으로 접근하는 편이 안전합니다¹.

시사점으로는, PaperBanana의 “유사 사례 검색 + 스타일 요약 + 반복 검수” 같은 구조가 논문 도해를 넘어 UI 디자인, 기술 도면, 제품 설명서 같은 영역으로 확장될 가능성이 큽니다¹. 결국 AI가 잘하는 건 한 방의 천재성보다, 표준을 지키며 반복 작업을 줄이는 쪽이니까요. 연구자 입장에서는 “그림을 그리는 시간”을 줄여 “실험과 논리”에 더 많은 시간을 쓰게 해주는 도구가 될 수 있고, 독자 입장에서는 논문이 더 읽기 쉬워질 여지도 있습니다.

참고

¹Google의 PaperBanana는 다섯 개의 AI 에이전트를 사용하여 과학 다이어그램을 자동 생성합니다.