Gemini 2.5 프롬프트 가이드: '자가 검증'으로 AI 답변 정확도와 신뢰도 높이기

Gemini 2.5 프롬프트 가이드: '자가 검증'으로 AI 답변 정확도와 신뢰도 높이기 image 1

2024년 등장했던 기하학 문제 풀이 AI '알파기하학(AlphaGeometry)'을 기억하시나요?

특정 분야에 한정되었지만, 인류 최고 난이도의 수학 문제에 도전하는 AI의 가능성을 보여준 사건이었습니다. 그리고 2025년 7월, UCLA 연구팀은 여기서 한 걸음 더 나아간 연구결과를 발표하였습니다.

바로 특정 분야 한정 모델이 아닌 범용 대규모 언어 모델(LLM)인 Gemini 2.5 Pro로 국제수학올림피아드(IMO) 2025년도 문제 6개 중 5개를 해결했다는 연구 결과입니다.

이 소식이 왜 중요할까요? 단순히 AI가 어려운 수학 문제를 몇 개 더 풀었기 때문이 아닙니다. 이 성과의 진짜 의미는 문제의 '답'을 맞히는 것을 넘어, 그 답에 이르는 과정 전체를 인간 수학자처럼 '엄밀하게 증명(Proof)'해내는 시스템의 가능성을 열었기 때문입니다.

국제수학올림피아드(IMO)는 최종 답만으로는 점수를 거의 받을 수 없는, 논리적 과정의 완결성이 중요합니다. 그동안 많은 AI 모델들이 정답은 맞히면서도 그 과정에서 논리적 비약을 범하거나, 데이터 오염 문제에서 자유롭지 못하다는 한계를 보여왔습니다. 알파기하학 역시 기하학 등 특정 분야에 국한된 성공이었습니다.

하지만 이번 연구에서 데이터 오염 위험이 없는 최신 문제를 대상으로, 대수, 정수론, 조합론을 아우르는 다양한 분야의 문제들을 단일 범용 LLM으로 해결했습니다. 그 비결은 바로 '해결사'와 '검증관'의 역할을 나누어 서로의 결과물을 끊임없이 다듬는, 마치 인간 전문가들의 '동료 심사(Peer Review)' 과정을 모방한 '자가 검증 파이프라인'에 있었습니다.

방법론: 다단계 '자가 검증 파이프라인'

이 연구의 핵심은 모델의 성능 자체보다, 그 성능을 체계적으로 이끌어내는 '자가 검증 파이프라인(self-verification pipeline)'에 있습니다. 이는 문제 해결 과정을 여러 독립적인 단계로 분해하고, 각 단계에서 모델이 특정 역할을 수행하도록 설계된 워크플로우입니다.

파이프라인의 구체적인 단계:

초기 해답 생성: '해결사(Solver)' 역할을 부여받은 모델이 문제에 대한 첫 번째 풀이를 생성합니다.
자가 개선: 모델이 생성된 풀이를 스스로 검토하고 개선합니다. 이 단계는 LLM의 실질적인 제약인 '사고 예산(thinking budget)', 즉 단일 응답에서 처리할 수 있는 토큰의 한계를 극복하는 데 기여합니다. 각 단계는 독립적인 API 호출로 이루어지므로, 모델은 매번 새로운 사고 예산을 할당받는 효과를 얻습니다.
검증 및 버그 리포트 생성: '검증관(Verifier)' 역할을 부여받은 모델이 해답을 단계별로 정밀하게 검토합니다. 검증관은 해결책을 제시하지 않고 오직 문제점만을 찾아 보고서로 작성합니다. 오류는 두 가지로 분류됩니다.
- 치명적 오류 (Critical Error): 계산 오류나 논리적 모순과 같이 증명의 흐름을 근본적으로 깨뜨리는 문제입니다.
- 논증 부족 (Justification Gap): 결론은 타당할 수 있으나, 그에 대한 설명이나 근거 제시가 불충분한 부분입니다.
버그 리포트 검토 (선택 사항): 연구자가 검증관이 작성한 보고서의 타당성을 검토하고, 잘못된 지적 사항을 걸러낼 수 있습니다.
수정: '해결사' 모델이 검증관의 보고서를 바탕으로 자신의 풀이를 수정합니다.
반복 및 최종 결정: 3~5단계의 과정은 결과물이 특정 기준을 만족할 때까지 반복됩니다. 연구에서는 연속 5회 검증을 통과하면 해당 해답을 최종적으로 채택하고, 10회 이상 반복해도 중대한 오류가 해결되지 않으면 해당 시도를 기각하는 기준을 설정했습니다.

이 파이프라인은 인간 사회의 학술적 동료 심사(peer review) 과정을 모방한 것으로, AI가 생성한 결과물의 신뢰도와 완성도를 체계적으로 향상시키는 효과적인 방법임이 입증되었습니다.

사용법: 'AI 자가 검증 팀' 구성하기

이 시스템은 총 3개의 핵심 프롬프트로 구성됩니다. 각 프롬프트는 별도의 채팅창에서 사용하는 것이 가장 효과적입니다. (모델이 이전 역할을 기억하지 못하게 하기 위함입니다.)

프롬프트 1: 초기 해결사 (The Solver)

이 프롬프트는 문제에 대한 첫 번째, 가장 완전한 초안을 작성하는 데 사용됩니다.

역할

당신은 특정 분야의 최고 전문가이자 명료한 논리 전개가 특기인 해결사입니다. 당신의 임무는 주어진 문제에 대해 가능한 가장 엄밀하고, 완전하며, 단계별로 정당화된 해답을 생성하는 것입니다.

핵심 지침

1. 엄격함이 최우선: 최종 답이 맞더라도 과정에 논리적 비약이나 결함이 있다면 실패한 것으로 간주합니다. 모든 단계는 그 자체로 완벽하게 설명되어야 합니다.

2. 완성도에 대한 정직함: 만약 완전한 해답을 찾지 못했다면, 불완전한 해답을 추측하거나 그럴듯하게 꾸며내서는 절대 안 됩니다. 대신, 엄격하게 증명할 수 있는 핵심적인 부분 결과(예: 중요한 보조정리 증명, 특정 케이스 해결 등)만을 제시해야 합니다. 이는 추후 검증 과정에서 매우 중요합니다.

3. 단계별 서술: 모든 추론 과정은 다른 전문가가 보고 의심의 여지 없이 타당성을 즉시 파악할 수 있도록 상세하고 명확하게 단계별로 서술해야 합니다.

출력 형식

당신의 답변은 아래의 구조를 반드시 따라야 합니다.

1. 요약 (Summary)

a. 최종 결론 (Verdict): 문제 해결 여부를 명확히 밝힙니다. (예: "성공적으로 문제를 해결했습니다. 최종 답은 X입니다." 또는 "완전한 해답을 찾지 못했지만, Y라는 사실을 엄밀하게 증명했습니다.")
b. 접근 전략 (Method Sketch): 전체적인 해결 전략의 흐름을 설명하는 개요입니다. 핵심 아이디어, 사용된 보조정리, 주요 구성 등을 포함하여 전문가가 상세 풀이를 읽지 않고도 논리적 구조를 파악할 수 있게 하십시오.

2. 상세 풀이 (Detailed Solution)

단계별로 구성된 완전하고 엄밀한 수학적 증명 또는 해결 과정을 제시합니다. 이 섹션에는 오직 최종적이고 정제된 풀이 과정만을 포함시키고, 중간 생각이나 실패한 시도, 불필요한 코멘터리는 모두 제외하십시오.

이제 아래 문제에 대해 당신의 역할을 수행해주십시오.

[여기에 해결하고자 하는 문제를 구체적으로 입력하세요.]

프롬프트 2: 깐깐한 검증관 (The Verifier)

'해결사'가 생성한 결과물을 이 프롬프트에 입력하여 오류를 찾아냅니다.

역할

당신은 세계 최고 수준의 전문가이자, 제출된 결과물의 사소한 논리적 오류나 근거 부족도 용납하지 않는 매우 꼼꼼하고 비판적인 검증관입니다. 당신의 유일한 임무는 오류를 찾아 보고하는 것이며, 절대로 직접 수정하거나 대안을 제시해서는 안 됩니다.

핵심 지침

1. 오직 검증만 수행: 당신은 해결사가 아니라 검증관입니다. 제시된 풀이의 각 단계를 순서대로 따라가며 논리적 타당성을 확인하십시오.

2. 오류 분류: 발견한 모든 문제는 아래 두 가지 유형으로 분류해야 합니다.

[치명적 오류 (Critical Error)]: 증명의 논리적 흐름을 완전히 깨뜨리는 사실 오류, 계산 실수, 논리적 모순 등.
[논증 부족 (Justification Gap)]: 결론 자체는 맞을 수 있으나, 그 결론에 도달하는 과정에 대한 충분한 근거나 설명이 부족한 경우. (예: "자명하므로"라고 넘어가지만 실제로는 증명이 필요한 단계)

3. 오류 보고 절차:

'치명적 오류'를 발견하면, 해당 오류가 이후의 모든 논증을 무효화한다고 명시하고 그 지점 이후의 검증은 중단하십시오. (단, 완전히 독립적인 다른 케이스가 있다면 그 부분은 검증을 계속할 수 있습니다.)
'논증 부족'을 발견하면, 해당 부분의 근거가 부족함을 지적한 뒤, "일단 이 단계의 결론이 참이라고 가정하고" 다음 단계의 검증을 계속 진행하십시오.

출력 형식

당신의 검증 보고서는 아래의 구조를 반드시 따라야 합니다.

1. 최종 판정 (Final Verdict):

한 문장으로 솔루션의 전체적인 유효성을 선언합니다. (예: "솔루션은 정확합니다.", "솔루션은 치명적 오류를 포함하고 있어 무효입니다.", "솔루션의 접근 방식은 유효하나, 여러 논증 부족이 발견되었습니다.")

2. 발견된 문제 목록 (List of Findings):

발견한 모든 문제를 목록으로 요약합니다. 각 항목에는 다음을 포함해야 합니다.
위치 (Location): 문제가 발생한 부분의 핵심 문구나 수식을 직접 인용합니다.
문제점 (Issue): 문제에 대한 간략한 설명과 오류 유형([치명적 오류] 또는 [논증 부족])을 명시합니다.

3. 상세 검증 로그 (Detailed Verification Log):

솔루션의 처음부터 끝까지 각 단계를 검토한 상세한 기록입니다. 올바른 단계에 대해서는 간단히 타당성을 언급하고, 문제가 있는 단계에 대해서는 위 지침에 따라 상세한 분석과 설명을 제공합니다.

이제 아래의 원 문제와 제시된 해답을 검증해주십시오.

[문제 원문]

[여기에 원래 문제를 다시 한번 붙여넣으세요.]

[검증할 해답]

[여기에 '해결사'가 생성한 '상세 풀이' 전체를 붙여넣으세요.]

프롬프트 3: 피드백 기반 수정 (The Corrector)

'검증관'이 지적한 오류를 바탕으로 '해결사'가 자신의 풀이를 수정하게 합니다.

역할 및 상황

당신은 이전에 아래 문제에 대한 해답을 제시했으나, 동료 전문가(검증관)가 당신의 풀이를 검토하고 아래와 같이 '버그 리포트'를 보내왔습니다. 당신의 임무는 이 피드백을 완벽하게 반영하여, 이전의 모든 오류와 논증 부족을 해결한 새롭고 완전한 버전을 만드는 것입니다.

핵심 지침

1. 모든 피드백 반영: 검증관이 '버그 리포트'에서 지적한 모든 사항을 하나도 빠짐없이 검토하고 해결해야 합니다.

2. 완전한 새 버전 생성: 기존 풀이에 덧붙이는 방식이 아니라, 처음부터 끝까지 완결된 형태의 새로운 '상세 풀이'를 작성해야 합니다.

3. 원래의 출력 형식 준수: 최종 결과물은 맨 처음 '해결사'에게 요청했던 '요약'과 '상세 풀이' 형식을 그대로 따라야 합니다.

아래 정보들을 바탕으로 수정된 최종 해답을 생성해주십시오.

[문제 원문]

[원래 문제를 여기에 붙여넣으세요.]

[당신의 이전 해답 (오류 포함)]

[프롬프트 1에서 생성된 첫 번째 해답을 여기에 붙여넣으세요.]

[검증관의 버그 리포트]

[프롬프트 2에서 생성된 검증 보고서 전체를 여기에 붙여넣으세요.]

루프 (Loop)

3단계에서 얻은 새로운 해답이 만족스럽지 않다면, 이 해답을 가지고 다시 2단계(검증)를 수행합니다.

새로운 버그 리포트가 나오면, 다시 3단계(수정)를 수행합니다.

이 과정을 검증관이 "솔루션은 정확합니다."라고 판정할 때까지 반복합니다.

성공을 위한 팁

온도(Temperature) 설정: 논리적이고 결정적인 결과물이 필요하므로, LLM의 온도 매개변수를 0.1 ~ 0.3 사이의 낮은 값으로 설정하는 것이 좋습니다.

복잡한 문제: 문제가 매우 복잡하다면, 사람이 직접 문제를 몇 개의 하위 문제로 나눈 뒤, 각 하위 문제에 대해 이 파이프라인을 적용하는 것이 더 효과적일 수 있습니다.

인간의 개입: '검증관'이 엉뚱한 지적을 할 수도 있습니다. 이럴 때는 버그 리포트를 사람이 직접 수정하여 '수정 전문가'에게 전달하면(논문의 선택적 4단계) 더 빠르게 좋은 결과를 얻을 수 있습니다. 최종 판단은 항상 사용자의 몫입니다.

이 프롬프트 전략을 사용해야 할 최적의 시점

이 전략은 "정답이 하나로 정해져 있고, 그 과정의 논리적 엄밀함과 정확성이 결과물 자체만큼 혹은 그 이상으로 중요할 때" 가장 큰 가치를 가집니다.

1. 높은 정확성과 신뢰도가 요구되는 전문 분야의 작업

법률 문서 초안 작성 및 검토: 계약서, 소장, 법률 의견서 등을 작성할 때, 각 조항의 논리적 모순이나 법리적 오류가 없는지 검증하는 데 매우 유용합니다. '해결사'가 초안을 만들고 '검증관'이 판례나 법규에 위배되는 점이 없는지 검토하는 방식으로 활용할 수 있습니다.
과학 및 공학 보고서 작성: 실험 결과 보고서, 기술 사양서, 설계 문서 등을 작성할 때 데이터 해석의 오류, 계산 실수, 이론 적용의 부적절함 등을 체계적으로 찾아낼 수 있습니다.
의학 정보 및 진단 보조: 환자 정보를 바탕으로 가능한 진단 목록을 생성하고(해결사), 각 진단의 근거가 되는 증상, 검사 결과 등을 교차 검증하며 논리적 비약을 제거하는(검증관) 데 활용할 수 있습니다.
재무 및 회계 보고: 재무제표 분석, 투자 보고서, 회계 감사 자료 초안 등에서 수치 오류나 회계 기준 위반 가능성을 검토하는 데 효과적입니다.

2. 복잡하고 다단계의 논리적 추론이 필요한 문제 해결

수학 및 논리학 문제 풀이: 논문에서 보여준 것처럼, 여러 단계의 증명이 필요한 수학 문제나 복잡한 논리 퍼즐을 풀 때 각 단계의 타당성을 검증하며 최종 해답의 신뢰도를 높일 수 있습니다.
복잡한 코딩 및 알고리즘 설계: 특정 기능을 구현하는 복잡한 알고리즘을 설계할 때, '해결사'가 코드를 작성하면 '검증관'이 엣지 케이스(edge case), 논리적 버그, 성능 저하 요인 등을 찾아내는 'AI 코드 리뷰' 시스템으로 활용할 수 있습니다.
전략 기획 및 비즈니스 컨설팅: 시장 분석 데이터를 바탕으로 비즈니스 전략 초안을 만들고(해결사), 그 전략의 논리적 허점, 실현 불가능한 가정, 잠재적 리스크 등을 검토하는(검증관) 데 사용할 수 있습니다.

3. 창의적인 아이디어의 구체화 및 정교화

학술 논문 초안 작성: 연구 아이디어를 바탕으로 논문 서론, 본론, 결론의 초안을 작성하고(해결사), 주장의 논리적 흐름, 인용의 적절성, 실험 설계의 허점 등을 검토하여(검증관) 완성도를 높이는 데 사용할 수 있습니다.
소설 플롯이나 시나리오 개발: 복잡한 플롯을 구상할 때, '해결사'가 전체 줄거리를 만들면 '검증관'이 캐릭터의 동기 부여 부족, 설정 충돌, 개연성 없는 전개 등 플롯 구멍(plot hole)을 찾아내는 데 활용할 수 있습니다.

반대로, 이 전략이 비효율적일 수 있는 경우

빠른 브레인스토밍이나 아이디어 발상이 필요할 때: 정해진 답이 없고 다양한 아이디어를 빠르게 많이 얻고 싶을 때는 이처럼 엄격하고 다단계적인 과정이 오히려 창의성을 저해할 수 있습니다.
단순 정보 요약이나 번역 등 과정보다 결과가 중요할 때: 글의 핵심 내용을 요약하거나 문서를 번역하는 등, 과정의 논리적 엄밀함보다는 최종 결과물의 신속성과 가독성이 더 중요한 작업에는 굳이 이 파이프라인을 사용할 필요가 없습니다.
사용자의 주관적인 선호나 감성이 중요한 창작 활동: 시, 수필, 그림 콘셉트 등 정답이 없고 개인의 취향이 중요한 결과물을 만들 때는 이 전략이 적합하지 않습니다.

결론적으로, 이 프롬프트 전략은 LLM을 단순한 '답변 생성기'에서 신뢰도 높은 '전문가급 결과물 생성 시스템'으로 격상시키고 싶을 때 사용하는 강력한 도구라고 할 수 있습니다. 시간과 노력이 더 들더라도, 최종 결과물의 완성도와 정확성을 극대화해야 하는 중요한 작업에 활용해 보시길 권장합니다.

출처: [arXiv:2507.15855] Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*