PromptWizard 출력 분석 보고서

PromptWizard 출력 분석 보고서 image 1

프롬프트 위자드를 중지시키지 않고 계속 돌렸더니 gpt 토큰을 많이 잡아먹었네요. (ㅠㅠ)


하지만 재미있는 실험이었습니다.

아래는 Gemini Experimental 1206 모델로 전체 출력을 넣고 평가시켜본 결과입니다.

PromptWizard 출력 분석 보고서 image 3

Prompt Wizard 분석 보고서

1. 분석 개요

본 보고서는 Prompt Wizard를 사용하여 프롬프트를 개선한 결과에 대한 상세 분석을 제공합니다. Prompt Wizard는 주어진 프롬프트에 대해 여러 변형을 생성하고, 각 변형에 대한 성능을 평가하여 최적의 프롬프트를 찾는 도구입니다. 본 분석에서는 Prompt Wizard의 출력 결과를 바탕으로 개선된 프롬프트의 특징, 성능 향상 요인, 그리고 추가 개선 가능성에 대해 논의합니다.

2. 프롬프트 개선 과정 및 결과

Prompt Wizard는 3번의 반복(iteration)을 통해 프롬프트를 개선했습니다. 각 반복 단계에서 생성된 프롬프트 변형과 그에 대한 성능 평가 결과는 다음과 같습니다.

  • 초기 프롬프트: "As a skilled mathematics tutor, your task is to solve the given mathematical problem, breaking down each step of your calculation process in a simple and comprehensible manner. Make sure to take into account all the details provided in the problem, identify the required mathematical operations, and apply them accurately. Your solution should include not just the final answer, but also a comprehensive explanation of how you reached it. Remember, your aim is to facilitate understanding of the problem-solving process, so clarity, precision, and thoroughness are essential."

  • 반복 1: 이 단계에서는 초기 프롬프트를 기반으로 5개의 변형 프롬프트가 생성되었습니다. 각 변형 프롬프트는 "proficient mathematics guide", "expert in mathematics", "skilled mathematics tutor", "competent mathematics instructor", "knowledgeable mathematics mentor" 등 다양한 역할(persona)을 부여하고, "devising an experiment", "measure progress", "key assumptions", "simplify the problem", "list of ideas" 등의 문제 해결 전략을 추가하여 생성되었습니다.

    • 성능 평가: 각 변형 프롬프트에 대해 GSM8K 데이터셋의 일부 샘플을 사용하여 성능을 평가했습니다. 성능 평가 결과, 대부분의 변형 프롬프트가 초기 프롬프트와 유사한 성능을 보였습니다.

  • 반복 2: 이 단계에서는 첫 번째 반복에서 가장 성능이 좋았던 프롬프트를 기반으로 다시 5개의 변형 프롬프트가 생성되었습니다. 이 단계에서는 "adept mathematics assistant"라는 역할과 "arithmetic problems that may involve operations such as addition, subtraction, multiplication, division, percentages, and ratios"라는 문제 유형을 명시적으로 추가했습니다. 또한, 문제 해결 단계를 "Begin by identifying the information", "outline the steps", "Execute the calculations", "explain each step" 등으로 구체화했습니다.

    • 성능 평가: 성능 평가 결과, 일부 변형 프롬프트는 이전 단계보다 향상된 성능을 보였습니다. 특히, "As an expert mathematics assistant, your duty is to resolve arithmetic problems that may include operations such as addition, subtraction, multiplication, division, percentages, and ratios. Initiate by identifying the information embedded in the problem. Next, brainstorm a list of ideas for solving this problem, and apply them one by one to the problem to see if any progress can be made. Perform the calculations meticulously, and expound each step in a clear and straightforward manner. Your solution should encompass the final answer, along with a thorough explanation of how you derived it. For instance, if the problem involves calculating the total number of items based on given quantities and percentages, break down the calculations step by step, and explain how you employed the given information to reach the final total. Remember, your aim is to make the problem-solving process comprehensible, so clarity and precision are essential." 이 프롬프트는 상대적으로 좋은 성능을 보였습니다.

  • 반복 3: 이 단계에서는 두 번째 반복에서 가장 성능이 좋았던 프롬프트를 기반으로 다시 5개의 변형 프롬프트가 생성되었습니다. 이 단계에서는 "proficient mathematics assistant", "skilled mathematics assistant", "adept mathematics assistant", "expert mathematics assistant", "competent mathematics assistant" 등의 역할을 사용하고, "devise an experiment", "key assumptions", "measure progress", "simplify the problem", "list of ideas" 등의 문제 해결 전략을 다양하게 조합하여 변형 프롬프트를 생성했습니다.

    • 성능 평가: 성능 평가 결과, "As an expert mathematics assistant, your duty is to resolve arithmetic problems that may include operations such as addition, subtraction, multiplication, division, percentages, and ratios. Begin by deciphering the information contained in the problem. Next, devise a strategy to help solve the problem by brainstorming a list of ideas and applying them one by one to the problem to measure any progress. Conduct the calculations meticulously, and elucidate each step in a simple and clear manner. Your solution should include the final answer, along with a comprehensive explanation of how you arrived at it. For instance, if the problem is about calculating the total number of items based on given quantities and percentages, break down the calculations step by step, and explain how you used the given information to reach the final total. Your aim is to simplify the problem so that it is easier to solve, hence clarity and accuracy are crucial." 이 프롬프트가 가장 높은 성능을 보였습니다.

3. 최종 프롬프트 및 성능

Prompt Wizard를 통해 개선된 최종 프롬프트는 다음과 같습니다.

  • 최종 프롬프트: "As an expert mathematics assistant, your task is to solve arithmetic problems that may involve operations such as addition, subtraction, multiplication, division, percentages, and ratios. You may also encounter problems involving proportional distribution, such as ratios. Begin by carefully extracting all the information embedded in the problem, including any additional actions that need to be taken after the initial calculations. Devise a strategy to solve the problem by breaking it down into simpler steps. For problems involving ratios, calculate the value of each part in the ratio. For problems involving spending a part of the calculated amount, ensure to subtract this amount to get the final answer. Perform the calculations with utmost care, and explain each step in a clear and straightforward manner. Your solution should comprise the final answer, presented separately, along with a thorough explanation of how you derived it. For instance, if the problem involves calculating the total number of items based on given quantities and percentages, simplify the problem by breaking down the calculations step by step, and explain how you employed the given information to reach the final total. After solving the problem, check your final answer against the original problem to ensure it makes sense and takes into account all aspects of the problem. Remember, your aim is to make the problem-solving process comprehensible, so clarity and precision are essential."

  • 성능: 최종 프롬프트는 GSM8K 데이터셋에 대해 95.67%의 정확도를 달성했습니다. 이는 초기 프롬프트의 성능보다 크게 향상된 결과입니다.

4. 성능 향상 요인 분석

최종 프롬프트의 성능 향상은 다음과 같은 요인에 기인한 것으로 분석됩니다.

  • 명확한 역할 부여: "expert mathematics assistant"라는 명확한 역할 부여를 통해 모델이 수학 문제 해결에 특화된 페르소나를 활성화하도록 유도했습니다.

  • 문제 유형 구체화: "arithmetic problems that may involve operations such as addition, subtraction, multiplication, division, percentages, and ratios"와 같이 문제 유형을 구체적으로 명시하여 모델이 풀이해야 할 문제의 범위를 명확하게 이해하도록 도왔습니다.

  • 단계별 문제 해결 지침: "Begin by carefully extracting...", "Devise a strategy...", "For problems involving ratios...", "For problems involving spending a part of the calculated amount..." 등과 같이 문제 해결 과정을 단계별로 안내하여 모델이 체계적으로 문제에 접근하도록 유도했습니다.

  • 명확한 설명 요구: "explain each step in a clear and straightforward manner", "Your solution should comprise the final answer, presented separately, along with a thorough explanation" 등과 같이 명확하고 상세한 설명을 요구하여 모델이 풀이 과정을 논리적으로 제시하도록 유도했습니다.

  • 예시 제공: "For instance, if the problem involves..."와 같이 구체적인 예시를 제공하여 모델이 추상적인 지침을 실제 문제 해결에 적용하는 데 도움을 주었습니다.

  • "proportional distribution", "ratios" 와 같은 추가적인 수학적 개념을 제공하여 문제의 범위를 확장하였습니다.

  • "check your final answer against the original problem" 이라는 추가적인 단계를 제시하여 문제 해결 후 검토를 하게끔 유도했습니다.

5. 추가 개선 가능성

최종 프롬프트는 이미 우수한 성능을 보이고 있지만, 다음과 같은 측면에서 추가 개선의 여지가 있습니다.

  • 다양한 문제 유형에 대한 적응성: 현재 프롬프트는 주로 산술 연산과 비율 문제에 초점을 맞추고 있습니다. 대수, 기하, 확률 등 다른 유형의 수학 문제에 대한 지침을 추가하여 프롬프트의 범용성을 높일 수 있습니다.

  • 문제 난이도 조절: 현재 프롬프트는 모든 문제에 대해 동일한 수준의 상세한 설명을 요구하고 있습니다. 문제의 난이도에 따라 설명의 수준을 조절하는 기능을 추가하면 더 효율적인 문제 해결을 유도할 수 있습니다.

  • 오류 처리: 현재 프롬프트는 모델이 실수를 할 경우에 대한 구체적인 지침을 제공하지 않습니다. 모델이 오류를 범했을 때 이를 인지하고 수정하도록 유도하는 지침을 추가하면 성능을 더욱 향상시킬 수 있습니다.

6. 결론

Prompt Wizard는 프롬프트 개선에 효과적인 도구이며, 본 분석을 통해 개선된 프롬프트의 특징과 성능 향상 요인을 파악할 수 있었습니다. 최종 프롬프트는 GSM8K 데이터셋에서 우수한 성능을 보였으며, 추가 개선을 통해 더 범용적이고 효율적인 수학 문제 해결 도구로 발전할 수 있을 것입니다.

