검색
검색
회원가입로그인

GPT-4는 그것이 틀렸다는 것을 모른다: 추론 문제에 대한 반복적인 프롬프트 분석

  • 대형 언어 모델 (LLM) 에 대한 열광적인 관심이 있었으며, 이러한 모델들이 복잡한 추론 및 언어 작업을 수행하는 능력이 있다는 잠재력에 대한 기대가 있었음.

  • 일부 연구자들은 이러한 모델들이 "자기 반사" (SELF-RAG 같은) 능력을 나타내며, 프롬프팅의 다수의 반복을 통해 추론 성능을 개선하는 능력이 있다고 주장함.

  • 그러나 이러한 자기 반사를 통한 성능 향상이 실제로 얼마나 있는지는 양적으로 측정하는 엄격한 연구가 필요함.

  • 일부 연구자들은 LLM에 자기 반사를 통한 성능 향상의 비전을 홍보하고 있음.

  • 하지만, 이 능력이 실제로 존재하는지 또는 우리 자신을 기만하는 것인지에 대해 제대로 증명할 수 있는지는 아직 알려지지 않음.

  • Arizona State University의 연구자들은 iterative prompting의 효과를 확인하기 위해 그래프 색칠 문제를 중심으로 실험을 진행함.

  • 결과는 iterative prompting이 추론 능력을 향상시키는 데 제한적임을 보여줌.

  • LLM은 직접적으로 그래프 문제를 해결하는 데 어려움을 겪고, 솔루션의 유효성을 인식하는 데 실패함.

  • 자기 반성을 통한 성능은 더욱 저하되었으며, 외부 피드백은 다소 도움이 되었지만 상세한 오류 식별을 위한 피드백보다는 "다시 시도" 피드백이 효과가 있었음.

  • 여러 독립적인 솔루션을 요청하고 올바른 것을 선택하는 것은 iterative prompting과 마찬가지로 성능이 좋았음.

  • 정량적 결과는 iterative prompting이 자기 반사나 이해능력보다는 무작위 시행 착오에 더 가까운 결과를 보여줌.

  • LLM이 지적 능력과는 다르게 단순히 다중 추측을 생성하고, 솔루션 개선은 찰나의 추측보다는 진정한 추론이 아닌 무차별적인 작업을 통해 이루어진다는 것을 보여줌.

  • 이 연구는 LLM과 iterative prompting에 대한 지배적인 이야기에 대한 반론적인 증거를 제시함.

  • 이러한 모델들은 단순히 예측 정확성에만 집중하는 것이 아니라 논리적 추론과 같은 핵심 능력을 습득하기 위해 더욱 엄격한 검증이 필요함.

  • 그래프 색칠 외에도 다양한 추론 문제에서 iterative prompting을 테스트하고, 이 기법이 어떤 도메인에서 작동하고 어디에서 작동하지 않는지에 대한 연구가 필요함.

https://notes.aimodels.fyi/gpt-4-doesnt-know-its-wrong-an-analysis-of-iterative-prompting-for-reasoning-problems/

조회수 : 200
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기