GPT-4는 그것이 틀렸다는 것을 모른다: 추론 문제에 대한 반복적인 프롬프트 분석
대형 언어 모델 (LLM) 에 대한 열광적인 관심이 있었으며, 이러한 모델들이 복잡한 추론 및 언어 작업을 수행하는 능력이 있다는 잠재력에 대한 기대가 있었음.
일부 연구자들은 이러한 모델들이 "자기 반사" (SELF-RAG 같은) 능력을 나타내며, 프롬프팅의 다수의 반복을 통해 추론 성능을 개선하는 능력이 있다고 주장함.
그러나 이러한 자기 반사를 통한 성능 향상이 실제로 얼마나 있는지는 양적으로 측정하는 엄격한 연구가 필요함.
일부 연구자들은 LLM에 자기 반사를 통한 성능 향상의 비전을 홍보하고 있음.
하지만, 이 능력이 실제로 존재하는지 또는 우리 자신을 기만하는 것인지에 대해 제대로 증명할 수 있는지는 아직 알려지지 않음.
Arizona State University의 연구자들은 iterative prompting의 효과를 확인하기 위해 그래프 색칠 문제를 중심으로 실험을 진행함.
결과는 iterative prompting이 추론 능력을 향상시키는 데 제한적임을 보여줌.
LLM은 직접적으로 그래프 문제를 해결하는 데 어려움을 겪고, 솔루션의 유효성을 인식하는 데 실패함.
자기 반성을 통한 성능은 더욱 저하되었으며, 외부 피드백은 다소 도움이 되었지만 상세한 오류 식별을 위한 피드백보다는 "다시 시도" 피드백이 효과가 있었음.
여러 독립적인 솔루션을 요청하고 올바른 것을 선택하는 것은 iterative prompting과 마찬가지로 성능이 좋았음.
정량적 결과는 iterative prompting이 자기 반사나 이해능력보다는 무작위 시행 착오에 더 가까운 결과를 보여줌.
LLM이 지적 능력과는 다르게 단순히 다중 추측을 생성하고, 솔루션 개선은 찰나의 추측보다는 진정한 추론이 아닌 무차별적인 작업을 통해 이루어진다는 것을 보여줌.
이 연구는 LLM과 iterative prompting에 대한 지배적인 이야기에 대한 반론적인 증거를 제시함.
이러한 모델들은 단순히 예측 정확성에만 집중하는 것이 아니라 논리적 추론과 같은 핵심 능력을 습득하기 위해 더욱 엄격한 검증이 필요함.
그래프 색칠 외에도 다양한 추론 문제에서 iterative prompting을 테스트하고, 이 기법이 어떤 도메인에서 작동하고 어디에서 작동하지 않는지에 대한 연구가 필요함.