OpenAI의 SimpleQA 벤치마크 - 모델의 사실성을 평가하는 벤치마크

SimpleQA

OpenAI의 SimpleQA는 언어 모델의 사실성을 측정하기 위한 새로운 벤치마크 도구로서, 인공지능(AI)이 생성하는 응답의 정확도를 평가하는데 중요한 역할을 합니다.

이 벤치마크는 특히 모델이 "환각(hallucinations)"이라고 불리는 거짓된 정보 또는 증거로 뒷받침되지 않는 응답을 생성할 때 드러나는 문제를 해결하고자 노력합니다. SimpleQA는 4,326개의 짧고 명확한 사실 기반 질문을 통해 언어 모델의 성능을 측정하며, GPT-4와 같은 최신 모델도 포함하여 사실 응답의 정확도를 향상시키는 것을 목표로 합니다.

SimpleQA는 높은 정확도와 다양한 주제를 다루는 특징이 있습니다. 두 명의 AI 트레이너가 제공한 출처로 정답을 뒷받침하고, 예측 답변을 쉽게 평가할 수 있도록 질문을 작성함으로써, 독립적인 AI 트레이너가 제공한 출처를 통해 높은 정확성을 유지합니다. 또한 과학 기술부터 TV 쇼, 비디오 게임에 이르기까지 광범위한 주제를 다루어, 모델의 다양한 주제에 대한 대응 능력을 평가할 수 있습니다.

SimpleQA는 최신 모델에게 더 큰 도전이 되도록 설계되었습니다. 예를 들어, GPT-4는 SimpleQA에서 40% 미만의 점수를 기록하여 모델들이 여전히 높은 정확도를 달성하는데 어려움을 겪고 있음을 보여줍니다.

OpenAI의 o1-preview 모델이 42.7%의 성공률로 최고 성과를 기록함
GPT-4o는 38.2%, GPT-4o-mini는 8.6%의 정확도를 보임
Anthropic의 Claude 모델들은 더 낮은 성과를 보였으며, Claude-3.5-sonnet이 28.9%의 정확도를 기록함

보정 측정

SimpleQA는 모델의 보정을 측정하기 위해 두 가지 방법을 사용합니다. 첫 번째는 모델이 답변에 대한 확신 정도를 백분율로 명시하도록 요청하고, 명시된 확신 정도와 실제 정확도 간의 상관관계를 도표로 나타내는 것입니다. 두 번째는 동일한 질문에 대해 100번 답변을 요청하고, 특정 답변의 빈도와 정확도 간의 관계를 분석하는 것입니다. 이를 통해 모델의 보정 상태를 파악하고 개선점을 도출할 수 있습니다.

연구자들이 모델에게 자신들의 답변에 대한 신뢰도를 평가하게 했을 때, AI는 일관되게 자신의 정확성에 대해 높은 점수를 줌.
같은 질문에 대해 100번씩 답변하게 한 결과, 동일한 답변을 반복할 때 실제로 정답률이 높았으나 예측한 성과보다 낮은 성공률을 보임.

시사점

아직 현재 언어 모델의 사실성에는 한계가 많이 있다는 점을 보여준다. 가장 성능이 좋은 모델도 아직 40%대밖에 되지 않는다. 모델 자체의 지식으로 대답할 때 발생하는 할루시네이션이 무시할 수 없는 부정적 요소임을 나타낸나. 아마 이런 단점들이 자연적으로 개선되지는 않을 것이다. 그렇기 때문에 구글도 검색 결과를 통합하는 그라운딩을 연구하고 있다. (검색 RAG)

테스트할 때 방법들이 흥미로운데 두 명의 AI 트레이너의 합의된 문제 구성과 평가도 그렇고 100번 테스트해서 가장 빈도수가 높은 답변을 채택하는 것도 그렇다.

그리고 AI가 자신들의 답변의 신뢰도를 평가하게 했을 때 자신의 성능을 과대평가하는 경향이 있다고 한다 ㅋㅋ 실제도 100번 테스트하면 그것보다는 낮은 성공률을 보인다고 한다.

심플 QA 같은 사실 측정 프레임워크도 많이 사용되게 될 것 같다.

https://openai.com/index/introducing-simpleqa/