GPT-4는 마구 섞인 텍스트도 거의 완벽하게 다룰 수 있다. - 논문

일본의 도쿄 대학에서 나온 논문입니다. LLM인 GPT-4가 문자 수준으로 광범위하게 섞인 텍스트에도 불구하고 잘 처리를 하는 모습을 보여줬다고 합니다.

여기서 연구자들은 'Scrambled Bench'라는 도구를 만들어 문장을 복구하거나 섞여져 있는 텍스트를 활용해 질문에 답하는 LLM의 능력을 측정했습니다.

여러 모델을 측정했는데 그 중에서도 GPT-4가 뛰어난 성능을 보였으며, 심지어 모든 글자가 섞인 극단적인 조건에서도 원래 문장을 거의 완벽하게 복원할 수 있었습니다. GPT-4의 이러한 능력은 다른 모델들과 사람들에게는 꽤 어려운 일이었습니다. GPT-4의 강력한 언어 처리 능력을 볼 수 있는 사례입니다.

GPT-4는 마구 섞인 텍스트도 거의 완벽하게 다룰 수 있다. - 논문 image 1

LLM을 쓰면서 오타가 있거나 텍스트가 많이 섞여 있으면 잘 이해를 하지 못할까봐 걱정했는데, 이렇게 복잡한 텍스트도 잘 처리하네요. 아마 벡터 스페이스로 변환될 때의 숫자가 섞여있을 때 큰 차이가 나지 않나봅니다.

GPT-4에 Context로 여러가지가 혼합된 텍스트를 제공해도 잘 처리할 수 있을 거라는 통찰을 주네요. 반면에 작지만 서로 연관이 없는 텍스트는 많이 헷갈려한다는 이야기도 있습니다.

원본 논문은 여기에서 확인할 수 있습니다. Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text.

GPT-4는 마구 섞인 텍스트도 거의 완벽하게 다룰 수 있다. - 논문

키워드만 입력하면 나만의 학습 노트가 완성돼요.