GPT-4V(ision) 공개 - 이미지 인식 탑급의 모델

드디어 플러스 사용자들에게 GPT-4V가 공개되었네요.

이미지를 인식할 수 있는 기능입니다. 이를 바탕으로 텍스트 설명을 생성하고 다양한 작업을 수행할 수 있습니다.

GPT-4V(ision) 공개 - 이미지 인식 탑급의 모델 image 1

왼쪽에 보시면 이미지 버튼이 만들어져 있습니다. 설정에서 세팅을 하지 않아도 자동으로 들어가 있네요.

저는 what is this image? 라는 프롬프트로 이미지 설명을 요청해 봤습니다. 이미지에 대해 상세하게 분석한 텍스트를 얻을 수 있었습니다. 꽤 퀄리티가 좋았습니다.

반면에 한글 OCR을 요청해 봤는데 이건 잘 인식을 못하는 것 같았습니다. 책 20권을 읽는 방법이 적혀 있는 이미지를 입력했을 때 스페이스 X에 대해 이야기를 했습니다.

GPT-4V(ision) 공개 - 이미지 인식 탑급의 모델 image 2

반면에 영어로 된 이미지 인식은 굉장히 잘 되었습니다.

GPT-4V(ision) 공개 - 이미지 인식 탑급의 모델 image 3

이미지 인식에 있어서는 탑급의 모델인 것 같습니다. 다만 한글 OCR 등 맞춤화는 조금 더 발전해야 할 것 같습니다.

OpenAI에서 이미 Clip 등을 통해서 이미지 모델에 대해 기술력을 가지고 있었던 만큼 시기적절하고 반가운 업데이트였습니다.