'OCR 2.0' 모델은 텍스트, 수식, 노트 및 도형 이미지를 편집 가능한 텍스트로 변환합니다.

  • 연구자들이 새로운 범용 광학 문자 인식(OCR) 모델인 GOT(General OCR Theory)를 개발함. 이 접근법을 "OCR 2.0"이라고 부름.
  • GOT는 전통적인 OCR 시스템과 대형 언어 모델의 강점을 결합한 모델로, 이미지 인코더(80백만 파라미터)와 스피치 디코더(500백만 파라미터)로 구성되어 다양한 시각 정보를 편집 가능한 텍스트로 변환할 수 있음.
  • OCR 2.0 모델은 장면 텍스트, 문서 텍스트, 수학 및 화학 공식, 음악 기보, 간단한 기하학 도형 등을 인식하고 변환할 수 있음.
  • synthetic data(합성 데이터)를 활용하여 모듈 구조로 훈련되며, 유연한 확장이 가능하고 새로운 기능을 추가할 때 모델 전체를 다시 훈련시키지 않아도 됨.
  • 다양한 OCR 작업에서 우수한 성능을 보여주며, 일부 경우에는 전문 모델보다도 뛰어난 성과를 달성함.
  • "OCR 2.0"은 과학, 음악, 데이터 분석에서 복잡한 시각 데이터를 자동으로 처리하고 분석할 수 있는 새로운 가능성을 열어줌.
  • 연구팀은 Hugging Face에 무료 데모와 코드를 공개하여 다른 사람들이 사용할 수 있도록 함.

5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기