DeepSeek OCR 2, 토큰 80% 절감…Gemini 3 Pro도 넘은 이유

DeepSeek OCR 2는 “문서를 읽는 방식” 자체를 바꿔서 속도와 비용(토큰)을 동시에 잡은 최신 OCR 모델입니다. 핵심은 이미지 조각을 위에서 아래로 줄 세워 읽는 대신, 사람처럼 의미가 이어지는 순서로 재배열해 적은 토큰으로도 문서 구조를 더 정확히 파악한다는 점이에요. 실제로 이미지당 토큰을 최대 80%까지 줄이면서도 문서 파싱 성능에서 Gemini 3 Pro보다 나은 결과가 보고됐습니다1.
DeepSeek OCR 2란? “문서 읽기 순서”부터 다시 설계한 OCR
기존 비전-언어 모델(VLM)은 보통 이미지를 작은 패치로 쪼개고, 좌상단→우하단 ‘줄 읽기’처럼 고정된 순서로 처리합니다. 문제는 문서가 그렇게 단순하지 않다는 거죠. 표는 좌우로 건너뛰고, 각주는 본문 아래에서 이어지고, 두 단 편집은 시선이 지그재그로 움직입니다.
DeepSeek OCR 2는 이 지점에 정면으로 들어갑니다. 문서를 “픽셀의 순서”가 아니라 “의미의 흐름”으로 읽게 만들고, 그 결과 읽기 순서 인식과 문서 파싱에서 강점을 보입니다1.
DeepEncoder V2: 이미지를 ‘의미 기반’으로 재정렬하는 비전 인코더
DeepSeek가 새로 공개한 핵심 부품은 DeepEncoder V2입니다. 이 인코더는 시각 토큰을 고정된 래스터 스캔으로 넘기지 않고, 이미지 의미에 따라 토큰의 순서를 동적으로 바꿉니다2.
여기서 재밌는 포인트가 하나 있어요. 기존에는 CLIP 계열 비전 인코더가 사실상 표준처럼 쓰였는데, DeepEncoder V2는 발상을 바꿔 소형 언어모델 구조(Alibaba Qwen2 0.5B 기반)를 인코더 쪽에 도입합니다2. “언어를 잘하는 구조로 시각도 읽게 하자”에 가까운 접근입니다.
Visual Causal Flow: 사람처럼 ‘먼저 본 것’이 ‘다음 읽기’를 결정한다
논문이 붙인 이름은 Visual Causal Flow(시각적 인과 흐름)입니다. 사람 눈은 문서에서 제목을 보면 다음에 본문으로 가고, 표 제목을 보면 표 안으로 들어갑니다. 즉, 다음 시선이 이전 시선에 의해 ‘원인-결과’처럼 결정됩니다.
DeepEncoder V2는 학습 가능한 쿼리 토큰(논문에서는 causal flow tokens)을 사용해, 이미지 전체를 훑은 뒤 “지금 이 문서에서 중요한 순서”대로 정보를 정렬합니다2. 그리고 이 정렬된 토큰만 LLM 디코더로 보내 고차원 해석(파싱, 구조화, 읽기 순서 판단)을 하게 합니다. 2단계 파이프라인이죠.
시각 토큰 256~1,120개: 6,000개 쓰던 시대를 끝내다
DeepSeek OCR 2가 주목받는 가장 현실적인 이유는 토큰 예산입니다. 이미지 한 장을 처리하는데 256~1,120개 시각 토큰만 사용하며, 경쟁 모델들이 6,000~7,000개 수준을 요구하는 경우와 비교해 최대 80%까지 절감된다고 정리됩니다1.
토큰이 줄어들면 뭐가 좋을까요? 비용만 내려가는 게 아니라, 같은 GPU로 더 많은 페이지를 처리할 수 있고, 대규모 데이터셋을 만들 때 병목이 줄어듭니다. 실제로 1세대 Deepseek OCR은 하루 최대 3,300만 페이지 처리 가능이라는 ‘공장형’ 스루풋을 강조했는데2, 2세대는 여기에 문서 이해 정확도를 더 끌어올린 셈입니다.
OmniDocBench v1.5 성능: 문서 파싱에서 Gemini 3 Pro를 이긴 지점
OmniDocBench v1.5(총 1,355페이지, 9개 카테고리)에서 DeepSeek OCR 2는 91.09% 점수를 기록했고, 전세대 대비 3.73%p 개선됐습니다1. 특히 문서의 올바른 읽기 순서와 문서 파싱 같은 “레이아웃 이해” 영역에서, 유사한 토큰 예산 조건에서 Gemini 3 Pro보다 낫다고 알려졌습니다1.
또한 OCR 백엔드로 붙였을 때 반복률이 6.25%→4.17%로 감소했고, PDF 대량 처리에서도 3.69%→2.88%로 낮아져 데이터셋 제작 효율에 도움이 된다고 합니다1. “똑같은 문장/라인을 모델이 반복 출력하는 현상”이 줄어든다는 뜻이라, 자동 파이프라인에서 꽤 체감이 큽니다.
다만 신문처럼 텍스트가 빽빽한 문서에서는 성능 저하가 관찰되며, 토큰 한도와 도메인 학습 데이터 부족이 원인으로 분석됩니다1. 즉, ‘어떤 문서든 만능’이라기보다 강점이 뚜렷한 방향입니다.
시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...
DeepSeek OCR 2가 던진 메시지는 단순히 “정확도가 올랐다”가 아닙니다. 문서 AI의 병목이었던 토큰 비용을 확 줄이면서도, 정작 현업에서 골치 아픈 읽기 순서/레이아웃 파싱을 개선했다는 점이 핵심이에요.
실무 관점에서는 대량 PDF를 구조화해 RAG 데이터로 만들거나, 표·폼·계약서를 자동 파싱해 DB로 넣는 작업에서 특히 매력적입니다. 반대로 신문·초장문 위주의 스캔 아카이브처럼 ‘촘촘한 텍스트 밀도’가 극단적인 도메인이라면, 토큰 상한/학습 데이터 이슈가 해결되는지 업데이트를 지켜보는 게 좋겠습니다.
그리고 중요한 변화 하나. DeepEncoder V2처럼 “LLM 구조를 인코더에 이식해 멀티모달을 표준화”하려는 흐름은 앞으로 음성·이미지·텍스트를 같은 프레임으로 파싱하는 방향으로 이어질 가능성이 큽니다2. 즉, OCR을 넘어 ‘멀티모달 문서 이해 엔진’ 경쟁의 다음 라운드가 열렸다고 봐도 좋겠습니다.
참고
1Deepseek OCR 2는 시각적 토큰을 80%까지 줄이고, 문서 파싱에서 Gemini 3 Pro보다 더 뛰어난 성능을 보입니다.