Nemotron ColEmbed V2로 멀티모달 검색 정확도 한 단계 올리기

요즘 문서는 더 이상 “텍스트 덩어리”가 아닙니다. 표 한 장, 차트 한 컷, 캡처 이미지 하나에 핵심 정보가 숨어 있죠. 문제는 검색입니다. 키워드로는 표 안의 수치나 그래프가 말하는 의미를 제대로 못 찾는 경우가 많습니다.

Nemotron ColEmbed V2는 이런 현실적인 골칫거리를 정면으로 해결하려는 멀티모달 임베딩 모델 시리즈(8B/4B/3B)입니다. 텍스트와 이미지를 같은 임베딩 공간으로 정렬해 “문서가 가진 시각 정보까지” 검색에 반영하고, ViDoRe V3 같은 벤치마크에서 최상위 성능으로 존재감을 증명했습니다¹.

멀티모달 검색이 어려운 이유: 문서가 ‘복합 매체’가 됐다

회사 위키를 검색했는데, 답은 PPT 캡처 이미지 속 표에 있고 텍스트 본문에는 없었던 경험이 있을 겁니다. 혹은 리서치 보고서에서 “성장률”이라는 단어는 많지만, 정작 원하는 구간의 그래프를 설명하는 문장을 못 찾기도 하죠.

멀티모달 검색의 핵심은 “텍스트로 묻고 이미지/표/차트로 답을 찾는” 상황을 자연스럽게 만드는 겁니다. 이를 위해 임베딩 모델은 텍스트, 이미지, 문서 레이아웃 단서를 한 공간에 매핑해 비슷한 의미끼리 가깝게 두는 방식으로 동작합니다. 즉, 문서의 시각 요소까지 ‘검색 가능한 의미 단위’로 바꾸는 작업이 필요합니다.

Nemotron ColEmbed V2 한 줄 요약: ‘Late Interaction’으로 더 정교하게 찾는다

Nemotron ColEmbed V2가 흥미로운 이유는 ColBERT 계열의 핵심 아이디어인 ‘Late Interaction(후기 상호작용)’을 멀티모달로 확장했다는 점입니다¹.

일반적인 임베딩 검색은 문서 전체를 하나의 벡터로 “요약”해 비교하는 경우가 많습니다. 빠르지만, 중요한 단서가 요약 과정에서 희미해질 수 있습니다. 반면 Late Interaction은 질의 토큰(질문을 구성하는 단어들)과 문서 토큰(문서의 단어/시각 토큰들) 간의 미세한 매칭을 끝까지 남겨둡니다.

Nemotron ColEmbed V2는 각 질의 토큰이 문서 토큰들 중 “가장 잘 맞는 것”을 고르고(MaxSim), 그 점수들을 합산해 최종 관련도를 계산합니다¹. 그래서 “비슷한 얘기”가 아니라 “딱 그 부분”을 더 잘 집어내는 쪽에 강해집니다.

성능 지표로 본 임팩트: ViDoRe V3 1위가 의미하는 것

멀티모달 검색 모델이 늘고 있는 만큼, “어떤 모델이 실제로 문서형 시각 정보에 강한가?”를 평가하는 기준도 중요해졌습니다. 그 역할을 하는 벤치마크 중 하나가 ViDoRe V3이고, Nemotron ColEmbed V2는 여기서 강력한 결과를 냈습니다.

ViDoRe V3에서 nemotron-colembed-vl-8b-v2는 NDCG@10 63.42로 1위를 기록했고, 4B는 61.54, 3B는 59.79로 상위권을 차지했습니다¹. 숫자가 말해주는 요지는 간단합니다. “복잡한 시각 문서에서 상위 10개 결과를 뽑았을 때, 정답에 더 가깝게 정렬하는 능력”이 매우 뛰어나다는 뜻입니다.

3B/4B/8B 모델 차이: 크기만 다른 게 아니라 ‘계보’도 다르다

같은 ColEmbed V2라도 내부 기반이 다릅니다. 3B 모델은 Google SigLIP2와 Meta Llama 계열을 토대로 하고, 4B/8B는 Qwen3-VL 기반으로 개발됐습니다¹.

실무 관점에서 보면 선택지는 명확해집니다. 8B는 최고 성능을 노릴 때, 4B는 성능과 비용 사이의 현실적인 균형점, 3B는 더 가벼운 인프라에서 멀티모달 검색을 “돌려보는” 데 유리합니다.

또한 양방향 self-attention과 ColBERT 스타일 임베딩 조합은 “문서 내부 단서(텍스트·시각 토큰)의 연결”을 촘촘히 잡는 데 도움을 줍니다. 특히 표/도식처럼 문맥이 여기저기 끊겨 있는 형태에서 체감 차이가 커집니다.

학습 전략이 만든 ‘안정감’: 하드 네거티브와 멀티스테이지 튜닝

검색 모델은 “정답을 당기는 힘”만큼 “그럴듯한 오답을 밀어내는 힘”이 중요합니다. Nemotron ColEmbed V2는 contrastive learning과 하드 네거티브 마이닝을 적용해, 비슷해 보이지만 틀린 문서(혹은 이미지)를 더 공격적으로 구분하도록 학습합니다¹.

여기에 멀티스테이지 파인튜닝과 체크포인트 병합 같은 방식으로 성능을 다듬어 안정성을 높였다고 알려져 있습니다¹. 현업에서 모델이 흔들릴 때(문서 유형이 바뀌거나 언어가 섞이거나, OCR 품질이 들쑥날쑥할 때) 이런 “학습 설계의 내구성”이 체감 품질을 좌우하는 경우가 많습니다.

또 하나 포인트는 데이터입니다. 다국어와 복잡한 문서 유형의 의미 정합을 강화하기 위해 다양한(그리고 인공적으로 생성된) 데이터로 학습 세트를 크게 확장했다는 점도 실전형 접근으로 보입니다¹.

멀티모달 RAG에 바로 쓰는 법: 어디에 배치하면 효과가 큰가

Nemotron ColEmbed V2는 “정확한 검색이 곧 답변 품질”로 이어지는 멀티모달 RAG에 특히 잘 맞습니다¹. 예를 들어 이런 곳에서 효과가 큽니다.

첫째, 사내 문서 검색입니다. PDF 보고서, 슬라이드, 제품 매뉴얼처럼 표·이미지·캡처가 많은 지식베이스에서 “찾아오는 힘”이 강해지면, 생성 모델은 헛소리를 할 여지가 줄어듭니다.

둘째, 크로스모달 검색입니다. 텍스트로 질문했는데 이미지 결과가 더 유용한 경우(디자인 가이드, UI 변경 내역, 그래프 비교 등)가 많습니다. 멀티모달 임베딩은 이 다리를 놓는 역할을 합니다.

셋째, 고객지원/대화 시스템 고도화입니다. 사용자가 “이 화면에서 오류가 나요”라며 스크린샷을 던졌을 때, 비슷한 케이스를 문서/이미지 기반으로 정확히 회수해 답을 만들 수 있습니다.

배포 접근성도 장점입니다. Hugging Face에서 모델과 예제 노트북을 제공하고, NVIDIA NGC에서는 마이크로서비스 컨테이너 형태로도 접근할 수 있습니다¹. “연구만 가능한 모델”이 아니라 “팀이 붙여서 운영해볼 수 있는 모델” 쪽에 가깝다는 의미입니다.

시사점은 분명합니다. 멀티모달 검색은 이제 ‘있으면 좋은 기능’이 아니라, 문서가 복합 매체가 된 시대의 기본 체력에 가깝습니다. Nemotron ColEmbed V2는 Late Interaction이라는 정교한 매칭 방식으로 그 체력을 끌어올렸고, ViDoRe V3 성능으로도 설득력을 확보했습니다¹.

실무 팁을 하나만 덧붙이면, 처음부터 “최대 규모 모델”로 시작하기보다 3B/4B로 인덱싱 비용과 지연시간을 감 잡은 뒤, 품질 병목이 명확해졌을 때 8B로 올리는 접근이 시행착오를 줄여줍니다. 저장공간(문서 토큰 임베딩 저장)과 정확도 사이의 교환관계를 팀의 KPI로 명확히 잡는 것도 잊지 마세요. Late Interaction은 정확도를 주는 대신, 저장소와 파이프라인 설계를 더 진지하게 요구하니까요¹.

참고

¹Nemotron ColEmbed V2: ViDoRe V3의 최고 모델로 멀티모달 검색의 기준을 높이다