메인 콘텐츠로 건너뛰기
조회수 4

Nemotron ColEmbed V2로 멀티모달 검색 정확도 한 단계 올리기

요약

Nemotron ColEmbed V2로 멀티모달 검색 정확도 한 단계 올리기

요즘 문서는 더 이상 “텍스트 덩어리”가 아닙니다. 표 한 장, 차트 한 컷, 캡처 이미지 하나에 핵심 정보가 숨어 있죠. 문제는 검색입니다. 키워드로는 표 안의 수치나 그래프가 말하는 의미를 제대로 못 찾는 경우가 많습니다.

Nemotron ColEmbed V2는 이런 현실적인 골칫거리를 정면으로 해결하려는 멀티모달 임베딩 모델 시리즈(8B/4B/3B)입니다. 텍스트와 이미지를 같은 임베딩 공간으로 정렬해 “문서가 가진 시각 정보까지” 검색에 반영하고, ViDoRe V3 같은 벤치마크에서 최상위 성능으로 존재감을 증명했습니다1.

멀티모달 검색이 어려운 이유: 문서가 ‘복합 매체’가 됐다

회사 위키를 검색했는데, 답은 PPT 캡처 이미지 속 표에 있고 텍스트 본문에는 없었던 경험이 있을 겁니다. 혹은 리서치 보고서에서 “성장률”이라는 단어는 많지만, 정작 원하는 구간의 그래프를 설명하는 문장을 못 찾기도 하죠.

멀티모달 검색의 핵심은 “텍스트로 묻고 이미지/표/차트로 답을 찾는” 상황을 자연스럽게 만드는 겁니다. 이를 위해 임베딩 모델은 텍스트, 이미지, 문서 레이아웃 단서를 한 공간에 매핑해 비슷한 의미끼리 가깝게 두는 방식으로 동작합니다. 즉, 문서의 시각 요소까지 ‘검색 가능한 의미 단위’로 바꾸는 작업이 필요합니다.

Nemotron ColEmbed V2 한 줄 요약: ‘Late Interaction’으로 더 정교하게 찾는다

Nemotron ColEmbed V2가 흥미로운 이유는 ColBERT 계열의 핵심 아이디어인 ‘Late Interaction(후기 상호작용)’을 멀티모달로 확장했다는 점입니다1.

일반적인 임베딩 검색은 문서 전체를 하나의 벡터로 “요약”해 비교하는 경우가 많습니다. 빠르지만, 중요한 단서가 요약 과정에서 희미해질 수 있습니다. 반면 Late Interaction은 질의 토큰(질문을 구성하는 단어들)과 문서 토큰(문서의 단어/시각 토큰들) 간의 미세한 매칭을 끝까지 남겨둡니다.

Nemotron ColEmbed V2는 각 질의 토큰이 문서 토큰들 중 “가장 잘 맞는 것”을 고르고(MaxSim), 그 점수들을 합산해 최종 관련도를 계산합니다1. 그래서 “비슷한 얘기”가 아니라 “딱 그 부분”을 더 잘 집어내는 쪽에 강해집니다.

성능 지표로 본 임팩트: ViDoRe V3 1위가 의미하는 것

멀티모달 검색 모델이 늘고 있는 만큼, “어떤 모델이 실제로 문서형 시각 정보에 강한가?”를 평가하는 기준도 중요해졌습니다. 그 역할을 하는 벤치마크 중 하나가 ViDoRe V3이고, Nemotron ColEmbed V2는 여기서 강력한 결과를 냈습니다.

ViDoRe V3에서 nemotron-colembed-vl-8b-v2는 NDCG@10 63.42로 1위를 기록했고, 4B는 61.54, 3B는 59.79로 상위권을 차지했습니다1. 숫자가 말해주는 요지는 간단합니다. “복잡한 시각 문서에서 상위 10개 결과를 뽑았을 때, 정답에 더 가깝게 정렬하는 능력”이 매우 뛰어나다는 뜻입니다.

3B/4B/8B 모델 차이: 크기만 다른 게 아니라 ‘계보’도 다르다

같은 ColEmbed V2라도 내부 기반이 다릅니다. 3B 모델은 Google SigLIP2와 Meta Llama 계열을 토대로 하고, 4B/8B는 Qwen3-VL 기반으로 개발됐습니다1.

실무 관점에서 보면 선택지는 명확해집니다. 8B는 최고 성능을 노릴 때, 4B는 성능과 비용 사이의 현실적인 균형점, 3B는 더 가벼운 인프라에서 멀티모달 검색을 “돌려보는” 데 유리합니다.

또한 양방향 self-attention과 ColBERT 스타일 임베딩 조합은 “문서 내부 단서(텍스트·시각 토큰)의 연결”을 촘촘히 잡는 데 도움을 줍니다. 특히 표/도식처럼 문맥이 여기저기 끊겨 있는 형태에서 체감 차이가 커집니다.

학습 전략이 만든 ‘안정감’: 하드 네거티브와 멀티스테이지 튜닝

검색 모델은 “정답을 당기는 힘”만큼 “그럴듯한 오답을 밀어내는 힘”이 중요합니다. Nemotron ColEmbed V2는 contrastive learning과 하드 네거티브 마이닝을 적용해, 비슷해 보이지만 틀린 문서(혹은 이미지)를 더 공격적으로 구분하도록 학습합니다1.

여기에 멀티스테이지 파인튜닝과 체크포인트 병합 같은 방식으로 성능을 다듬어 안정성을 높였다고 알려져 있습니다1. 현업에서 모델이 흔들릴 때(문서 유형이 바뀌거나 언어가 섞이거나, OCR 품질이 들쑥날쑥할 때) 이런 “학습 설계의 내구성”이 체감 품질을 좌우하는 경우가 많습니다.

또 하나 포인트는 데이터입니다. 다국어와 복잡한 문서 유형의 의미 정합을 강화하기 위해 다양한(그리고 인공적으로 생성된) 데이터로 학습 세트를 크게 확장했다는 점도 실전형 접근으로 보입니다1.

멀티모달 RAG에 바로 쓰는 법: 어디에 배치하면 효과가 큰가

Nemotron ColEmbed V2는 “정확한 검색이 곧 답변 품질”로 이어지는 멀티모달 RAG에 특히 잘 맞습니다1. 예를 들어 이런 곳에서 효과가 큽니다.

첫째, 사내 문서 검색입니다. PDF 보고서, 슬라이드, 제품 매뉴얼처럼 표·이미지·캡처가 많은 지식베이스에서 “찾아오는 힘”이 강해지면, 생성 모델은 헛소리를 할 여지가 줄어듭니다.

둘째, 크로스모달 검색입니다. 텍스트로 질문했는데 이미지 결과가 더 유용한 경우(디자인 가이드, UI 변경 내역, 그래프 비교 등)가 많습니다. 멀티모달 임베딩은 이 다리를 놓는 역할을 합니다.

셋째, 고객지원/대화 시스템 고도화입니다. 사용자가 “이 화면에서 오류가 나요”라며 스크린샷을 던졌을 때, 비슷한 케이스를 문서/이미지 기반으로 정확히 회수해 답을 만들 수 있습니다.

배포 접근성도 장점입니다. Hugging Face에서 모델과 예제 노트북을 제공하고, NVIDIA NGC에서는 마이크로서비스 컨테이너 형태로도 접근할 수 있습니다1. “연구만 가능한 모델”이 아니라 “팀이 붙여서 운영해볼 수 있는 모델” 쪽에 가깝다는 의미입니다.

시사점은 분명합니다. 멀티모달 검색은 이제 ‘있으면 좋은 기능’이 아니라, 문서가 복합 매체가 된 시대의 기본 체력에 가깝습니다. Nemotron ColEmbed V2는 Late Interaction이라는 정교한 매칭 방식으로 그 체력을 끌어올렸고, ViDoRe V3 성능으로도 설득력을 확보했습니다1.

실무 팁을 하나만 덧붙이면, 처음부터 “최대 규모 모델”로 시작하기보다 3B/4B로 인덱싱 비용과 지연시간을 감 잡은 뒤, 품질 병목이 명확해졌을 때 8B로 올리는 접근이 시행착오를 줄여줍니다. 저장공간(문서 토큰 임베딩 저장)과 정확도 사이의 교환관계를 팀의 KPI로 명확히 잡는 것도 잊지 마세요. Late Interaction은 정확도를 주는 대신, 저장소와 파이프라인 설계를 더 진지하게 요구하니까요1.

참고

1Nemotron ColEmbed V2: ViDoRe V3의 최고 모델로 멀티모달 검색의 기준을 높이다

Nemotron ColEmbed V2로 멀티모달 검색 정확도 한 단계 올리기

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.