Meta Pixio: 단순한 픽셀 복구가 DINOv3를 이긴 이유

사진의 일부를 가려놓고 “여기 뭐 있었는지 맞혀봐”라고 시키면, 사람은 꽤 잘 맞힙니다. 놀랍게도, Meta의 새 비전 모델 Pixio도 같은 게임을 하다가 최첨단 모델들을 이겨버렸습니다.

이 글에서는 왜 이렇게 단순해 보이는 “픽셀 재구성” 방식이, 복잡한 비전 모델 DINOv3까지 제치고 깊은 장면 이해와 3D 추론까지 해내는지, 그리고 그 한계와 앞으로의 방향까지 한 번에 정리해 보겠습니다.

픽셀을 다시 그리기만 했는데… Pixio는 뭐가 다른가?

이미지 이해 AI의 대표적인 학습 방식 중 하나가 바로 “마스킹 + 복원”입니다. 사진의 일부를 가리고, 모델이 가려진 부분의 픽셀을 다시 그리도록 훈련하는 방법이죠. 이를 마스크드 오토인코더(MAE)라고 부릅니다.

한동안 업계의 평가는 이랬습니다.

“MAE 좋긴 한데, 진짜 실전에서는 DINOv2, DINOv3 같은 복잡한 자기지도 학습이 훨씬 낫다.”

Meta 연구팀은 여기에 정면으로 반기를 듭니다. 논문 제목부터 “픽셀 감독(pixel supervision)을 다시 보자”예요¹. 픽셀 레벨 복원만으로도, 제대로 설계하면 충분히 강력한 표현을 학습할 수 있다는 걸 Pixio로 보여줍니다.

핵심은 두 가지입니다.

첫째, 픽셀은 가장 원초적인 정보의 원천입니다.

이미지의 색, 질감, 재질, 조명, 기하, 객체 위치, 심지어 장면의 분위기까지 모두 픽셀에 녹아 있습니다. 이걸 잘 예측하려면 어쩔 수 없이 “씬 전체를 이해”해야 합니다¹.

둘째, 기존 MAE가 약했던 건 “아이디어”가 아니라 “설계와 스케일”이었습니다.

Pixio는 MAE라는 오래된 아이디어를 그대로 가져오되,
모델 구조, 마스킹 방식, 데이터 스케일을 크게 손보고 난 뒤, DINOv3와 비슷한 규모에서 정면승부를 걸었습니다²¹.

그리고 결과는, 깊이 추정, 3D 재구성, 로봇 학습 등 실제 응용에서 DINOv3를 능가하거나 최소한 맞먹는 수준이었습니다²¹.

Pixio가 MAE를 갈아엎은 3가지 설계 변화

Pixio의 아이디어 자체는 간단합니다. “픽셀을 더 어렵게, 더 똑똑하게 복원하게 만들자.” 그런데 그걸 위해 구조를 아주 전략적으로 바꿉니다²³.

1. 디코더를 ‘진짜 일꾼’으로 만든다

기존 MAE에서는 디코더(가려진 픽셀을 다시 그리는 부분)를 가볍게 만들고, 인코더가 거의 모든 부담을 떠안는 구조에 가까웠습니다. 그 결과, 인코더는 “좋은 표현”보다는 “복원에만 유리한 표현”을 배우게 되는 부작용이 있었죠.

Pixio는 발상을 바꿉니다.

인코더는 장면의 의미와 구조를 담는 뼈대 역할에 집중시키고, 복원은 훨씬 깊고 강력한 디코더에게 맡깁니다²³.

이렇게 역할을 분리한 덕분에, 인코더는 다양한 다운스트림 태스크(깊이 추정, 3D, 세그멘테이션, 로봇 제어 등)에 잘 전이되는 “범용 표현”을 배우게 됩니다¹.

2. 마스크를 크게, 덩어리로 가린다

초기 MAE는 이미지를 잘게 쪼갠 뒤, 랜덤한 패치들을 가리는 방식이었습니다. 이 방식에는 함정이 하나 있습니다.

가려진 부분이 너무 작으면, 모델이 “주변 픽셀을 복사해서 메우기” 같은 얕은 요령에 익숙해질 수 있습니다.

Pixio는 이를 막기 위해, 훨씬 큰 블록 단위로, 넓은 영역을 통째로 가립니다².

이제 모델은 “눈만 보고 얼굴을 추측하는” 수준이 아니라,
“창틀, 벽, 바닥 등 전체 구조를 보고 방의 모양과 카메라 위치까지 유추해야 하는” 상황에 놓입니다.

실제로 논문 예제를 보면, 문짝이 하나만 보이는데 반대편 문짝 위치를 추론하거나, 창문에 비친 사람의 반사까지 그럴듯하게 그려내는 모습을 보여줍니다³². 이런 능력은 단순한 텍스처 복사로는 나올 수 없습니다.

3. 한 장면을 여러 개의 CLS 토큰에 나눠 담는다

Transformer 기반 비전 모델에서 자주 등장하는 “CLS 토큰”은 전체 이미지를 요약하는 정보 저장소 같은 역할을 합니다.

기존엔 이게 보통 하나였는데, Pixio는 여러 개의 클래스 토큰을 둡니다²³.

각 토큰이 장면의 다른 측면을 담을 수 있도록 설계한 거죠.
예를 들어
· 전체 장면의 카테고리(실내/실외, 도로/실험실)
· 카메라 시점과 투시
· 조명/시간대
· 주요 객체 배치

이런 다양한 글로벌 속성을 서로 다른 토큰에 나눠 쥐여 줄 수 있게 만든 셈입니다.

이 설계는 나중에 다운스트림 태스크에서 “원하는 속성만 뽑아서 쓰기”에도 유리합니다. 깊이 추정은 기하 정보에, 로봇 제어는 객체 위치와 affordance에 더 민감하니까요¹².

20억 장 웹 이미지, ‘어려운 사진’ 위주로 돌린 훈련 전략

모델 구조를 바꿨다고 끝이 아닙니다. Pixio의 또 하나의 무기는 훈련 데이터와 그를 다루는 방식입니다.

ImageNet 최적화 대신, ‘웹 전체’를 노렸다

DINOv2, DINOv3는 성능을 극한까지 끌어올리기 위해, 대표 벤치마크인 ImageNet을 훈련 데이터에 적극적으로 섞어 넣습니다. DINOv3의 경우, ImageNet 이미지를 최대 100번씩 반복 사용해 전체 데이터의 10% 정도를 차지하게 만들기도 합니다².

이렇게 하면 ImageNet 기반 평가에서 점수가 잘 나오는 건 거의 보장되지만, “실제 세상”에서 얼마나 잘 전이되는지는 별개의 문제입니다.

Pixio 팀은 아예 방향을 달리 잡습니다.

웹에서 긁어온 20억 장의 이미지를 모아, 최소한의 휴먼 큐레이션만 적용하고, 특정 벤치마크에 맞춰 데이터 분포를 왜곡하지 않습니다¹³.

그 대신, 모델 자체가 “어떤 이미지를 더 많이 볼지”를 결정하게 합니다.

잘 안 맞히는 사진일수록 더 자주 본다

Pixio는 흥미로운 셀프 큐레이션 전략을 씁니다.

각 이미지에 대해 “복원 오차”를 계산하고,
잘 안 맞히는, 즉 난이도가 높은 이미지는 훈련에서 더 자주 뽑히도록 합니다¹².

반대로, 배경이 단순하고 물체가 뻔한 상품 사진처럼 너무 쉬운 이미지는 점점 덜 보게 됩니다.

이건 인간이 문제집 풀 때와 비슷합니다.
틀린 문제, 어려운 유형을 반복해서 풀어야 실력이 느는 것처럼, 모델도 복원에 애먹는 씬을 집중적으로 보면서 표현력을 끌어올립니다.

그 결과, Pixio는 어떤 특정 테스트셋을 향한 “꼼수 튜닝” 없이도, 다양한 현실 태스크에서 좋은 성능을 보여줍니다¹².

DINOv3도 이긴다: 깊이, 3D, 로봇에서 드러난 Pixio의 실전 능력

그렇다면 이렇게 학습한 픽셀 기반 모델은 실제로 어디서 강점을 보일까요? 논문과 리포트들을 보면, “연속적인 공간 이해”가 중요한 태스크에서 특히 빛을 발합니다.

단일 이미지 깊이 추정: 16% 더 정확했다

“이 사진만 보고, 각 픽셀이 카메라에서 얼마나 떨어져 있는지 맞혀봐.”

이게 단안(monocular) 깊이 추정입니다. 자율주행, 로봇 내비게이션, AR·VR에서 매우 중요한 기술이죠.

Pixio는 DINOv3보다 파라미터 수가 적은데도, 깊이 추정에서 평균 16% 더 정확한 결과를 냅니다².

또한, Pixio로 학습한 “Depth Anything” 스타일의 깊이 추정 모델은 완전히 새로운 실제 데이터셋에서도 안정적으로 깊이를 잘 맞춥니다²¹. 이는 픽셀 복원 과정에서 기하 구조와 장면 구성을 강하게 학습했기 때문으로 볼 수 있습니다.

한 장의 사진으로 3D 재구성까지

3D 재구성은 더 빡센 과제입니다. 한 장 또는 몇 장의 사진을 보고, 씬의 3차원 구조를 복원해야 하니까요.

DINOv3는 한 씬당 8개의 서로 다른 뷰를 보면서 훈련한 반면, Pixio는 단일 이미지 기반으로 학습했는데도, 3D 재구성 태스크에서 DINOv3를 능가하는 결과를 보여줍니다².

픽셀 단위로 공간적 일관성을 맞추는 훈련을 계속하다 보니, 자연스럽게 “이 장면의 카메라 위치”와 “물체의 3D 배치”를 내재적으로 추론하게 된 겁니다³.

로봇 학습: 카메라만 보고 행동을 정하는 능력

로봇이 카메라 영상을 보며 “이제 뭘 해야 하지?”를 결정하는 비주얼 정책 학습에서도 Pixio는 인상적인 수치를 기록합니다.

로봇 제어 벤치마크에서 Pixio 기반 표현을 사용했을 때, 성공률이 78.4%로, DINOv2 기반의 75.3%보다 높았습니다².

즉, 픽셀 재구성을 통해 학습한 표현이, 실제 행동 결정에도 충분히 유용하다는 뜻입니다. 단순히 “패턴 외우기”가 아니라, 행동에 필요한 레벨의 상황 이해까지 포함하고 있는 셈입니다.

그럼에도 불구하고: 픽셀 마스킹의 한계와 다음 단계

연구진도 스스로 인정하듯, “이미지 일부를 가리고 맞히게 하는 것”은 어디까지나 인공적인 과제입니다²³.

현실 세계에서 우리는 보통 “완전한 장면”을 봅니다.

인위적으로 가려 놓고 맞히는 게임은, 모델을 훈련시키기 위한 트릭일 뿐이죠.

여기에는 두 가지 근본적인 한계가 있습니다.

첫째, 마스킹 비율의 딜레마입니다.

· 너무 조금 가리면, 모델은 근처 픽셀만 복사하는 쉬운 요령에 매달립니다.

· 너무 많이 가리면, 남은 정보가 너무 적어서, 복원 자체가 의미 없는 노이즈 맞히기가 됩니다².

둘째, 시간 축을 무시한다는 점입니다.

세상은 정지된 사진이 아니라, 움직이는 영상입니다. 우리는 시간의 흐름 속에서 사물을 이해합니다.

연구진도 “다음 단계는 비디오 기반 학습”을 강하게 시사합니다.

앞으로는 “가린 부분을 맞혀라”에서 “이 다음 프레임을 예측해 봐라”로 훈련 과제가 옮겨갈 가능성이 큽니다².

비디오 예측은 인위적인 마스킹 없이도, 자연스러운 자기지도 신호(미래 프레임)를 제공합니다. 즉, 픽셀에 기반하되, 시간 축까지 포함한 더 리얼한 감독 신호가 생기는 셈입니다.

시사점: “복잡한 게 항상 좋은 건 아니다”는 강력한 증거

Pixio가 주는 메시지는 생각보다 단순합니다.

첫째, 단순한 목표도, 스케일과 설계를 맞추면 충분히 강력하다.

픽셀 복원은 오래된 아이디어지만, 디코더를 강화하고, 마스크를 크게 만들고, 클래스 토큰을 늘리고, 20억 장의 웹 이미지를 잘 샘플링해 돌리자, 최신 복잡한 모델들과 정면 대결이 가능해졌습니다¹².

둘째, “픽셀 공간”에서 배우는 모델은 저수준·고수준 정보를 함께 품을 수 있다.

텍스처, 엣지, 질감 같은 로우레벨과, 의미, 관계, 3D 구조 같은 하이레벨 정보가 모두 픽셀에 들어 있기 때문이죠. 특히 깊이, 3D, 로봇처럼 “물리적인 세계 이해”가 중요한 태스크에선 이런 특징이 빛을 발합니다.

셋째, 벤치마크 점수에 집착하지 않는 전략이 오히려 전이 성능을 높일 수 있다.

ImageNet 점수를 위해 데이터 분포를 비틀기보다는, 웹 전체에서 다양한 씬을 폭넓게 보고, 모델이 스스로 어려운 샘플을 더 자주 보게 만든 접근이 실제 태스크에선 더 실용적일 수 있다는 걸 보여줍니다².

개인적으로, Pixio는 “이제 더 이상 ‘픽셀 복원’은 구식이 아니다”라는 선언처럼 느껴집니다.

앞으로 비전 모델을 설계할 때,
· 라벨·텍스트에 의존하는 CLIP·DINO류,
· 픽셀 복원 기반의 Pixio류,
· 비디오 기반 미래 예측 모델

이 세 축이 서로 보완하면서 발전할 가능성이 큽니다.

만약 여러분이 비전/로보틱스 쪽에서 일하고 있다면, Pixio는 “복잡한 목적함수를 만들기 전에, 픽셀 복원 같은 단순한 자기지도 과제를, 제대로 크게, 그리고 길게 돌렸는가?”를 다시 묻게 만드는 작업입니다.

코드는 GitHub에 공개되어 있으니, 직접 파인튜닝해 보며 “우리 문제에는 어떤 표현이 더 잘 먹히는지” 실험해 보는 것도 좋은 출발점이 될 것입니다¹².

참고

¹In Pursuit of Pixel Supervision for Visual Pre-training

²Meta's Pixio proves simple pixel reconstruction can beat complex vision models