DeepSeek mHC, 초거대 AI를 안정적으로 키우는 숨은 비밀

거대한 LLM을 키우는 건, 사실상 “안 부서지는 제트엔진”을 설계하는 일과 비슷합니다. 속도를 높이려고 조금만 과감하게 손대면, 어느 순간 엔진이 통째로 터져버리죠.

DeepSeek가 공개한 새로운 기법, mHC(Manifold-Constrained Hyper-Connections)는 바로 이 문제를 해결하려는 설계 변경안입니다. 기존보다 훨씬 복잡한 신호 흐름을 허용하면서도, “폭주하지 않고 끝까지 안정적으로” 학습하게 만드는 구조적 해법입니다¹².

이 글에서는 다음 세 가지를 중심으로 mHC를 쉽게 풀어보겠습니다.

왜 기존 Hyper-Connections(HC)는 대형 모델에서 무너지는가
mHC가 수학적 제약으로 신호 폭주를 어떻게 막는가
실제 벤치마크 성능과 오버헤드, 그리고 앞으로의 의미

AI 모델 구조 이야기를 최대한 수학·논문 냄새 덜 나게 정리해볼게요.

1. 잔차 연결에서 Hyper-Connections까지: 왜 더 넓힌 게 문제였나

요즘 쓰이는 트랜스포머 기반 LLM은 거의 모두 “잔차 연결(residual connection)” 위에 서 있습니다. ResNet 이후로, 입력을 그대로 다음 층으로 더해주는 이 단순한 아이디어 하나가 딥러닝의 체급을 통째로 올려버렸죠.

잔차 연결의 핵심은 두 가지입니다.

첫째, 정보 보존.
각 층에서 복잡한 연산을 해도, 원래 입력이 그대로 더해져서 다음 층으로 흘러갑니다.
둘째, 안정적인 기울기 흐름.
역전파 때 “항상 1인 경로”가 있어, 기울기가 사라지거나 폭주할 가능성을 줄입니다.

문제는 “더 잘하자”는 욕심이었습니다.

연구자들은 단일 잔차 흐름(residual stream) 대신, 여러 개의 잔차 스트림을 두고 그것들을 학습 가능한 행렬로 섞어주면 더 복잡한 패턴을 배울 수 있다고 생각했습니다. 이것이 Hyper-Connections(HC)입니다²³.

아이디어 자체는 매력적입니다.

단 하나의 길이 아니라, 4차선 고속도로처럼 여러 개의 정보 흐름을 만들고, 층마다 “어떤 차선끼리 섞일지”를 행렬로 학습하게 만드는 구조죠. 실제로 작은 모델 규모에서는 HC가 성능 향상을 보여줬습니다⁴⁵.

그런데 문제가 하나 있습니다.

작은 모델에선 잘 되던 게, 270억 파라미터급 모델로 키우자 갑자기 학습이 산으로 가버린 겁니다. DeepSeek가 27B 모델에 HC를 적용했을 때, 약 12,000 스텝 지점에서 loss가 갑자기 튀어오르며 학습이 붕괴하는 현상을 관찰했습니다²³.

원인은 “신호 폭주”였습니다.
이론적으로는 신호 세기가 1 근처에서 유지되어야 안정적인데, HC에서는 이 값이 최대 3,000배까지 증폭된 것으로 보고됩니다²³.

즉, 층을 지날수록 신호가 3,000배 커지는 구조를 만들어놓고, 그 위에 학습을 시키고 있었던 셈입니다. 이 상태에선 역전파 기울기도 같이 폭주하면서 학습이 깨질 수밖에 없습니다.

여기에 또 하나의 현실적인 문제도 있었습니다.

HC는 잔차 스트림을 4배 정도로 넓히기 때문에, 메모리 접근량도 거의 4배까지 치솟습니다²³. GPU 메모리는 이미 빡빡한데, 신호 폭주에 메모리 오버헤드까지 얹힌 구조였던 거죠.

정리하면 HC의 딜레마는 이렇습니다.

표현력은 분명 좋아졌는데,

신호가 기하급수적으로 증폭되고
메모리 접근도 크게 늘어나
대형 모델에서는 구조적으로 불안정했다는 것.

이걸 “트릭”이 아니라 “구조 자체”로 해결해보자는 시도가 바로 mHC입니다.

2. mHC: 신호 폭주를 막는 수학적 가드레일

DeepSeek 연구팀이 선택한 해법은 의외로 투박하면서도 단순합니다.

“아예 신호를 섞는 행렬에 수학적 족쇄를 걸어버리자.”

doubly stochastic, 신호를 ‘섞기만’ 하고 키우지 않는 행렬

mHC의 핵심은 잔차 스트림을 섞는 핵심 행렬을 아주 특별한 형태로 제한하는 것입니다.

조건은 두 가지입니다²³⁵.

모든 원소가 0 이상 (비음수)
각 행과 각 열의 합이 정확히 1

이런 행렬을 “이중 확률 행렬(doubly stochastic matrix)”이라고 부릅니다.

직관적으로 말하면, 이 행렬은 “어디선가 신호를 새로 만들지도, 없애지도 않고, 그저 다시 섞기만 하는” 역할만 합니다.

각 행·열의 합이 1이라는 뜻은,

한 출력 스트림은 입력들의 “가중 평균”이고
한 입력 스트림은 전체 출력에 “고르게 기여”한다는 의미죠.

이렇게 만들어놓으면, 아무리 여러 층을 통과해도 이 행렬들의 곱 역시 이중 확률 행렬이 됩니다. 수학적으로 이 집합은 곱셈에 대해 닫혀 있기 때문입니다.

결과적으로, 네트워크 깊이가 아무리 깊어져도 “전체적인 신호 세기”가 제멋대로 폭주하기 어려운 구조가 됩니다⁶³.

실제로 DeepSeek가 측정한 결과, HC에서 최대 3,000까지 치솟던 신호 증폭이 mHC에서는 약 1.6 수준으로 떨어졌습니다²³. 거의 3자리 수 이상 줄어든 셈입니다.

Sinkhorn-Knopp: 1967년 알고리즘으로 2026년 문제 해결하기

그렇다면 아무 행렬이나 던져놓고 “행, 열 합이 1 되게 해줘”라고 하면 어떻게 할까요?

여기서 등장하는 게 1967년에 제안된 고전 알고리즘, Sinkhorn-Knopp입니다⁴⁶³.

이 알고리즘은 방식이 단순합니다.

행을 정규화해서 각 행의 합이 1이 되게 만들고
그다음 열을 정규화해서 각 열의 합이 1이 되게 만듭니다.
1과 2를 번갈아 여러 번 반복합니다.

이걸 충분히 반복하면 “행과 열의 합이 모두 1인” 이중 확률 행렬에 점점 가까워집니다. DeepSeek는 실험 끝에 약 20번 반복했을 때 정확도와 계산 비용의 균형이 가장 좋다는 결론을 냈습니다²⁶³.

중요한 포인트는, 이 제약이 “학습내용을 대놓고 지워버리는” 수준의 강한 제약이 아니라는 점입니다.

행렬 안의 값들은 여전히 학습되지만, 학습된 값들이 항상 “이중 확률”이라는 궤도 위로 프로젝션된다고 보는 게 더 가깝습니다. 그 결과,

정보는 층마다 다양하게 섞이되
전체 에너지는 크게 벗어나지 않는 선에서 유지됩니다.

mHC가 실제로 바꾼 것들

mHC는 단순히 잔차 섞는 행렬 하나만 바꾼 게 아닙니다.

첫째, 잔차 섞는 행렬(H_res)에 doubly stochastic 제약.
이게 신호 폭주를 직접 막는 핵심입니다.

둘째, 잔차로 들어가기 전·후의 매핑 행렬(H_pre, H_post)에도 “비음수” 제약을 걸어줍니다³⁵.
양수/음수 계수가 섞이면 서로 상쇄되면서 신호가 이상하게 줄었다 커졌다를 반복할 수 있어서, 안정성을 떨어뜨린다는 판단입니다. 여기에는 시그모이드 등을 활용해 값을 양수 범위로 제한하는 식의 설계가 사용됩니다.

셋째, 메모리와 계산을 동시에 고려한 구현 최적화.

여러 연산을 하나의 GPU 커널로 합치는 커널 퓨전
필요한 중간값만 저장하고 나머지는 역전파 때 다시 계산하는 recompute 전략
DeepSeek-V3의 DualPipe와 통합해, GPU 간 통신과 Sinkhorn 계산을 겹쳐 수행

이런 최적화를 통해 mHC의 전체 오버헤드를 “기존 구조 대비 약 6.7%”로 낮췄습니다²⁴³. 신호를 통제하기 위해 추가로 들어가는 연산치고는 꽤 괜찮은 가격입니다.

3. 성능, 안정성, 확장성: 숫자로 보는 mHC의 효과

구조가 아무리 아름다워도, 성능과 비용에서 설득력이 없으면 실전에서는 쓰이지 않습니다. mHC는 이 부분에서 꽤 알찬 숫자를 보여줍니다.

학습 안정성: 3,000배 폭주 → 1.6배 근처로

DeepSeek는 3B, 9B, 27B 세 가지 크기의 모델에서

기본 구조(잔차만 있는 모델)
HC(제약 없는 Hyper-Connections)
mHC(제약 걸린 Hyper-Connections)

이 세 가지를 비교했습니다²⁴³⁵.

결과는 명확합니다.

HC는 모델이 커질수록 신호 증폭이 수십 배, 수백 배, 27B에선 3,000배까지 폭주
mHC는 세 모델 모두에서 신호 증폭이 1.5~1.6 정도에 머물렀습니다

특히 27B 모델에서 HC는 학습 초반까지는 잘 가다가, 약 12,000 스텝 부근에서 loss가 급등하며 곡선이 망가졌습니다. 반면 mHC는 끝까지 매끄러운 학습 곡선을 유지했습니다²³.

이건 “하이퍼파라미터 조금 더 잘 튜닝하면 해결되겠지?” 수준의 문제가 아니라, 구조 자체가 안정성을 보장하느냐의 차이에 가깝습니다.

벤치마크 성능: 조금 더 어렵고 ‘생각’이 필요한 문제에서 강함

성능 측면에서도 mHC는 단순한 “안정성 패치”를 넘어섭니다.

대표적인 두 벤치마크에서 27B 모델 기준 결과를 보면²[^3]:

BBH(BIG-Bench Hard, 복잡한 추론 과제)
- 기준 모델: 43.8%
- HC: 48.9%
- mHC: 51.0%
DROP(독해 + 수리 추론)
- 기준 모델: 47.0%
- HC: 51.6%
- mHC: 53.9%

여기서 흥미로운 점은 두 가지입니다.

하나는 HC만 써도 기본 구조보다 꽤 큰 이득이 있다는 것.
잔차 스트림을 넓히고 자유롭게 섞게 하는 설계가, 표현력 측면에서 이미 도움이 된다는 의미입니다.

다른 하나는, mHC가 HC보다도 조금씩 더 나은 성능을 낸다는 점.
폭주를 막기 위한 제약을 걸었는데도, 표현력이 크게 줄지 않고 오히려 조금 더 나은 결과를 냅니다. 이는 “폭주하는 자유로움”보다 “제약 속의 안정적 표현력”이 실전에서 더 유리하다는 걸 보여줍니다.

여기에 더해, 확장 실험에서도 모델 크기(3B → 9B → 27B)와 학습 예산이 달라져도 mHC의 장점이 꾸준히 나타났다고 보고됩니다²⁷³. 단순히 특정 크기에서만 잘 먹히는 트릭이 아니라, 스케일링에 친화적인 구조로 보입니다.

비용: 6.7% 오버헤드에 값하는가?

마지막은 현실적인 질문입니다.

“GPU 시간 6.7% 더 쓰면서까지 이 구조를 쓸 이유가 있나?”

DeepSeek와 여러 분석가들은 “충분히 그럴 만하다”는 쪽에 서 있습니다⁷⁸³.

이유는 세 가지 정도로 정리할 수 있습니다.

첫째, 학습 실패 리스크 감소.
27B 모델 한 번 날려먹는 비용을 생각해 보면, 안정성이 올라가는 것만으로도 이미 보험 가치가 있습니다.

둘째, 같은 컴퓨트 대비 더 높은 성능.
딱 같은 예산으로 “조금 더 똑똑한 모델”을 얻는 효과가 있고, 특히 추론·논리 벤치마크에서 그 차이가 보입니다.

셋째, 구조적 확장 가능성.
이번에 사용한 것은 “비음수 + 행/열 합 1”이라는 제약이었지만, 이 아이디어를 확장해 다른 수학적 제약, 다른 토폴로지를 붙여볼 수 있는 출발점이 됩니다²⁷³⁵.

단순히 파라미터 수와 컨텍스트 길이만 키우던 시대에서, “신호가 지나가는 길 자체를 설계하는 시대”로 넘어가는 첫걸음에 가깝습니다.

시사점: 다음 세대 LLM은 ‘제약을 잘 거는 설계’가 승부처가 된다

정리해보면, DeepSeek의 mHC는 이렇게 요약할 수 있습니다.

Hyper-Connections로 잔차 스트림을 넓히고 학습 가능한 연결을 허용하면, 표현력은 늘지만 신호 폭주와 메모리 오버헤드로 대형 모델이 불안정해진다.
mHC는 잔차 섞는 행렬을 “이중 확률 행렬”이라는 수학적 다변수에 가둬, 신호를 섞되 증폭하지 못하게 만든다.
Sinkhorn-Knopp 같은 고전 알고리즘을 활용해 이 제약을 실시간으로 강제하면서도, 전체 오버헤드는 약 6.7% 수준에 그친다.
그 결과, 27B 모델에서도 학습이 안정적으로 진행되고, BBH, DROP 같은 어려운 벤치마크에서 기준/HC 대비 추가적인 성능 향상이 관측된다.

개인적으로 이 논문이 흥미로운 이유는, “더 크고 더 많이”가 아니라 “더 잘 설계된 제약”으로 스케일링 벽을 넘고 있다는 점입니다.

그동안 LLM 업계는