ATLAS 다국어 스케일링 법칙: 모델·데이터·언어 조합 정답 찾기

ATLAS(Adaptive Transfer Scaling Laws)는 “다국어 모델을 얼마나 키우고, 데이터를 얼마나 더 모으고, 어떤 언어를 섞어 학습해야 목표 언어 성능이 오르는가?”를 실무적으로 답하려는 스케일링 법칙입니다. 전 세계 LLM 사용자의 절반 이상이 비영어권인데도, 기존 스케일링 논의가 영어 중심이라 다국어 팀은 늘 감으로 설계하는 경우가 많았죠. ATLAS는 400개+ 언어 데이터를 다루는 대규모 사전학습 연구와 774번의 학습 실험, 48개 언어 평가를 바탕으로 “예산 안에서 성능을 예측하고 설계를 고르는 방법”을 정리했습니다1.
왜 다국어 모델은 ‘크게만’ 만든다고 해결이 안 될까?
한 가지 언어만 잘하는 모델은 비교적 단순합니다. 데이터와 파라미터를 늘리면 대체로 성능이 꾸준히 오르죠. 그런데 다국어는 이야기가 달라집니다. 지원 언어가 늘수록 모델의 용량(파라미터)과 학습 신호(토큰)가 여러 언어에 나뉘어 배분되고, 언어마다 문법·어휘·문자 체계가 달라 서로 “발목을 잡는” 간섭도 생깁니다. 흔히 말하는 ‘다국어의 저주’가 여기서 나옵니다1.
최근 연구 흐름에서도 비슷한 경고가 반복됩니다. 전체 평균 점수만 보면 “규모가 커질수록 좋아 보이는데”, 세부 분포(언어·방언·도메인)로 쪼개면 격차가 좁혀지지 않거나 오히려 커지는 경우가 있다는 거죠. 이런 관점은 “스케일링은 만능이 아니다”라는 메시지를 더 선명하게 만듭니다2.
ATLAS 핵심 1: “어떤 언어를 섞을까?”를 전이(transfer)로 계산한다
다국어 학습에서 가장 비싼 실수는 “많이 넣었는데도 목표 언어가 안 오르는” 조합을 고르는 겁니다. ATLAS는 언어 간 전이 매트릭스(transfer matrix)를 이용해, 특정 목표 언어에 대해 어떤 보조 언어가 도움이 되는지(positive transfer), 또는 방해가 되는지(negative transfer)를 데이터 기반으로 판단하도록 합니다1.
재미있는 포인트는 ‘감각’과 ‘통계’가 만나는 지점입니다. 같은 문자 체계나 언어 계열을 공유할수록 시너지가 커지는 경향이 관측되었고, 일부 언어는 영어·프랑스어·스페인어 데이터에서 전이 이점을 특히 많이 얻기도 했습니다1. 즉 “영어를 넣으면 다 해결”이 아니라, “내 목표 언어에 영어가 실제로 얼마나 도움이 되는지”를 따져볼 수 있는 도구가 생긴 셈입니다.
ATLAS 핵심 2: 지원 언어가 늘면 모델·데이터를 ‘이 정도’는 키워야 한다
다국어의 저주는 막연한 공포가 아니라, 이제는 대략적인 ‘보정치’를 이야기할 수 있게 됐습니다. ATLAS 실험에서는 지원 언어 수를 2배로 늘릴 때, 성능 저하를 일부 상쇄하려면 모델 크기는 약 1.18배, 데이터는 약 1.66배 늘려야 한다는 가이드를 제시합니다1.
이 수치는 “무조건 이렇게 하라”는 법칙이라기보다, 계획 단계에서 훨씬 현실적인 질문을 가능하게 합니다. 예를 들어 “언어를 20개에서 40개로 늘릴 건데, 데이터 확보가 어렵다면 모델만 키워서 버틸 수 있나?” 같은 질문에, 최소한의 계산 근거가 생기는 거죠.
ATLAS 핵심 3: 다국어 체크포인트 파인튜닝 vs 처음부터 사전학습, 전환점이 있다
실무에서는 종종 이렇게 시작합니다. “일단 공개 다국어 모델 체크포인트를 가져와 파인튜닝하자.” 빠르고 싸고, 초기 성능도 잘 나오는 편이니까요. ATLAS도 이 점을 인정합니다. 제한된 토큰 예산에서는 다국어 체크포인트 기반 파인튜닝이 출발 성능에서 유리할 수 있습니다1.
하지만 장기전에서는 역전 구간이 생깁니다. 충분한 학습 토큰 예산이 확보된다면, 처음부터 사전학습(pretraining)으로 가는 편이 최종 성능을 더 끌어올리기 유리하다는 것이죠. ATLAS는 그 전환점이 대략 144B~283B 토큰(모델 크기 의존) 범위에서 나타날 수 있음을 제시합니다1. “우리 예산으로는 어느 쪽이 더 싸게 먹힐까?”를 감이 아니라 숫자로 토론하게 해주는 대목입니다.
ATLAS가 기존 스케일링 법칙보다 ‘실무적’인 이유
기존 스케일링 법칙은 대개 단일 언어(혹은 영어 중심) 환경에서의 예측에 강했고, 다국어로 가면 변수(언어 수, 언어 조합, 전이/간섭)가 너무 많아 설계 지침이 흐릿해지곤 했습니다. ATLAS는 단일 언어, 이중 언어, 대규모 다국어 환경을 모두 다루면서, 이런 설정 변화에서도 성능 예측이 더 일관되게 정확하다는 점을 강조합니다1.
여기에 최근의 전이학습 스케일링 연구가 던진 메시지도 겹칩니다. “사전학습 데이터가 많아지면 무조건 다운스트림이 좋아지나?”는 질문에 대해, 데이터 분포 정렬(alignment)이 맞으면 좋아지지만, 어긋나면 지표가 오락가락하거나 나빠질 수도 있다는 보고가 있습니다3. 다국어는 정렬 문제를 언어 단위로 더 자주 마주치니, ATLAS처럼 “언어 조합을 고르는 규칙”이 중요해지는 겁니다.
시사점: 다국어 모델 설계, 이제 ‘감’ 대신 ‘설계도’로 가자
ATLAS를 한 문장으로 요약하면 “다국어 모델 개발을 엑셀로 계획 가능하게 만든 스케일링 법칙”입니다. 목표 언어를 정하고, 전이 매트릭스로 보조 언어 후보를 좁히고, 지원 언어 수 확대에 따른 모델·데이터 증가분을 대략 계산하고, 체크포인트 파인튜닝과 처음부터 사전학습 사이에서 예산 전환점을 따져볼 수 있습니다1.
실무 팁은 간단합니다. 신규 다국어 모델을 기획할 때는 논문/블로그의 표·그림을 ‘참고 자료’가 아니라 ‘견적서’처럼 보세요. 언어 조합을 먼저 설계하고, 그 다음에 모델 크기와 토큰 예산을 확정하는 순서가 시행착오를 크게 줄여줍니다.
다국어 사용자가 더 많은 시대에, 다국어 품질은 “친절한 옵션”이 아니라 “기본 기능”이 되고 있습니다. ATLAS가 유용한 이유는, 그 기본 기능을 더 싸고 더 빠르게, 그리고 더 많은 언어로 확장할 수 있는 현실적인 나침반이 되어주기 때문입니다.
참고
1ATLAS: 다국어 모델을 위한 실용적인 스케일링 법칙
2Relative Scaling Laws for LLMs
3Scaling Laws for Downstream Task Performance of Large Language Models