
AI와 인공지능: 수십억 개념을 12,000차원에 담는 마법
인공지능, 특히 최신 대형 언어 모델(AI Language Model)의 내부는 우리가 상상하는 것 이상으로 복잡하고 넓은 공간입니다. GPT-3 같은 최신 모델은 12,288차원의 임베딩 공간에서 수백만, 심지어 수십억 개의 개념을 놀랍도록 효율적으로 관리합니다. 어떻게 이렇게 어마어마한 정보를 작은 공간에 담을 수 있을까요? 오늘은 수학과 기계학습이 만나 일으키는 마법 같은 현상을 쉽고 재미있게 풀어보겠습니다.
언어 모델의 임베딩 공간: 어떻게 많은 개념을 담을까?
임베딩이란, 단어와 개념을 수치(vector)로 변환하여 컴퓨터가 이해하고 연산할 수 있도록 만든 공간입니다. 그런데 이 공간에는 크기 제한이 있어, 마치 작은 책장에 수천 권의 책을 정리해야 하는 것과 같습니다. 놀랍게도 언어 모델은 이 제한된 공간에 수십억 개개의 개념을 담습니다. 그 비밀은 "완벽한 수직(직교, orthogonal) 대신, 조금씩 비켜선 벡터(quasi-orthogonal)"를 사용하는 데 있습니다.
실제 100차원 공간에 10,000개 이상의 벡터를 넣어도, 벡터끼리 완벽하게 수직일 필요는 없습니다. 각 방향이 90도에서 약간 벗어나 있어도, 각각의 개념은 자기 고유의 위치와 역할을 유지합니다. 이는 실제로 언어가 가지는 유사성과 차이점, 즉 '뜻이 비슷하지만 완전히 같진 않은' 단어들을 효율적으로 표현할 수 있게 해 줍니다.
Johnson-Lindenstrauss 보조정리: 차원 축소의 수학적 기적
이 신기한 현상 뒤에는 "Johnson-Lindenstrauss 보조정리"라는 수학적 발견이 숨어 있습니다. 이 정리는 "많은 점(개념)을 고차원 공간에서 저차원 공간으로 옮길 때, 점들 사이의 거리를 거의 온전히 유지할 수 있다"는 놀라운 내용을 담고 있습니다. 실제 공식은 아래와 같습니다.
(1 − ε)‖u−v‖² ≤ ‖f(u)−f(v)‖² ≤ (1 + ε)‖u−v‖²
즉, ε라는 작은 오차만 허용하면, 원래의 복잡한 거리를 저차원에서도 비슷하게 유지할 수 있다는 것입니다. 모델이 12,288차원만 가지고도 수십억 개념을 관리하는 이유는 바로 이 수학적 근거 때문입니다.
실험으로 알아본 임베딩 용량의 한계와 가능성
수학적으로만 그럴까요? 실제로 다양한 실험을 통해, 수만 개 벡터를 고차원 공간에 최적화해서 배치할 수 있음을 확인할 수 있습니다. 예를 들어, 10,000차원 공간에 벡터를 입력할 때, 벡터 사이 평균 각도가 90°에 아주 가깝지는 않지만 85°~89° 정도로 충분히 떨어질 수 있습니다. 각도가 조금만 달라져도 모델이 담을 수 있는 벡터(개념) 수가 기하급수적으로 늘어납니다.
실험에 따르면 GPT-3의 임베딩 공간(12,288차원)은 89도 각도 기준으로 약 1억 개, 87도에서는 10^73개, 85도로 계산하면 10^200개가 넘는 개념을 담을 수 있습니다. 이는 우주에 존재하는 원자 수보다도 훨씬 많은 수준입니다!
이미지 출처: nickyoder.com
이 그래프는 임베딩 공간의 효율에 따라 벡터(개념) 수가 얼마나 늘어나는지 보여줍니다. 실제로 각도의 여유가 많아질수록 언어 모델의 저장 용량은 상상할 수 없이 커집니다.
임베딩 설계의 혁신: Hadamard 행렬과 공간 활용
임베딩 공간을 설계할 때 'Hadamard 행렬 변환'과 같은 수학적 아이디어도 활용합니다. 단순한 랜덤 투영만이 아니라, 구조적으로 잘 짜인 변환을 적용하면 공간 활용도는 더 높아집니다. 이런 구조적 방법을 통해 실제 임베딩 용량을 더욱 효율적으로 끌어올릴 수 있습니다.
임베딩 공간의 '진짜 한계'는 수학적으로 켜켜이 쌓은 보장 덕분에 실제로는 인류가 다루는 모든 언어, 사상, 감정, 단어, 문장 등을 대부분 무리 없이 담을 수 있을 정도로 넉넉합니다.
이미지 출처: nickyoder.com
실험 결과, 최적화 기법을 사용하면 실제로 C 값(임베딩 효율 상수)이 더 낮아지고, 그 결과 모델이 더 많은 개념을 안정적으로 표현할 수 있습니다.
현대 AI에 미치는 실제적 영향력
이 수학적·기하학적 원리는 실제 언어 모델이 우리와 대화하는 방식을 결정합니다. 예를 들어, '불(火)'이라는 단어는 '열', '정열' 등 다양한 의미와 연결되고, '초록(色)'은 자연, 환경, 감각 등 여러 개념과 겹칩니다. 임베딩 공간의 여유는 이런 미묘한 관계와 유사성을 잘 포착할 수 있게 합니다.
결국, 자연 언어처리 모델이 사람이 쓰는 언어의 뉘앙스, 중의성, 다양한 분야에 걸친 개념들을 한 번에 이해하고 대답하는 힘의 원천이 바로 이 고차원 임베딩의 수학적 마법에 있는 셈입니다.
이미지 출처: nickyoder.com
복잡한 고차원 공간 내에서 단어나 개념이 어떻게 분포하는지 시각화한 모습입니다. 이런 구조 덕분에 AI는 인간의 언어를 풍부하게 이해할 수 있습니다.
결론: AI, 수학 그리고 언어의 새로운 연결고리
정리해보면, 대형 언어 모델은 수십억 개념을 아주 작은 공간에 담아냅니다. 그 비결은 완벽한 직교 대신 '살짝 비켜선' 관계를 활용하는 고차원 기하학, 그리고 이를 수학적으로 증명해주는 Johnson-Lindenstrauss 보조정리에 있습니다. 최신 임베딩 설계 기법과 실험을 통해 이론적 한계도 이미 실용적 수준을 훨씬 넘어서고 있죠.
오늘 소개한 고차원 공간의 수학은, 우리가 매일 사용하는 AI 서비스의 똑똑함과 유연함의 숨은 비밀입니다. 복잡한 개념을 한데 모으는 힘이 바로 이런 수학 마법에서 나온다는 점, 이제는 좀 더 쉽게 생각할 수 있겠죠? 앞으로도 AI와 수학, 언어의 교차 속에서 얼마나 더 똑똑하고 창의적인 기술들이 나올지 기대해봅니다.
참고
[1] Johnson–Lindenstrauss lemma - Wikipedia - Wikipedia
이미지 출처
이미지 출처: miniperde on Pexels