
AI 로컬 실행용 그래픽카드, 예산별 선택 가이드와 현실성 점검

AI를 집에서 로컬로 돌리려는 수요가 빠르게 늘고 있습니다.
클라우드의 거대 모델을 쓰면서도, 한편으로는 개인 PC에서 돌아가는 작은 모델을 병행하려는 흐름입니다.
이 글은 "얼마나 싸게, 어디까지 로컬 AI를 돌릴 수 있는가"라는 질문을 중심에 두고,
CPU만으로 가능한 수준
30만~300만 원대 GPU에서 가능한 모델 범위
클라우드 GPU 임대와 직접 구매의 경계
NVIDIA와 AMD 선택 이슈 를 차근차근 정리합니다.
마지막에는 수치와 사례를 기준으로, 실제 구매 의사결정에서 무엇을 기준으로 잡는 것이 합리적인지 비판적으로 정리합니다.
로컬 AI 실행, CPU로 충분하다는 인식의 한계
먼저 전제부터 정리할 필요가 있습니다. AI 모델을 로컬에서 돌리는 데 그래픽카드가 필수는 아닙니다.
메타가 2024년 4월 공개한 Llama 3 8B(80억 파라미터) 정도는, 정밀도(precision)를 낮추지 않은 기본 버전 기준으로 16GB를 약간 넘는 RAM을 요구합니다. 요즘 판매되는 노트북·데스크톱 상당수가 RAM 8~16GB 수준이므로, 기본 그대로는 아예 구동 자체가 어려운 경우가 많습니다.
여기서 커뮤니티가 만들어낸 양자화(quantization) 모델이 등장합니다. 예를 들어 4bit 양자화가 적용된 Llama 3 8B는 RAM 요구량이 약 5~6GB 수준으로 줄어듭니다. 이 정도면 일반적인 홈 PC에서도 실행 자체는 가능합니다.
문제는 속도입니다. 이런 환경에서 Llama 3 8B를 CPU만으로 돌리면 초당 토큰 생성 속도가 10토큰 이하가 나오는 경우가 많습니다. 질문 하나 던져놓고, 응답이 다 나오기 전에 커피 한 잔을 만들고 와도 화면이 아직 찍찍 긁히는 수준입니다.
기술적으로 "된다"와 실제로 "쓸 만하다" 사이에 큰 간극이 존재합니다. CPU만으로 로컬 AI를 돌리는 선택은 실험·테스트 용도로는 의미가 있지만, 일상적인 대화나 코딩 보조 용도로 쓰기에는 실사용 만족도가 크게 떨어지는 구조입니다.
GPU의 역할과 구형 카드의 재발견
로컬 AI 성능에서 CPU가 한계에 부딪히는 이유는 비교적 단순합니다. 대부분의 현대 AI 모델은 텐서 연산 병렬 처리에 최적화되어 있습니다.
CPU: 한 번에 적은 수의 연산을 매우 빠르게 처리
GPU: 아주 많은 숫자의 작은 연산을 동시에 처리
이 구조적 차이 때문에, 7~10년 전 구형 GPU조차도 쓸만한 CPU보다 AI에서는 훨씬 빠른 경우가 많습니다.
예시로 자주 언급되는 카드가 GTX 1080 Ti입니다. 출시된 지 거의 9년이 된 제품이지만, 여전히 일반 CPU 대비 최소 10배 이상 빠른 추론 성능을 보여줍니다.
예산을 조금만 더 쓰면 선택지는 더 넓어집니다. 중고 기준 약 300달러(국내 중고 시장 기준 대략 40만 원 안팎) 수준의 RTX 3060만 보더라도,
Llama 3 8B
Gemma 2 9B
10B 안쪽의 다양한 코드 특화 모델 등을 현실적인 속도로 돌릴 수 있는 구성이 됩니다.
다만 여기에서도 한계는 분명합니다. Kim K2, Qwen 3, GLM 4.6 같은, 요즘 벤치마크에서 자주 언급되는 상위권 모델들은 파라미터 수와 메모리 요구량이 너무 크기 때문에 RTX 3060 12GB VRAM에 온전히 올리기 어렵습니다.
즉, 30만~50만 원대 GPU로는
7~10B급 일반 대화·코딩용 모델 정도가 현실적인 상한선에 가깝습니다.
80만 원대 RTX 3090이 게임 체인저로 취급되는 이유
예산을 한 단계 올려 RTX 3090을 고려하면 상황이 크게 달라집니다. AI 커뮤니티에서 일종의 기준점처럼 언급되는 이유는 명확합니다.
VRAM 24GB
중고 기준 약 800달러(국내 기준 대략 100만 원 초반~중반)
이 조합이 의미하는 바는, 이제부터는 30B급 모델에 본격적으로 손을 뻗을 수 있다는 점입니다.
예를 들어,
Llama 3 8B → 여유롭게
Llama 3 70B (강하게 양자화된 버전) → 겨우겨우 탑재 가능
각종 30B급 일반·코드 특화 모델 → 주력으로 활용 가능
다만, "올린다"와 "쓸 만하다"는 별개입니다. Llama 3 70B를 1장짜리 RTX 3090에 억지로 태웠을 때, 초당 10토큰 근처 정도가 현실적인 수치로 거론됩니다. 기술적으로 구동은 가능하지만, 인터랙티브 환경에서 사용하기엔 답답한 속도입니다.
한편, GPU 수명이라는 변수도 존재합니다. RTX 3090은 이미 출시된 지 5년 정도 지난 아키텍처이며, 특히 암호화폐 채굴에 장기간 사용된 카드라면
24/7 가동 기준 일반적으로 5~8년 수명 이 언급되는 영역에 들어가게 됩니다.
즉, RTX 3090은
가격 대비 VRAM 용량은 매우 매력적이지만
사용 이력, 발열·소음, 남은 수명에 대한 리스크가 동반되는 선택지 가 됩니다.
200만 원대 RTX 4090, 실제 체감 성능은 어느 정도 다른가
다음 단계로 많이 거론되는 카드는 RTX 4090입니다. 대략 2,000달러(국내 소비자 가격 기준 250~300만 원대) 선에서 형성되어 있습니다.
흥미로운 부분은 다음 두 가지입니다.
VRAM은 여전히 24GB로 RTX 3090과 동일
이론상 FP16/Tensor 성능은 대략 140 TFLOPS → 330 TFLOPS급으로 2배 이상 증가
즉, 스펙 시트만 보면 "가격은 2~2.5배, 성능은 2배 이상"이라는 그림이 만들어집니다. 하지만 실제 AI 추론에서는 이 차이가 그대로 체감되지는 않습니다.
핵심 병목은 연산 능력보다 메모리 대역폭에 있습니다. 거대 언어 모델은 대부분의 시간을 행렬 곱(matmul)과 그에 필요한 가중치(weight)를 VRAM에서 연산 유닛으로 계속 가져오는 과정에 사용합니다.
연산 유닛이 아무리 빠르더라도, VRAM에서 데이터를 가져오는 속도가 그에 못 미치면 연산 유닛이 놀게 됩니다.
그래서 실제 벤치마크에서
동일한 모델을 3090과 4090에 올렸을 때
토큰 생성 속도 차이가 "스펙 만큼의 2배"까지는 잘 나오지 않는 경우가 많습니다.
이 지점에서 선택지가 갈립니다.
4090 1장(24GB)로 토큰 속도를 약간 더 가져갈 것인지
3090 2~3장(48~72GB)으로 더 큰 모델을 태울 수 있는 쪽을 택할 것인지
AI 모델을 "얼마나 빠르게"보다, "얼마나 큰 모델을, 양자화 덜 해서 올릴 수 있는지"가 중요하다면 3090 여러 장 구성이 여전히 의미 있는 선택지가 됩니다.
5090과 다중 GPU, 그리고 500만 원 이상 구간의 고민
최신 세대인 RTX 5090도 고려 대상에 올라옵니다. 가격은 약 3,000달러 수준(국내 예상 350~450만 원대)로 전망되며, 여기서 중요한 변화는 VRAM이 32GB GDDR7 수준으로 올라간다는 점입니다.
즉, 단일 카드 기준으로는
24GB 세대보다 조금 더 큰 모델을
더 빠른 메모리 규격으로 처리할 수 있는 구성이 됩니다.
하지만 비용을 다시 보게 됩니다.
RTX 5090 1장: 약 3,000달러, 32GB VRAM
RTX 3090 2장: 1,600달러 안팎, 48GB VRAM
단순하게 "VRAM 용량/가격" 비율만 놓고 보면 여전히 3090 다중 구성 쪽이 유리한 지점이 존재합니다.
여기서부터는 클라우드 GPU 임대와 직접 구매를 진지하게 비교해야 합니다. 예를 들어 NeoCloud 계열(예: Lambda, CoreWeave, Nebius)에서는
NVIDIA B200 8장 구성이 시간당 약 4.99달러 수준으로 제시됩니다.
이 가격을 기준으로
로컬 GPU에 4,000~5,000달러를 선투자할지
필요할 때마다 클라우드 GPU를 몇 백 시간 단위로 임대할지 를 계산해야 합니다.
자동차 관점으로 비유하면,
몇 주만 쓸 차라면 우버·렌트카가 합리적이고
몇 년 동안 매일 사용할 생각이라면 구매가 합리적입니다.
로컬 AI도 마찬가지로, "월간 몇 시간이나 GPU를 강하게 돌릴 계획인가"를 먼저 수량화하지 않으면 5,000달러급 GPU 투자는 과소·과대 모두 가능성이 큰 판단이 됩니다.
AMD vs NVIDIA, CUDA 없는 환경이 갖는 비용 구조
지금까지의 논의는 사실상 NVIDIA 기준에 가깝습니다. 하지만 GPU 가격이 올라갈수록 AMD 카드의 비용 대비 VRAM 구성이 눈에 들어오기 시작합니다.
예를 들어,
RX 7800 XT: 16GB GDDR6, 약 600달러
RX 7900 XTX: 24GB GDDR6, 1,000달러 이하 형성
VRAM 용량만 보면 RTX 4070/4080 계열보다 훨씬 공격적인 가격입니다.
문제는 소프트웨어 생태계입니다. NVIDIA는 CUDA를 중심으로 딥러닝 프레임워크와 툴체인이 사실상 표준처럼 구축되어 있는 반면, AMD는 ROCm 기반 환경을 제대로 활용하려면
파이썬·딥러닝 프레임워크 버전 호환성
드라이버/커널 설정
일부 라이브러리의 미지원·제한 지원 에 대한 이해가 필요합니다.
즉, AMD 카드는
동일 예산에서 더 넉넉한 VRAM을 확보할 수 있지만
초기 세팅 비용이 "돈"이 아니라 시간과 전문성으로 지불되는 구조에 가깝습니다.
AI·시스템 설정에 익숙하고, 툴체인 문제를 스스로 해결할 수 있다면 AMD는 큰 모델을 저렴하게 올릴 수 있는 선택지가 됩니다.
반대로, 환경 구성에 시간을 쓰기 어렵거나 주요 상용 툴·라이브러리 호환성이 무엇보다 중요하다면 NVIDIA를 선택하는 편이 전체 비용(시간+돈) 관점에서 더 낮게 나올 가능성이 높습니다.
로컬 AI GPU 선택을 둘러싼 수치와 조건들의 해석
지금까지 언급된 수치와 사례를 바탕으로, 로컬 AI용 GPU 선택 관점을 다시 정리할 필요가 있습니다.
첫째, 파라미터 수만으로 모델 품질을 단순 비교하기 어렵습니다. 1조 파라미터급 모델(Kim K2, Qwen 3 Max, GLM 4.6 등)이 언급되지만, 실제 상용 서비스(GPT-4 계열, Gemini, Grok 등)는
멀티 트릴리언 파라미터
MoE(Mixture of Experts) 구조
지속적인 파인튜닝 및 RLHF 등이 복합적으로 작동합니다.
집에서 RTX 3090이나 4090으로 실행하는 30B·70B급 모델은 이들과 구조·훈련 조건에서 상당한 차이가 존재합니다. 따라서 "로컬 70B = 클라우드 SOTA 모델과 동급"이라는 기대는 비현실적입니다.
둘째, VRAM 용량과 토큰 속도는 상충 관계에 놓이는 경우가 많습니다.
더 큰 모델을 올리기 위해 강하게 양자화하면
메모리 요구량은 줄지만
품질 저하와 속도 저하가 동반됩니다.
반대로, 적당한 크기의 모델을 낮은 양자화 없이 올리면
품질과 속도는 좋아지지만
VRAM 요구량이 급격히 증가합니다.
즉, "최대한 큰 모델을 단일 카드에 억지로 태우는" 전략은 대부분의 경우 체감 효용이 낮습니다.
셋째, GPU 구매 vs 클라우드 임대는 사용 패턴을 수치화하지 않으면 결론이 나오지 않습니다. 예를 들어,
B200 8장 구성이 시간당 4.99달러라고 할 때
연간 500시간을 쓴다면 약 2,500달러
연간 2,000시간을 쓴다면 약 1만 달러
이때 3,000~5,000달러급 GPU를 구매하는 선택은,
장기간 동일한 작업을 반복 수행할 계획인지
프로젝트 기간이 몇 달 수준인지 에 따라 합리성과 비합리성이 극단적으로 갈립니다.
마지막으로, NVIDIA/AMD 선택은 단순 가격 비교로 해결되지 않습니다.
NVIDIA: 높은 하드웨어 가격 + 낮은 소프트웨어 마찰
AMD: 낮은 하드웨어 가격 + 높은 소프트웨어 마찰
이 조합을 고려하면, 개발·튜닝에 시간을 충분히 투입할 수 있는 기술 인력이 있는 환경에서는 AMD가 총비용 관점에서 유리해질 가능성이 있습니다.
반대로, 개인 사용자가 빠르게 결과물에 도달해야 하는 상황이라면 현재 시점에서는 NVIDIA의 CUDA 생태계 의존도가 여전히 높을 수밖에 없는 구조가 유지될 가능성이 큽니다.
마무리하면, 로컬 AI용 GPU 선택에서 가장 먼저 정해야 할 것은
목표 모델 크기(예: 8B, 14B, 30B, 70B)
예상 월간 사용 시간
환경 세팅에 투입할 수 있는 시간과 기술 수준 세 가지입니다.
이를 숫자로 적어놓고 나면,
0~30만 원대: CPU + 경량 모델 테스트
30~100만 원대: 7~10B 메인, 20B 안쪽 모델 병행 (RTX 3060/AMD 7800 XT 등)
100~200만 원대: 30B급 메인 (RTX 3090, 7900 XTX 등)
200만 원 이상: 다중 GPU 또는 클라우드 임대와의 본격 비교 구간 정도로 선택지가 자연스럽게 정리됩니다.
로컬 AI는 장기적으로 프라이버시 확보와 커스터마이즈된 워크플로우 구축 관점에서 의미가 큽니다. 다만 초기 진입 단계에서는 "최대한 비싼 카드"가 아니라, "현재 필요와 예산, 소프트웨어 역량을 동시에 만족하는 카드"가 무엇인지 냉정하게 따져 보는 과정이 우선되어야 할 것입니다.
출처 및 참고 :
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
