지구에서 가장 강력한 APU? Beink GTR9로 보는 로컬 AI PC 선택 기준

Generated image

맥 스튜디오처럼 생긴 작은 박스 안에 현재 가장 강력한 x86 APU가 들어 있다면 어떤 그림이 나올까. Beink GTR9는 Ryzen AI Max Plus 395를 탑재한 미니 PC로, 로컬 LLM·이미지 생성·AI 워크로드용 박스를 찾는 개발자 입장에서 꽤 흥미로운 선택지입니다.

이 글에서는 외형보다 로컬 AI 성능, 메모리 구성, OS·API 선택, 소음과 안정성까지 한 번에 정리합니다. 맥 스튜디오 M3 Ultra, 같은 칩을 쓰는 Framework 데스크탑, GMK Evo X2와의 비교 데이터도 함께 보면서, 실제로는 어디까지 기대하는 것이 합리적인지 짚어봅니다.

맥 스튜디오를 닮은 GTR9, 로컬 AI용 하드웨어 구성을 보다

Beink GTR9의 첫 인상은 단순합니다. 맥 스튜디오와 거의 같은 형태의 알루미늄 박스입니다. 전면에는 SD 카드 슬롯, 전원 버튼 겸 지문인식 센서, 후면에는 2개의 10GbE 포트, USB-A 포트 2개, HDMI, DisplayPort, 내장 전원부가 배치돼 있습니다.

DisplayPort가 있어 모니터 호환성 측면에서는 HDMI만 제공하는 맥 스튜디오보다 유연한 편입니다. 다만 맥 스튜디오 M3 Ultra가 제공하는 Thunderbolt 5 포트 4개는 GTR9에 없기 때문에, 고대역폭 외장 스토리지·eGPU·고급 도킹을 전제로 하는 구성이라면 맥 스튜디오 쪽이 유리합니다.

I/O만 보면 "맥 스튜디오 저렴한 복제판"처럼 보일 수 있지만, 이 제품의 진짜 포인트는 APU와 메모리 구성으로 밀어붙인 로컬 AI 성능 대비 가격에 있습니다. 외형은 비슷해도 내부 설계 방향은 완전히 다르다는 점이 핵심입니다.

Ryzen AI Max 395 APU와 128GB 메모리, 숫자가 말하는 포지션

GTR9의 내부에는 Ryzen AI Max Plus 395(일명 Strix Halo 계열) APU가 들어 있습니다. 현재 기준으로 가장 강력한 x86 APU 중 하나로, CPU·GPU·NPU가 한 다이에 들어 있는 구조입니다.

이 제품이 특히 눈에 띄는 이유는 메모리 128GB를 단일 풀로 구성했다는 점입니다. CPU와 GPU가 동일한 128GB 메모리 풀을 공유하므로, 대형 LLM을 로컬에서 띄울 때 VRAM 한계에 덜 묶입니다.

가격대는 128GB 구성 기준 2,000달러 이하입니다. 비슷한 메모리 용량을 가진 다른 AI 워크스테이션과 비교하면:

Lambda/DGX Spark 계열 128GB급 머신: 약 4,000달러 수준
맥 스튜디오 M3 Ultra 96GB (리퍼 포함) 최소 3,000달러 이상

즉, 절대 가격만 보면 싸다고 하기 어렵지만, 128GB 메모리 + 최신 APU + 내장 전원 + 10GbE 듀얼 포트를 합쳐 놓고 보면 동급 메모리 구성 대비 상당히 공격적인 가격대에 위치합니다. 이 때문에 자연스럽게 "로컬 LLM 돌리는 전용 미니 서버 박스" 후보로 올라옵니다.

LM Studio로 비교한 맥 스튜디오 M3 Ultra vs GTR9 로컬 LLM 성능

실제 로컬 LLM 환경에서 어떤 차이가 발생하는지 보기 위해, 작성자는 LM Studio에서 같은 프롬프트를 두 머신에 던졌습니다.

프롬프트는 대략 이런 수준입니다. "중간 규모의 전자상거래 플랫폼용 확장 가능한 웹 애플리케이션 아키텍처 설계" 정도의 아키텍처 설계 요청으로, 토큰 길이가 과도하게 짧지도, 지나치게 길지도 않은 실전형 문제입니다.

모델: Qwen 3 34B 계열
맥 스튜디오: M3 Ultra, 96GB RAM, MLX 최적화 버전 사용
GTR9: Vulcan LLaMA CPP 기반, Vulkan/ROCm로 GPU 가속

측정 결과:

맥 스튜디오 M3 Ultra: 약 144 tokens/s
GTR9 (Ryzen AI Max 395): 약 52 tokens/s (Vulkan)

토큰 생성 속도만 보면 맥 스튜디오가 GTR9보다 약 2.7배 빠른 수준입니다. 동일 모델, 동일 프롬프트, 각 플랫폼에서 가장 잘 지원되는 스택(Apple Silicon에 MLX, AMD에 Vulkan)을 썼다는 점을 감안하면, 로컬 LLM 순수 성능만 놓고는 M3 Ultra가 한 단계 위 레벨이라는 점이 분명합니다.

다만 가격·플랫폼·확장성(특히 Linux 활용)까지 고려하면, GTR9는 "맥 스튜디오 수준 성능은 아니지만, 128GB 메모리의 유연성을 가진 x86 박스"라는 포지션이 됩니다. LLM 사이즈를 크게 쓰고 싶을수록 이 차별점은 점점 더 중요해집니다.

AMD에서 CPU·Vulkan·ROCm 선택이 LLM 성능에 미치는 영향

AMD 플랫폼에서 로컬 LLM을 돌릴 때는 일반적으로 세 가지 경로가 있습니다.

CPU 실행: 디버깅 용도 외에는 사실상 비현실적인 속도
ROCm: AMD 공식 GPU 컴퓨팅 API, LLM·이미지 생성 모두 지원
Vulkan: 플랫폼 공용 그래픽/컴퓨팅 API, LLaMA CPP에서 적극 활용

GTR9에서 같은 4B 모델, 같은 프롬프트를 기준으로 Vulkan vs ROCm을 비교한 결과는 다음과 같습니다.

Vulkan 경로: 약 52.8 tokens/s
ROCm 경로: 약 60 tokens/s

소형 4B 모델에서는 ROCm이 Vulkan보다 약간 더 빠른 결과가 나왔습니다. 다만 작성자에 따르면, 대형 모델에서는 ROCm의 스케일링이 항상 좋게 나오지는 않았고, 일부 환경에서는 Vulkan이 더 안정적인 결과를 보여줬습니다.

정리하면, AMD APU에서 로컬 LLM을 쓸 때는 "CPU로도 되겠지"라는 생각은 버리고, 최소 Vulkan이나 ROCm 중 하나를 제대로 세팅하는 것이 전제가 됩니다. 어떤 API가 더 좋은지는 모델 크기·툴체인·OS에 따라 달라지므로, 단일 정답이라기보다는 환경별 튜닝 변수에 가깝습니다.

BIOS GPU 메모리 할당과 OS 선택이 로컬 AI에 주는 영향

이 APU의 특성상, BIOS에서 GPU에 얼마를 할당하느냐가 성능에 직접적인 영향을 줍니다.

GTR9에서는 GPU 메모리 할당을 64GB 또는 96GB 중 하나로 고정해야 합니다(자동 옵션 없음). 나머지 용량은 시스템 메모리로 사용됩니다.

작성자가 동일 스크립트로 여러 번 반복 측정한 결과(평균 + 표준편차):

모델: Qwen 3 Coder 30B, 중간 길이 아키텍처 프롬프트
GPU 96GB 할당: 약 72 tokens/s
GPU 64GB 할당: 약 67 tokens/s

중간 규모 프롬프트만 놓고 보면 96GB 할당이 눈에 띄게 빠르지는 않지만, 확실한 우위를 보입니다. 그러나 약 30,000 토큰짜리 초장문 프로그래밍 프롬프트 기준으로는 차이가 크게 벌어집니다.

GPU 96GB 할당: 약 22 tokens/s
GPU 64GB 할당: 약 13.9 tokens/s

긴 프롬프트·대형 모델로 갈수록 GPU에 더 많은 메모리를 할당할수록 토큰 속도와 안정성이 동시에 좋아진다는 점이 드러납니다.

OS 선택도 영향을 줍니다. 같은 모델·같은 프롬프트에서:

Fedora 42 (Linux): 약 70 tokens/s
Windows 11: 약 65.9 tokens/s

두 OS 간 차이는 크지 않지만, Fedora 42가 일관되게 조금 더 빠른 경향을 보였습니다. 다만 Fedora 환경에서는 마우스·화면 프리징으로 인한 재부팅이 간헐적으로 필요했다는 언급도 있는 만큼, 현 시점에서는 Windows가 안정성, Fedora가 성능에서 약간 우위로 보는 편이 현실적입니다.

같은 칩을 써도 다른 결과, GTR9·Framework·GMK의 성능 비교

흥미로운 지점은 같은 Ryzen AI Max 395 APU를 사용해도 기기마다 성능이 다르게 나온다는 점입니다. 작성자는 동일한 벤치마크 스크립트를 GTR9, Framework 데스크탑, GMK Tech Evo X2에 적용했습니다.

먼저, 소음부터가 다릅니다.

GTR9: 가장 시끄러운 편, 성능 튜닝이 공격적으로 들어간 느낌
Framework 데스크탑: 거의 조용한 수준, 소음 측면에서는 가장 쾌적

하지만 토큰 속도는 정반대로 나옵니다.

INT4 양자화, Qwen 3 Coder 30B, 중간 길이 아키텍처 프롬프트:

GTR9 (GPU 96GB): 약 72 tokens/s
Framework 데스크탑 (GPU 96GB): 약 51 tokens/s

동일 칩, 동일 GPU 메모리 할당임에도 GTR9가 Framework 데스크탑 대비 약 40% 빠른 수준입니다.

INT8 양자화에서도 경향은 비슷합니다.

GTR9 (GPU 64GB): 약 48 tokens/s
Framework 데스크탑 (GPU 64GB): 약 37.7 tokens/s
GMK Tech Evo X2 (GPU 64GB): 약 46 tokens/s

GMK Evo X2는 Framework보다 빠르지만, GTR9만큼은 아니고 그 사이에 위치합니다. 작성자가 이전에 "가장 빠른 머신"으로 평가했던 GMK Evo X2조차, 같은 조건에서 GTR9에 근소하게 밀리는 상황입니다.

M3 Ultra와의 비교 그래프에서는 스케일 차이가 더 뚜렷하게 드러납니다. INT8 기준 같은 프롬프트에서:

M3 Ultra: 약 72 tokens/s (INT8)
GTR9: 같은 모델에서도 전반적으로 더 낮은 구간에 위치

정리하면, 같은 AMD APU 계열 중에서는 GTR9가 가장 공격적으로 튜닝된 편이고, 그 대가로 소음과 발열을 감수하는 구조로 보입니다. 반대로 Framework 데스크탑은 조용하고 안정적인 대신, 동일 칩 대비 LLM 성능은 다소 보수적으로 튜닝된 설계입니다.

GPT-OS 20B·ROCm 호환성, 펌웨어 문제와 실사용 체크포인트

성능 외에 실제 사용에서 중요한 것은 모델 호환성·펌웨어 성숙도입니다.

예를 들어 GPT-OS 20B(OpenAI 계열 20B 모델)의 경우:

GTR9에서 Vulkan 경로로는 정상 동작 및 양호한 성능
동일 조건에서 ROCm 경로는 GTR9에서만 문제 발생
같은 모델을 Framework 데스크탑·GMK Evo X2에서는 ROCm으로도 정상 구동

즉, 칩 자체의 문제가 아니라 GTR9 특정 BIOS·펌웨어·드라이버 조합에서만 발생하는 호환성 이슈로 보는 것이 합리적입니다. 실제 GPT-OS 20B 자체는 GTR9에서도 Vulkan 경로에서는 장문 프롬프트 일부를 제외하고는 전반적으로 잘 동작했습니다.

네트워크 측면에서는, 제품 출고 당시 10GbE NIC 펌웨어를 업데이트해야 한다는 블로그 글이 일부 존재합니다. 펌웨어 업데이트로 해결 가능한 이슈지만, 상용 제품이라면 출고 전 NIC 펌웨어 검증·업데이트가 더 철저했어야 한다는 지적은 피하기 어렵습니다.

OS별로는:

Windows 11 프리로드: 기본 사용에는 문제가 없고, 드라이버·전원 관리도 안정적
Fedora 42: LLM 성능은 더 좋지만, 간헐적인 입력 장치·화면 프리징 문제 관찰

이런 점을 종합하면, GTR9는 하드웨어 스펙과 성능 잠재력은 높지만, 펌웨어·드라이버 성숙도는 아직 개선 여지가 있는 플랫폼으로 보는 편이 현실적입니다. 장기간 무인 운용이 필요한 환경이라면, 출고 시점 BIOS·NIC 펌웨어·GPU 드라이버 버전을 명확히 파악하고, 자체 검증 루틴을 한 번 돌려보는 과정이 사실상 필수에 가깝습니다.

데이터 관점에서 본 GTR9의 위치와 로컬 AI 머신 선택 기준

수치와 사례를 정리하면 GTR9의 위치는 꽤 명확해집니다.

성능 관점
- x86 APU 기반 미니 PC 중에서는 가장 높은 로컬 LLM 처리 속도를 보여주는 편
- 같은 칩을 쓰는 Framework·GMK보다 토큰 속도 우위
- 다만 M3 Ultra급 Mac Studio와는 여전히 급 차이가 존재
메모리·가격 관점
- 128GB 단일 메모리 풀은 대형 LLM·장문 프롬프트에서 확실한 장점
- 2,000달러 이하 가격대에서 128GB + 최신 APU + 10GbE 듀얼 포트 조합은 드묾
운영 관점
- 공격적인 튜닝 덕분에 같은 칩 대비 높은 성능을 얻지만, 소음이 상당히 큰 편
- Fedora에서 성능 이득은 있지만, 현 시점에서는 Windows 쪽이 안정성 측면에서 유리
- 일부 모델(특히 GPT-OS 20B) ROCm 호환성, NIC 펌웨어 등은 업데이트를 전제로 한 플랫폼에 가깝다.

이 데이터를 기반으로 한 선택 기준은 다음과 같이 정리할 수 있습니다.

목표가 "최대한 조용한 x86 로컬 AI 머신"이라면 → 같은 칩이라도 Framework 데스크탑 쪽이 더 적합할 가능성이 높습니다.
목표가 "동일 칩 기준 최고의 토큰 속도"라면 → GTR9가 가장 근접한 선택지에 해당합니다. 소음과 초기 펌웨어 손질을 감수하는지가 관건입니다.
목표가 "토큰 속도 최대, 예산 제약 적음, macOS 생태계 선호"라면 → LM Studio + MLX 조합에서 M3 Ultra의 수치는 여전히 독보적이며, GTR9는 경쟁 대상이라기보다 리눅스 기반 x86 로컬 AI 박스라는 다른 축에 서 있습니다.

로컬 AI용 하드웨어 선택은 단순히 "가장 빠른 기계"를 고르는 문제가 아니라, 성능·소음·OS·호환성·가격 사이의 타협 지점을 어디에 두느냐의 문제입니다. GTR9는 이 공간에서 "성능과 메모리를 크게 가져가되, 소음과 펌웨어 성숙도는 일정 부분 감수하는 선택지"에 해당하며, 해당 트레이드오프가 허용되는 환경이라면 꽤 설득력 있는 옵션이 됩니다.

출처 및 참고 :