[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법

👾 LM Studio - Discover and run local LLMs

LM Studio를 사용하면 완전히 오프라인 상태에서도 자신의 노트북에서 직접 LLM을 구동할 수 있습니다.

앱 내 채팅 UI나 로컬 서버를 통해 OpenAI와 호환되는 모델을 활용할 수 있습니다.

사용하고 싶은 모델 파일은 HuggingFace 저장소에서 간편하게 다운로드 받을 수 있습니다.

Llama 2, Orca, Vicuna, Nous Hermes, WizardCoder, MPT 등 ggml 포맷을 지원하는 Llama, MPT, StarCoder 모델이라면 어떤 것이든 호환됩니다.

앱 홈페이지에서는 새롭고 주목할 만한 LLM들도 살펴볼 수 있습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 1

LM Studio를 사용하기 위한 최소 요구사항은 M1/M2/M3 Mac이나 AVX2를 지원하는 프로세서가 탑재된 Windows PC입니다. Linux는 현재 베타 버전으로 제공되고 있습니다.

사용방법

홈 탭을 누릅니다.
메뉴에 있는 기능 설명은 다음과 같습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 3

LM Studio는 여러분의 로컬 컴퓨터 환경에서 LLM(Large Language Model)을 개발하고 실험할 수 있게 해주는 도구입니다. 완전히 오프라인 상태에서 사용 가능하죠.

주요기능
LM Studio의 주요 기능은 다음과 같습니다:
Search: 호환되는 모델 파일들을 검색하고 다운로드할 수 있습니다.
AI Chat: 오프라인에서 로컬 LLM과 채팅할 수 있는 기능입니다.
Multi Model: 하드웨어 성능에 따라 여러 개의 로컬 LLM을 동시에 로드하고 사용할 수 있습니다.
Local Server: 로컬 호스트에서 OpenAI와 유사한 HTTP 서버를 구동할 수 있습니다.
My Models: 다운로드 받은 모델들을 관리할 수 있는 메뉴입니다.
처음 사용하실 때는 작은 규모의 LLM부터 시작해서 하드웨어 성능에 맞춰 점차 큰 모델로 확장해 나가시는 것이 좋습니다.
LM Studio의 디스코드 서버에 가입하시면 모델, 프롬프트, 워크플로우 등에 대해 다른 사용자들과 토론하고 정보를 공유할 수 있습니다.
이 툴을 활용하면 누구나 손쉽게 자신만의 로컬 환경에서 LLM을 체험하고 개발할 수 있게 됩니다.

Llama 3 8B Instruct 를 다운로드 받아 보겠습니다. 요구사항은 8기가 랩 이상이 필요하며 파일 크기는 4.92 기가네요.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 4

AI Chat 메뉴를 선택합니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 5

오른쪽에 Settings 에서 원하는 모델을 선택합니다. (모델을 다운 받아야 세팅이 됩니다.)
저는 Llama 3 8B Instruct을 선택했으므로 이것으로 선택하겠습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 6

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 7

ACCEPT NEW SYSTEM PROMPT를 선택합니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 8

상단에 다운 받은 모델 중에서 사용할 모델을 선택합니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 9

(phi 2를 사용하다가 라마 3로 바꾸게 되면 이렇게 됩니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 10

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 11

모델을 선택하였으니 준비가 되었습니다. 대화를 나눠 보겠습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 12

이 부분을 보면서 자신의 컴퓨터 사양과 모델이 적합한지 판단할 수 있습니다.

phi 2 와 대화를 나눌 때는 잘 진행이 되었습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 13

저는 m2, 8기가 램이라서 llama 3 를 돌리면 매우 느려지네요. (ㅠㅠ)

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 14

로컬 서버 설정 (솔직히 이 부분은 내 능력 밖이라 설명하기 어렵다)

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 15

Local Inference Server는 OpenAI API의 일부 엔드포인트를 모방하는 로컬 HTTP 서버를 시작하는 기능입니다.
주요 엔드포인트로는 /v1/chat/completions, /v1/embeddings, /v1/models 등이 지원됩니다.
사용 방법은 간단합니다. 화면에 보이는 Configuration 섹션에서 Server Port를 설정하고 Start Server 버튼을 클릭하면 서버가 시작됩니다.
시작된 서버는 POST /v1/embeddings 엔드포인트를 통해 텍스트 임베딩 모델을 활용할 수 있게 해줍니다. Examples 섹션의 코드 예시처럼 curl이나 프로그래밍 언어의 HTTP 클라이언트로 API를 호출하면 됩니다.
Advanced Configuration을 펼치면 CORS 설정, Request Queuing 등 고급 옵션을 조정할 수 있고, 서버 로그도 화면 하단에서 확인 가능합니다.

My Model 로 들어가면 다운받은 모델을 확인할 수 있습니다.

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 16

[LM Studio] 오프라인 로컬에서 LLM을 구동하는 쉬운 방법 image 17