Llama 3.1 을 사용할 수 있는 방법을 함께 알아보고 설명합니다. 다양한 방법을 통해 무료로 사용할 수 있습니다.

8B 로컬 컴퓨터에 설치하기

8B 모델은 로컬 컴퓨터에도 설치하고 실행할 수 있습니다. 방법은 ollama 나 LM studio 를 이용하는 방법이 있습니다.

저는 ollama를 설치해서 진행하겠습니다. Ollama

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 1

여기에서 운영 체제에 맞는 파일을 다운로드 받아 설치하시면 됩니다.

그 다음 우측 상단에 있는 Models를 누릅니다.

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 2

여기에서 llama 3.1을 선택합니다.

여기에서 8B, 70B, 405B 가 있는데 로컬에서 실행하기에는 8B가 가장 좋습니다. 올라마의 8B 모델은 4비트 양자화 버전으로 용량은 4.7GB 입니다.

다음은 터미널로 이동합니다.

윈도우의 경우 검색창에 power 라고 입력하여 파워셀을 실행합니다.

입력창에 다음과 같이 입력해서 모델을 다운로드 받고 설치하면 됩니다.

ollama run llama3.1

모델 다운로드 받는데 좀 시간이 걸립니다. 참 쉽죠잉?

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 3

올라마가 실행 중일 때는 윈도우의 경우 우측 하단에 이렇게 양 모양의 아이콘이 떠있습니다. 재부팅 시 올라마가 자동으로 실행되는데 이게 싫으시면 윈도우 검색 - 시작 프로그램에서 ollama.exe 를 비활성화하면 됩니다.

모델이 다운로드가 완료되면 다음 명령어로 실행하면 됩니다.

ollama run llama3.1 "hello"

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 4

"hello" 부분에 원하는 프롬프트를 입력하면 됩니다.

이제 로컬에서 무제한으로 8B 모델을 사용할 수 있습니다.

Open WebUI

Open WebUI 를 사용하면 다양한 llm 을 채팅 형식으로 편하게 사용할 수 있습니다.

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 5

open web ui 는 도커를 사용합니다. docker 가 설치되어 있지 않으시다면 Docker: Accelerated Container Application Development 에서 설치할 수 있습니다.

도커가 설치됐다면 다음과 같이 docker를 설치할 수 있습니다. 상황에 맞게 터미널에서 명령어를 입력하세요.

Ollama 가 컴퓨터에 설치되어 있을 때 (저는 1번으로 진행)

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Ollama 가 다른 서버에 있을 때

OLLAMA_BASE_URL 를 서버 URL에 맞게 도정

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Open WebUI 를 Nvidia GPU 지원과 함께 실행할 때

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

도커 이미지 설치가 완료되었다면 http://localhost:3000 을 통해 Open WebUI 에 접속합니다. 회원가입은 계정을 임의로 생성한 후 로그인하면 됩니다.

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 6

그러면 이런 화면을 보실 수 있을 겁니다.

70B 사용하기 (groq)

70B는 아마 대부분의 컴퓨터에서 돌리기 어려울 겁니다. 그럴 때 groq의 API 서비스를 이용하면 됩니다. 그로크는 LPU를 활용하여 API를 사용할 수 있게 하는 서비스입니다. 사용량 제한이 걸려 있는 무료 API를 제공하는데 여기에서 라마 3.1 등 다양한 LLM을 활용할 수 있습니다.

GroqCloud 로 이동합니다. 우측 상단에서 사용할 수 있는 다양한 모델들을 확인할 수 있습니다.

Llama 3.1 사용법 - 8B, 70B, 405B 모두 무료로 사용하기 image 7