메인 콘텐츠로 건너뛰기
page thumbnail

VS Code 인사이더로 로컬 LLM 연동해 개발비 줄이는 방법?

DODOSEE
DODOSEE
조회수 7
요약

AI 클립으로 정리됨

출처 및 참고 : https://www.youtube.com/watch?v=IsJcjrQwgF4

Generated image

로컬 LLM을 쓰고 싶어도, 정작 코드 에디터에서 편하게 붙여 쓰는 방법은 잘 보이지 않는 경우가 많습니다.

특히 VS Code의 기본 AI 패널은 대부분 유료 프론티어 모델 중심이라, 자체 호스팅 모델을 쓰려면 한 번 더 삽질을 해야 하는 구조입니다.

여기서는 VS Code 인사이더(녹색 아이콘 버전)를 활용해 로컬·원격 LLM을 연결하고, GitHub Copilot 인터페이스 안에서 OpenAI 호환 모델을 직접 선택해 사용하는 흐름을 정리합니다.

LM Studio로 로컬 모델을 붙이는 예시와, 대형 모델을 원격 GPU 서버에 띄워 사용하는 구조까지 함께 다룹니다.


VS Code 인사이더가 AI 작업에 유리한 이유

VS Code는 현재 크게 기본판(파란 아이콘)인사이더(녹색 아이콘) 두 가지로 나뉩니다. 같은 제품이지만, 인사이더 버전은 새 기능이 먼저 적용되는 테스트 트랙에 가깝습니다.

AI 관련 기능도 마찬가지입니다. 코파일럿 패널에서 모델을 관리하는 UI, OpenAI 호환 엔드포인트 지원 같은 것들이 먼저 인사이더에 들어온 뒤, 어느 정도 안정화되면 파란색 정식 버전으로 합쳐지는 방식입니다.

인사이더 버전은 누구나 무료로 설치할 수 있고, 기존 VS Code와 완전히 분리된 앱으로 동작합니다. 덕분에 평소 쓰는 환경을 건드리지 않고, AI 관련 확장이나 실험적인 설정을 별도 인스턴스에서 마음껏 테스트할 수 있습니다.

AI 워크플로를 바꾸거나, 로컬 LLM을 붙여보려는 상황이라면 녹색 인사이더를 하나 더 설치하는 편이 안전합니다.


VS Code 기본 AI 패널의 한계와 커스텀 모델 필요성

기본 VS Code(파란색)에서 AI 채팅 패널을 열면, 선택 가능한 모델로는 보통 GPT-4.1, GPT-4o mini, Claude, Grok 같은 상용 모델이 먼저 보입니다. 이들은 대부분 유료 요금제 기반 프론티어 모델이고, 코파일럿 구독이나 별도의 API 과금이 따라옵니다.

설정 메뉴에서 Llama 계열의 로컬 모델을 연결하는 옵션도 존재하긴 하지만:

  • 선택 가능한 모델 종류가 제한적이고

  • "로컬 머신에서 직접 돌리는 경우"에 거의 한정되어 있으며

  • 다른 서버에 띄워 둔 OpenAI 호환 모델을 마음대로 추가하기에는 부족한 수준입니다.

즉, 집이나 사무실에 별도 GPU 서버를 두고 LLM을 띄우는 구조, 혹은 클라우드에 올려 둔 OpenAI 호환 API 서버를 VS Code에서 직접 쓰고 싶다면, 기본 UI만으로는 충분하지 않은 상황입니다.

이 공백을 메워 주는 것이 인사이더 버전의 커스텀 모델 설정 기능입니다.


GitHub Copilot 설정으로 OpenAI 호환 모델 등록하기

핵심은 GitHub Copilot 설정 JSON에 커스텀 모델 목록을 직접 정의하는 것입니다. GUI 설정 화면만 보면 너무 복잡해 보이지만, JSON 파일에서 편집하면 구조가 단순해집니다.

먼저 VS Code 인사이더에서:

  1. 설정 화면을 연 뒤

  2. 오른쪽 상단의 JSON 열기 아이콘을 눌러 설정 파일을 직접 엽니다.

    • OS별 메뉴 위치는 다르지만, 개념은 동일합니다.

    • 전체 사용자 설정(User Settings)로 넣어 두면, 모든 워크스페이스에서 재사용할 수 있습니다.

여기에서 다음 키를 추가합니다:

  • github.copilot.customOpenAiModels

이 키 아래에 사용하는 모델들을 객체 형태로 나열할 수 있습니다. 각 항목은 대략 이런 식의 정보를 포함합니다:

  • 모델 ID (OpenAI 호환 서버에서 사용하는 실제 모델 이름)

  • VS Code에 표시할 친숙한 이름

  • OpenAI 호환 URL (보통 /v1로 끝나는 엔드포인트)

  • 기능 플래그:

    • tool calling 지원 여부

    • 비전(이미지 입력) 지원 여부

    • "thinking" 모드 여부

  • max input tokens (컨텍스트 길이)

  • max output tokens (답변 길이)

  • API 키 필요 여부

예를 들어, 1조 파라미터급 모델인 Kimi K2 Thinking 같은 모델을 원격 서버에 띄워 두고, 그 서버가 OpenAI 호환 API를 제공한다고 가정하면:

  • 모델 ID: 서버가 노출하는 내부 이름

  • URL: 예) https://my-ai-server.example.com/v1

  • max input tokens: 256,000 토큰 등 실제 스펙에 맞게 입력

  • requiresApiKey: 실제 인증 방식에 따라 true/false

이 구조만 맞춰 주면, VS Code 인사이더의 모델 관리 UI에서 해당 모델을 하나의 옵션처럼 선택할 수 있습니다.


LM Studio와 VS Code를 연결해 완전 로컬 LLM 환경 만들기

GPU 서버가 없더라도, LM Studio + VS Code 인사이더 조합이면 꽤 쓸 만한 로컬 개발 환경을 만들 수 있습니다.

예제로 등장한 모델은:

  • Qwen 3 Coder 30B

    • M4 Max MacBook Pro에서 구동

    • 모델 파일 크기 약 17GB

    • LM Studio 내에서 OpenAI 호환 서버 모드로 실행

연결 흐름은 다음과 같이 정리할 수 있습니다.

  1. LM Studio에서 모델 실행

  • Qwen 3 Coder 30B 모델을 선택해 로드

  • 서버 모드 활성화 (OpenAI 호환 API)

  • 기본 포트는 1234, 주소는 127.0.0.1:1234 형태로 노출

  1. VS Code 인사이더 설정에 모델 추가

  • LM Studio 화면에서 모델 ID를 확인 후 복사

  • github.copilot.customOpenAiModels 아래에 새 객체를 추가

    • key: LM Studio에서 본 모델 ID

    • name: 예) Qwen 3 Coder 30B

    • url: http://127.0.0.1:1234/v1

    • tool calling: false

    • vision: false

    • thinking: false

    • max input tokens: 128,000 (또는 LM Studio가 표시하는 값, 예: 262,000 토큰)

    • requiresApiKey: false (로컬 환경에서 인증 미사용 시)

  1. VS Code 재시작 후 모델 활성화

  • 인사이더를 재시작하면 새 모델이 모델 목록에 나타납니다.

  • 처음에는 회색(비활성)으로 표시될 수 있는데, 눈 모양 아이콘을 눌러 가시성을 켜야 실제 선택 목록에 등장합니다.

이제 코드 창에서 AI 패널을 열고 방금 등록한 모델을 선택하면, "이 함수 성능 개선 아이디어 제안" 같은 요청을 전부 로컬에서 처리할 수 있습니다.

이 구조의 장점은 명확합니다.

  • 요금이 추가로 발생하지 않고

  • 코드가 외부 클라우드로 나가지 않으며

  • 지연시간도 로컬 네트워크 수준으로 유지됩니다.


초대형 모델을 원격 GPU 서버에 얹어 VS Code에서 사용하는 구조

모든 작업을 노트북 하나로 해결하기 어렵다면, 외부 GPU 서버에 초대형 모델을 올리고 VS Code에서 붙여 쓰는 방식도 가능합니다.

예시로 등장한 구성이 다음과 같습니다.

  • 모델: Kimi K2 Thinking (약 1조 파라미터급)

  • 하드웨어: NVIDIA H200 8장 구성 서버

  • 호스팅: bare metal 환경(예: zer0scale 같은 GPU 호스팅)

  • 스펙:

    • max input tokens: 256,000 토큰 수준 지원

    • "thinking" 모드 활성화 (답변 전 사전 사고 단계 수행)

이 경우 VS Code에서 할 일은 로컬 모델과 거의 동일합니다.

  • URL만 원격 서버의 OpenAI 호환 엔드포인트로 교체

  • thinking: true로 설정

  • 필요한 경우 requiresApiKey: true로 두고, 헤더에 API 키를 넣도록 구성

이 방식은 코드가 완전히 로컬에만 머무르지는 않습니다. 요청은 사설 GPU 서버로 전송되지만, 로그 저장이나 코드 수집을 하지 않는 환경이라면, 대형 클라우드 사업자의 프론티어 모델 대신 전용 고성능 GPU 클러스터를 빌려 쓰는 구조로 이해할 수 있습니다.

이때 중요한 포인트는 하나입니다.

통신 경로 전체를 신뢰할 수 있는 방식으로 보호하는지 여부입니다. TLS 설정, 방화벽, VPC 구성 등은 전적으로 운영 측에서 책임져야 합니다.


VS Code 에이전트 모드와 모델 선택 제약 사항

VS Code AI 패널에는 두 가지 주요 사용 모드가 있습니다.

  • 질문/채팅 모드: 모델에게 개선 아이디어, 리뷰, 설명 등을 받아보는 용도

  • 에이전트(Agent) 모드 또는 Edit 모드: 코드 수정 작업을 자동으로 실행하는 용도

현재 인사이더 버전에서는 다음과 같은 제약이 관찰됩니다.

  • 에이전트 모드에서 일부 커스텀 모델이 선택 목록에 나타나지 않는 경우가 있음

  • 반면 Edit 모드(코드 편집 요청)에서는 커스텀 모델이 정상적으로 선택 가능

따라서 작업 흐름을 구성할 때는:

  1. 먼저 일반 채팅 모드에서

    • "이 함수 구조를 어떻게 바꾸면 좋을지 단계별로 제안해 달라" 같은 식으로 계획을 뽑아낸 뒤

  2. 이후 Edit 모드에서

    • 같은 모델 또는 다른 모델을 선택해

    • "이 계획에 따라 handleFetchComments 코드를 더 효율적으로 수정해 달라" 와 같이 실제 코드 변경을 맡기는 2단계 패턴이 현실적인 선택입니다.

이는 VS Code AI 기능이 아직 활발히 개발 중인 영역이기 때문에, 향후 업데이트에서 에이전트 모드와 커스텀 모델 간의 제약은 달라질 가능성이 높습니다.


로컬·원격 LLM 연동 전략에 대한 기술적 해석

정리하면, VS Code 인사이더와 github.copilot.customOpenAiModels 설정을 이용하면:

  • 로컬에서 도는 LM Studio 모델

  • 사내 또는 개인 GPU 서버에 호스팅한 LLM

  • 외부 OpenAI 호환 상용 API 서버

를 모두 하나의 통합 인터페이스 안에서 교차 사용할 수 있습니다.

다만 실제 운용 측면에서 고려할 점은 분명합니다.

  1. 성능–비용–프라이버시 균형

  • 30B급 모델을 로컬에서 돌리면 비용은 낮지만, 속도와 발열, 배터리 소모가 제약 요소가 됩니다.

  • 1조 파라미터급 모델을 원격 H200 클러스터에서 돌리면 속도와 품질은 올라가지만, 네트워크 비용과 인프라 관리 난이도가 증가합니다.

  • 민감한 코드라면 데이터 경로 전체에 대한 통제 가능성이 핵심 기준이 됩니다.

  1. 토큰 길이 설정의 현실적 한계

  • 모델이 256,000 또는 262,000 토큰 컨텍스트를 지원한다고 해도, 실제 사용에서는 메모리 사용량과 응답 시간 때문에 항상 최대치까지 보내기는 어렵습니다.

  • VS Code 설정에서 max input tokens를 모델 스펙의 절반 정도로 두고 시작하는 전략이 더 안정적일 수 있습니다.

  1. VS Code 인사이더 의존성

  • 인사이더는 매일 빌드되는 버전이므로,

    • 기능이 생겼다가 사라지는 경우

    • UI 동작이 자주 바뀌는 경우가 예상됩니다.

  • 실제 팀 개발 환경에서 공용 도구로 채택하기에는, 정식 버전에 기능이 편입될 때까지 버전 관리 및 호환성 검증 비용이 발생할 수 있습니다.

이러한 제약을 감안하더라도, 에디터 내부에서 로컬·원격 LLM을 자유롭게 섞어 쓰는 구조는 향후 개발 워크플로에 상당한 영향을 줄 가능성이 높습니다.

고정된 한두 개 상용 모델만 쓰는 방식에서 벗어나, 업무별로 속도 위주 모델, 긴 컨텍스트 모델, 사고 중심 모델, 코드 특화 모델을 유연하게 조합하는 형태로 이동하는 과정으로 해석할 수 있습니다.

마무리하면, VS Code 인사이더의 커스텀 OpenAI 모델 기능은

  • 단순한 실험 기능을 넘어

  • 로컬 LLM, 사설 GPU 서버, 상용 API를 하나의 개발 인터페이스에서 통합 운영하는 출발점에 가깝습니다.

실제 환경에 적용할 경우에는,

  • 인프라 보안

  • 비용 구조

  • 팀 내 표준화 수준 을 기준으로 단계적으로 도입하는 것이 현실적인 접근으로 보입니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.