메인 콘텐츠로 건너뛰기
page thumbnail

AI 스택 이해하기: LLM, RAG, 그리고 하드웨어까지 한 번에 파헤치기

DODOSEE
DODOSEE
조회수 14
요약

AI 클립으로 정리됨

출처 및 참고 : https://www.youtube.com/watch?v=RRKwmeyIc24

Generated imageAI 시스템을 개발할 때, 단순히 답변을 생성하는 것만으로 끝나지 않습니다. 실제로 의미 있는 문제를 해결하려면 여러 가지 중요한 요소들을 제대로 갖춰야 합니다. 예를 들어, 신약 연구자를 지원하는 AI 애플리케이션을 만든다고 해보죠. 최신 논문을 분석해 연구자에게 도움이 되는 결과를 제공하는 일이 그 목적이라면, 단순히 뛰어난 모델 하나만으로는 부족합니다. 지금부터 AI 스택의 여러 레이어를 쉽고 재미있게 살펴보면서, 무엇이 왜 중요한지 알아보겠습니다.

AI 인프라와 하드웨어: 성능의 기반을 결정하는 중요한 선택

AI의 핵심인 대형 언어 모델(LLM)을 실행하려면 특별한 하드웨어가 필요합니다. 일반 사무용 서버의 CPU로는 감당할 수 없고, 대부분 GPU가 요구됩니다. LLM을 어디에 배포할지 세 가지 선택지가 있죠.

  • 온프레미스(On-premise): 자체 서버에 직접 GPU를 장착해 운영합니다. 비용과 관리가 만만치 않지만, 완전한 통제권을 갖게 됩니다.

  • 클라우드(Cloud): 필요한 만큼 GPU 인프라를 빌릴 수 있어 유연하고, 규모 조정도 쉽습니다. 단, 장기적으로 보면 지속적 이용료가 발생할 수 있습니다.

  • 로컬(Local): 최근에는 작은 사이즈의 LLM을 노트북에서도 돌릴 수 있을 만큼 경량화된 모델이 등장했지만, 여전히 일반 노트북의 한계가 분명합니다.

실제로 선택한 하드웨어는 AI 시스템의 처리 속도, 비용, 품질에 직접적인 영향을 미치기 때문에, 개발 목적과 예산을 꼼꼼히 고려해야 합니다.

AI 모델 선택: 오픈소스부터 맞춤형까지 다양한 조합

AI 개발자는 어떤 모델을 쓸지 수많은 옵션을 두고 고민할 수 있습니다. 대표적으로 고려해야 할 점은 세 가지입니다.

  • 오픈 vs. 독점: 오픈소스 모델은 커스터마이즈가 쉽고 무료인 반면, 독점(상용) 모델은 더 강력하거나 특별한 기능을 제공하기도 합니다.

  • 모델 크기: 대형 모델은 더 깊은 추론과 복잡한 작업에 강하지만, 더 많은 하드웨어 자원을 필요로 합니다. 소형 모델은 가볍고 빠르지만 제한된 문제에 최적화되어 있죠.

  • 전문화: 어떤 모델은 추론, 도구 활용, 코드 생성 등 특정 작업에 특화되어 있습니다. 예를 들어 자연어 처리에 강점이 있는 모델과, 여러 언어 지원에 뛰어난 모델이 각각 다르니, 필요한 작업에 맞게 선택해야 합니다.

'허깅페이스(Hugging Face)'처럼 방대한 모델 카탈로그를 갖춘 플랫폼에는 이미 200만 개가 넘는 모델이 등록돼 있으니, 선택의 폭은 무궁무진합니다.

데이터와 RAG: 최신 정보로 AI를 더 똑똑하게

대형 언어 모델에는 '지식 컷오프'라는 한계가 있습니다. 즉, 최신 정보나 특정 데이터는 학습되어 있지 않을 수 있습니다. 그래서 사용자 맞춤형 AI를 만들려면 데이터를 추가해야 하죠.

  • 데이터 소스: 최신 논문, 전문 자료 등 모델이 갖추지 못한 정보를 추가할 수 있습니다.

  • 데이터 파이프라인: 데이터를 전처리, 후처리해 모델이 이해할 수 있는 형태로 가공합니다.

  • 벡터 데이터베이스와 RAG: 외부 데이터를 임베딩 벡터로 변환해 저장합니다. AI가 필요한 정보를 빠르게 찾고, 기존 모델의 지식에 더할 수 있죠. RAG(Retrieval-Augmented Generation)는 이런 데이터를 활용해 더 정확하고 신뢰할 수 있는 답변을 만들어줍니다.

결국, 데이터 레이어를 얼마나 잘 설계하느냐에 따라 AI가 제공하는 정보의 신뢰도와 실용성이 크게 달라집니다.

오케스트레이션: 복잡한 작업을 단계별로 처리하는 전략

복잡한 AI 작업은 단일 프롬프트로 해결되지 않습니다. 예를 들어, "최근 논문을 요약해 줘"라는 요청이 들어온다면, AI는 다음과 같은 단계를 밟을 수 있습니다.

  • 플래닝: 문제 해결 순서를 계획하고 필요한 데이터를 파악합니다.

  • 실행: 도구 활용이나 함수 호출 등 실제 작업을 수행합니다.

  • 자기 검토: 생성된 답변을 스스로 평가하고, 필요하면 개선 과정(피드백 루프)을 거칩니다.

최근에는 MCP 같은 새로운 프로토콜이나, 더욱 정교한 오케스트레이션 설계가 빠르게 발전하면서, 복잡한 요구에도 AI가 대응할 수 있게 됐습니다.

애플리케이션: 사용자가 쉽게 활용할 수 있는 인터페이스와 통합 기능

AI 시스템의 최종 목적은 실제 사용자가 편리하게 쓸 수 있도록 만들어주는 것입니다. 단순히 텍스트 입력·출력뿐 아니라 다음과 같은 요소들이 중요합니다.

  • 인터페이스 다양성: 텍스트 외에도 이미지, 오디오, 숫자 데이터 등 다양한 입력 방식을 지원하면 훨씬 유용해집니다.

  • 수정과 인용: 사용자가 AI의 답변을 직접 수정하거나, 출처를 확인할 수 있어야 신뢰성이 높아집니다.

  • 외부 툴 통합: 사용자가 이미 쓰는 프로그램과 연결해, AI의 결과를 자동으로 반영하거나, 다른 시스템에서 입력값을 보내는 등 업무 흐름에 자연스럽게 연동할 수 있어야 합니다.

잘 설계된 애플리케이션 레이어는 AI의 성능뿐 아니라 실질적인 활용도와 만족도를 좌우합니다.

모든 레이어의 조화가 최적의 AI 솔루션을 만든다

AI 스택은 하드웨어, 모델, 데이터, 오케스트레이션, 애플리케이션, 이 다섯 가지 층이 서로 맞물리며 완성됩니다. 각 층에서 어떻게 선택하고 설계하느냐에 따라 시스템의 품질, 속도, 안정성, 비용 등 모든 요소가 달라집니다.

제가 경험한 바로는, 욕심내서 최신 모델, 다양한 데이터를 넣는 것도 중요하지만 실제 용도에 맞게 균형 있게 설계하는 것이 더 효과적이었습니다. 여러분도 AI 시스템을 구축할 때, 각 레이어가 어떻게 연결되어 있는지 한 번쯤 생각해보고, 내게 필요한 요소부터 차근차근 채워나가면 더 실용적인 결과를 얻을 수 있을 것입니다.

출처 및 참고 :

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.