메인 콘텐츠로 건너뛰기

스팟 인스턴스와 마감 기한 최적화 전략 요약

설탕사과
설탕사과
조회수 15
요약

클라우드 컴퓨팅과 스팟 인스턴스

클라우드 서비스는 기업들이 자체 서버 대신 AWS, Azure, GCP 등에서 컴퓨팅 자원을 임대해 쓰도록 도와줍니다. 여기에는 온-디맨드와 스팟 인스턴스 두 가지 자원 타입이 있는데, 스팟 인스턴스는 놀고 있는 자원을 매우 저렴한 가격에 빌려주지만 언제든 회수당할 수 있어 불확실성이 큽니다.

스팟 인스턴스의 특징과 불확실성

스팟 인스턴스는 예측하기 힘든 가용성과 선점(회수) 이슈가 있습니다. 실제 실험에서는 가용 영역마다 인스턴스 사용 가능성이 크게 달랐습니다. 한편 비용 자체는 안정적이어서 예산 관리에는 도움이 됩니다.

마감 기한이 있는 작업의 과제

추천 서비스처럼 얼마 안에 결과가 반드시 나와야 하는 작업은 단순히 싼 자원이 아니라, 마감 기한을 맞추는 것이 중요합니다. 이를 위해서는 작업에 필요한 시간, 남은 시간, 그리고 상태 전환에 드는 추가 비용을 고려해 정책을 설계해야 합니다.

Greedy Policy: 기본 탐욕적 전략

가장 쉬운 전략은 스팟 인스턴스를 주로 쓰다가, 마감이 임박하면 온-디맨드로 전환하는 것입니다. 이때 “안전망 규칙(Safety Net Rule)”이 핵심 역할을 해 마감을 지킬 수 있게 합니다. 이런 탐욕적 방식은 가용성 대비 적당한 비용 절감 효과는 있지만, 최악의 경우 온-디맨드만 쓴 것과 거의 차이 없을 수 있습니다.

비용 분석과 온라인 문제

이 정책은 얼마나 오래 스팟 인스턴스를 쓸 수 있는지 미래를 모르기 때문에 스키 대여 문제와 유사합니다. 이런 상황에서의 경쟁비(최악 대비 실제 성능)는 정책 평가에 쓰입니다. Randomized Shifted Greedy(RSF)처럼 시간을 쪼개서 Greedy 전략을 변형하면 평균적으로 더 나은 결과를 얻을 수 있습니다.

RSF 정책의 장점

RSF는 작업 시간을 여러 구간으로 분리해 각각에 대해 정책을 적용하고, 그 구간마다 온-디맨드와 스팟 자원을 절반씩 사용할 수 있도록 확률적으로 운영합니다. 실험 결과 평균적으로 Greedy보다 더 저렴하게 운영할 수 있었습니다.

Time Sliced & Uniform Progress: 실전 적용 가능한 정책

실제 환경에서는 RSF를 조금 더 현실적으로 바꾼 Time Sliced 정책과, 파라미터 없이 즉시 쓸 수 있는 Uniform Progress 정책이 개발되었습니다. Uniform Progress는 예상 진척치를 계속 따라가도록 온-디맨드 자원과 스팟 자원을 자동으로 전환하는 알고리즘인데, 운영이 아주 간단하고 실용적입니다.

실험과 평가

AWS, GCP에서 다양한 작업에 적용한 결과, 스팟 인스턴스 활용률이 높을수록 Greedy 정책 대비 상당한 비용 절감이 가능했습니다. 특히 Uniform Progress는 비용 절감과 마감 기한 준수 모두에서 뛰어난 성능을 보여줬으며, 마감이 촉박하고 자원 관리가 어려운 상황에도 믿고 사용할 수 있었습니다.

문제 해결의 중요성

실제 논문의 저자는 마감 기한에서 온-디맨드 사용비율이 과하게 올라가는 위기를 인지하고 이를 체계적으로 해결했습니다. 이런 문제 인식과 분석이 곧 혁신의 시작임을 보여줍니다.

참고: SkyPilot 프레임워크

이 논문 아이디어는 이미 SkyPilot라는 ML 및 데이터 분석 프레임워크에 적용되어 효과를 입증했습니다. SkyPilot은 클라우드 자원비 절감에 관심 있다면 주목해볼 만한 솔루션입니다.


출처 : 스팟 인스턴스를 활용한 클라우드 비용 절감 전략. AWS로부터 시작된 클라우드 컴퓨팅의 개념이 등장한 이후부터 기업은… | by scalalang2 | 취미로 논문 읽는 그룹 | Medium