자원이 부족한 엣지 장치에서 70B 규모 LLM을 효율적으로 서빙하기 [pdf]
- 제목: "저자원 엣지 장치에서 70B 규모 LLM을 효율적으로 제공하기"
- 대규모 모델 추론이 사용자 데이터 프라이버시 걱정으로 클라우드에서 엣지로 이동 중.
- 엣지 장치는 종종 제한된 컴퓨팅 파워, 메모리, 대역폭을 가짐.
- 여러 장치 간 협업이 필요하지만 파이프라인 병렬 처리는 단일 사용자 시나리오에 비효율적.
- 텐서 병렬 처리는 빈번한 통신 문제가 있음.
- 텐서 병렬 처리가 저자원 장치에서 더 효과적일 수 있음을 주장.
- TPI-LLM: 70B 규모 모델을 위한 컴퓨팅 및 메모리 효율적인 텐서 병렬 추론 시스템 소개.
- 민감한 원시 데이터를 사용자 장치에 로컬로 유지.
- 슬라이딩 윈도 메모리 스케줄러 도입으로 추론 중 레이어 가중치를 동적으로 관리.
- 디스크 I/O 지연을 계산 및 통신과 겹쳐 사용.
- 메모리 제한 장치에서도 대형 모델이 원활히 작동.
- 통신 병목은 대역폭이 아닌 링크 지연이 주요 이슈로 분석됨.
- 스타 기반 allreduce 알고리즘 구현.
- 실험 결과:
- Accelerate 대비 첫 토큰 응답 시간 및 토큰 지연 시간 80% 이상 단축.
- Transformers 및 Galaxy 대비 90% 이상 단축.
- Llama 2-70B의 메모리 사용량 90% 절감, 70B 규모 모델에 3.1GB 메모리만 필요.
3arxiv.org링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.