자원이 부족한 엣지 장치에서 70B 규모 LLM을 효율적으로 서빙하기 [pdf]

2024-10-03

제목: "저자원 엣지 장치에서 70B 규모 LLM을 효율적으로 제공하기"
대규모 모델 추론이 사용자 데이터 프라이버시 걱정으로 클라우드에서 엣지로 이동 중.
엣지 장치는 종종 제한된 컴퓨팅 파워, 메모리, 대역폭을 가짐.
여러 장치 간 협업이 필요하지만 파이프라인 병렬 처리는 단일 사용자 시나리오에 비효율적.
텐서 병렬 처리는 빈번한 통신 문제가 있음.
텐서 병렬 처리가 저자원 장치에서 더 효과적일 수 있음을 주장.
TPI-LLM: 70B 규모 모델을 위한 컴퓨팅 및 메모리 효율적인 텐서 병렬 추론 시스템 소개.
민감한 원시 데이터를 사용자 장치에 로컬로 유지.
슬라이딩 윈도 메모리 스케줄러 도입으로 추론 중 레이어 가중치를 동적으로 관리.
디스크 I/O 지연을 계산 및 통신과 겹쳐 사용.
메모리 제한 장치에서도 대형 모델이 원활히 작동.
통신 병목은 대역폭이 아닌 링크 지연이 주요 이슈로 분석됨.
스타 기반 allreduce 알고리즘 구현.
실험 결과:
- Accelerate 대비 첫 토큰 응답 시간 및 토큰 지연 시간 80% 이상 단축.
- Transformers 및 Galaxy 대비 90% 이상 단축.
- Llama 2-70B의 메모리 사용량 90% 절감, 70B 규모 모델에 3.1GB 메모리만 필요.

3arxiv.org링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.