Meta의 인공지능 LLaMA 출격

페이스북, 인스타그램으로 유명한 Meta에서 대형언어모델 (LLM)을 발표했습니다. 4개의 파운데이션 모델(기초 모델)로 이루어져 있습니다. 70억에서 650억개의 파라미터를 가지고 있는데 gpt-3의 파라미터 개수인 1750억개에 비하면 적은 규모입니다. 그리고 메타의 주장에 따르면 10% 미만의 파라미터로 gpt-3를 능가했다고 합니다.

모델은 7B, 13B, 30B, 65B 모델이 있습니다. github discussion에 따르면 7B를 돌리는데 최소 14GB의 VRAM이 필요하다고 합니다. (inferrence only) Inference on GPU · Issue #4 · facebookresearch/llama 그래도 기존 llm 모델에 비하면 경량 모델입니다.

메타는 LLaMA의 공개성 (openness) 를 강조하고 있는데 이건 조금 더 지켜봐야한다는 게 중론입니다. 왜냐하면 코드를 GPLv3 라이센스로 공개했는데 이건 상업적인 사용에 제한이 있는 라이센스이기 때문입니다. 정말 오픈 구조로 만들려면 가중치(weights), API, 상업용 라이센스 등을 오픈하는 방향으로 가야겠지요.

이로써 메타도 기초 모델 공개에 참여하게 됐네요.

제 생각에는 후발 주자들이 매개 변수가 비교적 적은 규모의 gpt를 컴퓨터에 내려 받아서 사용할 수 있게 하는 전략을 사용할 수 도 있다는 생각이 듭니다. 반대로 빅테크들이 기본 모델을 독점하고 사용권을 내주는 그림도 그릴 수 있겠네요.

참 흥미진진한 AI 판입니다. 근데 이름이 동물 라마랑 비슷하네요 ^^; 하지만 LLaMA는 (Large Language Model Meta AI의 뜻이라고 합니다.

참고로 LLaMa는 위키피디아, 스택익스체인지, ArXiv, CCNet, C4 등의 공개된 텍스트로 학습이 되었다고 합니다.

code는 github에서 확인하실 수 있습니다.

GitHub - facebookresearch/llama: Inference code for LLaMA models