LLM 연구에 있어 주요한 10가지 도전 - 미래의 AI 앱

Open challenges in LLM research 이라는 Chip Huyen의 글을 읽고 요약을 남깁니다. AI 앱이나 서비스를 만들거나 연구하는 분들이 읽으면 좋은 글인것 같습니다. 생각해 볼만한 토픽이 정말 많습니다.

환영(hallucination) 줄이기 및 측정하기:
- 환영: AI가 임의로 내용을 만드는 것.
- 회사에서 LLM 채택의 주요 장애물.
- 환영을 측정하고 완화하기 위한 지표가 필요.
문맥 길이와 구조 최적화:
- 정확한 응답을 위해 문맥(context)이 중요.
- RAG (Retrieval Augmented Generation)는 더 나은 답변을 위해 문맥을 사용.
- 문맥 길이와 효율성 사이의 균형이 중요.
다른 데이터 모달리티 포함 (다중 모달, multimodality):
- 더 풍부한 데이터를 위해 텍스트, 이미지, 비디오 등 결합.
- 모델 성능 향상의 잠재력.
- 의료, 전자 상거래 등에서 응용. (진료, 차트 데이터 등)
LLM을 더 빠르고 저렴하게 만들기:
- 메모리 사용량과 대기 시간 줄이기.
- 양자화(Quantization), 지식 증류(Knowledge distillation), 저랭크 인수분해(Low-rank factorization)와 같은 기술 사용.
새로운 모델 아키텍처 설계:
- 도전: Transformer 아키텍처를 능가하는 것.
- 새로운 아키텍처는 현재 하드웨어에서 효율적이어야 함.
GPU 대체품 개발:
- GPU가 딥러닝을 지배; 대안이 등장 중.
- 양자 컴퓨팅(Quantum computing)과 광자 칩(photonic chips)이 잠재적 방향.
에이전트 사용 가능하게 만들기:
- 에이전트: 행동을 취할 수 있는 LLM.
- 도전: 신뢰성과 성능 보장.
- 대표적인 예 : Auto-GPT, GPT-Engineering
사람의 선호에서 학습 향상 (Improve learning from human preference) :
- 사람의 선호를 정의하고 표현. (RLHF)
- 훈련 데이터의 문화적, 인구 통계적 편향 처리. (Instruct GPT의 경우 필리핀인과 방글라데시인 라벨러가 각각 22%로 1,2위를 차지함)
채팅 인터페이스의 효율성 향상:
- 채팅을 주요 인터페이스로서의 논쟁.
- 다중 모달 입력 및 메시지 편집과 같은 개선이 필요.
영어가 아닌 언어용 LLM 구축:

영어가 아닌 언어에 대한 성능 문제 해결.
사용자의 문화적 및 언어적 다양성을 고려.

내 생각

생각해 볼만한 주제가 많다. 광자칩(photonic chip)과 같은 키워드는 처음 들어봤는데 데이터를 이동할 때 기존의 전기가 아닌 광자를 이용하는 것이라고 한다.

내가 관심있는 것은 RAG와 Agent이다.

Retrieval은 한계가 있다고 생각했는데 똑똑한 사람들의 이야기를 들어보면 굉장히 중요하게 생각하는 것 같다.

Agent는 LLM이 특정 역할을 수행하는 것이다. 스탠포드의 인공지능 에이전트 시뮬레이션 마을 실험을 보면 아직 실용성에 있어서는 의문이 생기지만 가까운 미래에는 AI agent 들이 서로 상호작용하는 것이 인터넷의 영토에 큰 부분을 차지하게 될 것 같다.

또 Adept의 ACT-1을 보면 우리가 사용하는 주요 도구 중 하나가 될 것이라는 것이 분명해 보인다. LLM이 내 화면을 보며 바로 명령을 내릴 수 있는 것이 주요 인터페이스가 될 것이다. 아래 동영상은 act-1이 작동하는 영상인데 꼭 한번 봤으면 좋겠다.