약함에서 강함 일반화
OpenAI weak-to-strong generalization AI 요약.
인공지능 시스템들을 인간이 학습시키기 위해서는, 인간들보다 훨씬 똑똑한 AI 시스템을 인간들이 감독하는 것이 필요하다는 것이 공통적인 난제이다.
연구진들은 작은 모델이 큰 모델을 감독할 수 있는지에 대한 단순한 유추를 조사했다.
GPT-2 수준의 모델을 사용해서 GPT-4의 대부분 능력을 유도할 수 있다는 것을 보여주며, GPT-3.5 수준의 성능을 가지며 작은 모델이 실패한 어려운 문제에 대해서도 올바르게 일반화할 수 있다는 것을 나타냈다.
현재 인간이 AI 시스템을 감독하는 방법은 최신모델이 아주 복잡하고 창의적인 행동을 수행하기 때문에 신뢰할 수 없는 부분이 있다.
작은 모델이 큰 모델을 감독할 수 있는지를 연구하여, 미래의 초인공지능 모델을 정렬하는 중요한 과제를 직접 다룰 수 있는 새로운 연구 방향을 제시한다.
약한 감독자인 인간이 강력한 모델을 신뢰하고 통제하는 것이 초인공지능 정렬을 위한 핵심 도전 과제이다.
연구진들은 작은 모델이 큰 모델을 감독할 수 있는 유사성을 제시하며, 작은 모델은 완전하지 않거나 잘못된 학습 라벨을 제공하는 어려운 문제에 대해서도 완전한 역할을 수행할 수 있는지를 검증한다.
실험 결과, GPT-2 모델을 GPT-4를 미세 조정함으로써 NLP 작업에 대한 일반화 능력을 크게 향상시킬 수 있었다.
하지만 이 방법은 ChatGPT preference 데이터에는 아직 동작하지 않는 등 제한 사항이 있다.
연구진들은 앞으로도 단순한 방법 외에도 최적 조기 중지, 작은 모델에서 중간 모델, 큰 모델까지 부트스트래핑 등 다른 접근 방식에도 삶의 징조를 발견했다.
앞으로의 연구 방향은 현재의 경험적인 상황과 미래의 초인공지능 모델 정렬의 궁극적인 문제 간의 중요한 차이점들을 수정하고, 더 나은 확장 가능한 방법을 개발하고, 좋은 약한-강한 일반화를 언제 어떻게 기대해야 하는지에 대한 과학적 이해를 개척하는 것이다.
연구진은 알리어와 함께 약간의 제한을 가진 프로세스에서 나온 결과이지만, 이를 시작점으로 미래의 초인공지능 모델 정렬에 관한 연구를 촉진하기 위해 오픈 소스 코드와 1000만 달러의 보조금 지원 프로그램을 발표한다.
https://openai.com/research/weak-to-strong-generalization
=> snip 으로 보기 Weak-to-strong generalization | Snippod