검색
검색
회원가입로그인

약함에서 강함 일반화

OpenAI weak-to-strong generalization AI 요약.

  • 인공지능 시스템들을 인간이 학습시키기 위해서는, 인간들보다 훨씬 똑똑한 AI 시스템을 인간들이 감독하는 것이 필요하다는 것이 공통적인 난제이다.

  • 연구진들은 작은 모델이 큰 모델을 감독할 수 있는지에 대한 단순한 유추를 조사했다.

  • GPT-2 수준의 모델을 사용해서 GPT-4의 대부분 능력을 유도할 수 있다는 것을 보여주며, GPT-3.5 수준의 성능을 가지며 작은 모델이 실패한 어려운 문제에 대해서도 올바르게 일반화할 수 있다는 것을 나타냈다.

  • 현재 인간이 AI 시스템을 감독하는 방법은 최신모델이 아주 복잡하고 창의적인 행동을 수행하기 때문에 신뢰할 수 없는 부분이 있다.

  • 작은 모델이 큰 모델을 감독할 수 있는지를 연구하여, 미래의 초인공지능 모델을 정렬하는 중요한 과제를 직접 다룰 수 있는 새로운 연구 방향을 제시한다.

  • 약한 감독자인 인간이 강력한 모델을 신뢰하고 통제하는 것이 초인공지능 정렬을 위한 핵심 도전 과제이다.

  • 연구진들은 작은 모델이 큰 모델을 감독할 수 있는 유사성을 제시하며, 작은 모델은 완전하지 않거나 잘못된 학습 라벨을 제공하는 어려운 문제에 대해서도 완전한 역할을 수행할 수 있는지를 검증한다.

  • 실험 결과, GPT-2 모델을 GPT-4를 미세 조정함으로써 NLP 작업에 대한 일반화 능력을 크게 향상시킬 수 있었다.

  • 하지만 이 방법은 ChatGPT preference 데이터에는 아직 동작하지 않는 등 제한 사항이 있다.

  • 연구진들은 앞으로도 단순한 방법 외에도 최적 조기 중지, 작은 모델에서 중간 모델, 큰 모델까지 부트스트래핑 등 다른 접근 방식에도 삶의 징조를 발견했다.

  • 앞으로의 연구 방향은 현재의 경험적인 상황과 미래의 초인공지능 모델 정렬의 궁극적인 문제 간의 중요한 차이점들을 수정하고, 더 나은 확장 가능한 방법을 개발하고, 좋은 약한-강한 일반화를 언제 어떻게 기대해야 하는지에 대한 과학적 이해를 개척하는 것이다.

  • 연구진은 알리어와 함께 약간의 제한을 가진 프로세스에서 나온 결과이지만, 이를 시작점으로 미래의 초인공지능 모델 정렬에 관한 연구를 촉진하기 위해 오픈 소스 코드와 1000만 달러의 보조금 지원 프로그램을 발표한다.

https://openai.com/research/weak-to-strong-generalization

=> snip 으로 보기 Weak-to-strong generalization | Snippod

조회수 : 69
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기