다른 데이터를 학습한 과학적인 AI 모델들이 물질에 대한 동일한 내부 그림을 학습하고 있다는 연구 결과
- MIT 연구진이 59개의 과학 AI 모델을 비교한 결과, 서로 다른 데이터와 구조에 기반해 학습한 모델들이 물질, 재료, 단백질에 대해 유사한 내적 표현을 만들어낸다는 사실을 발견함.
- 일부 모델은 분자를 코딩된 문자열로 받고, 다른 모델은 3D 원자 좌표를 처리하며, 또 다른 모델은 단백질 서열을 다룸. 그러나 각기 다른 데이터를 학습했음에도 불구하고 유사한 이해를 공유하게 됨.
- 해당 연구는 각 모델의 내적 표현을 추출하여 비교하는 방식으로 진행되었으며, 성능이 좋은 모델일수록 이 표현들이 서로 더 강하게 수렴한다는 것을 밝혀냄.
- 고성능 모델일수록 물리적 현실에 대한 공유된 표현을 학습한다는 증거를 제시. 내적 표현의 복잡성도 모든 모델 간에 유사한 범위 내에 존재함을 확인.
- 하지만 새로운 구조나 훈련 데이터와 상당히 다른 경우 거의 모든 모델이 실패, 화학적 정보를 잃어버림.
- 일반화의 한계를 극복하기 위해서는 더 다양한 데이터셋이 필요하며, 연구팀은 표현 정렬을 새로운 기준으로 제안함.
- 현재의 AI 모델이 훈련 데이터 외의 시나리오에서 일반화에 실패하는 문제를 보여주고 있음. 이 문제는 특히 구성 작업에서 두드러짐.
- 최신 연구는 화학 및 생물학용 AI 시스템이 보편적 표현으로 수렴할 가능성이 있음을 시사함.
- 과학적 연구를 위한 SDE 벤치마크에서도 모델들이 어려운 질문에 대해 동일한 잘못된 답을 자주 내놓는다는 또 다른 형태의 수렴이 관찰됨.
5the-decoder.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약 한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
