메인 콘텐츠로 건너뛰기

과학 AI, 서로 다른 공부를 했는데도 같은 ‘물질의 그림’을 본다?

연구실에서 전혀 다른 교과서를 보고 공부한 두 학생이 있다고 해보겠습니다. 한 명은 화학 교과서로 분자를 외우고, 다른 한 명은 3D 모델링으로 원자 구조만 죽어라 봅니다. 또 다른 학생은 단백질 서열만 텍스트로 달달 외웠죠.

그런데 시험을 쳐보니, 세 사람 머릿속에 떠올리는 ‘물질의 내부 그림’이 놀랍게도 비슷한 겁니다.

MIT 연구진이 과학용 AI 모델들을 대상으로 실제로 비슷한 일을 했고, 거의 같은 결과를 얻었습니다. 서로 다른 데이터, 다른 구조로 학습한 59개의 과학 AI가 물질과 재료, 단백질에 대해 상당히 비슷한 내부 표현을 갖게 된다는 사실을 보여준 겁니다.12

이 글에서는

  • 이 연구가 말하는 “AI의 공통된 물질 그림”이 무엇인지

  • 왜 성능 좋은 모델일수록 더 비슷해지는지

  • 그런데도 왜 여전히 ‘새로운 물질’ 앞에서는 무너지는지

  • 이게 앞으로 과학·의약·신소재 AI에 어떤 의미가 있는지

를 쉽게 풀어보겠습니다.


서로 다른 과학 AI가 같은 ‘공통 언어’를 배우고 있다

MIT 연구팀은 화학·재료·단백질을 다루는 다양한 AI 모델 59개를 모았습니다.13

여기에는 이런 부류가 섞여 있습니다.

  • 분자를 문자열(SMILES 같은 코드)로 받아들이는 텍스트 기반 모델

  • 원자들의 3D 좌표를 직접 처리하는 물리 기반 모델(MLIP, 기계학습 포텐셜)

  • 단백질 아미노산 서열을 읽는 생물학 모델

  • 심지어 범용 대형 언어 모델(DeepSeek, Qwen 등)도 포함3

각 모델은 입력과 구조가 완전히 다릅니다.
어떤 모델은 “C1=CC…” 같은 화학 문자열을 보고,
어떤 모델은 “x, y, z 좌표”만 보고,
어떤 모델은 “MKTFF…” 같은 단백질 서열을 봅니다.

연구진이 한 일은 단순하지만 강력합니다.

  1. 같은 물질(분자, 소재, 단백질)을 모든 모델에게 각각 입력합니다.

  2. 각 모델이 내부에서 만들어낸 벡터 표현(일명 임베딩, latent representation)을 꺼냅니다.

  3. 이 벡터들을 통계적으로 비교해서, 서로 얼마나 비슷한 구조를 하고 있는지 측정합니다.23

결과는 의외였습니다.

  • 같은 분자나 비슷한 화학계에 대해, 모델들이 만들어내는 내부 표현이 서로 강하게 정렬(alignment) 되어 있었습니다.1

  • 특히 3D 좌표를 쓰는 모델끼리는 서로 잘 맞고, 텍스트/문자열 기반 모델끼리도 잘 맞았습니다.3

  • 더 놀라운 부분은, 입력 포맷이 완전히 다른 모델끼리도 “완전 낯선 세계”는 아니었다는 점입니다. 서로 겹치는 부분이 분명히 보였습니다.

연구진의 해석은 이렇습니다.

“입력 데이터와 아키텍처가 달라도, 결국 물리 세계는 하나라서, 잘 학습된 모델들은 비슷한 ‘물질의 공통 좌표계’를 배운다.”

일종의 “공통된 과학 언어”를 AI가 스스로 형성하고 있다는 이야기죠.


성능이 좋을수록, 더 비슷한 ‘현실 지도’를 가진다

여기서 연구팀이 재미있는 패턴을 하나 더 발견합니다.

모델의 성능과 내부 표현의 정렬 정도를 함께 찍어보니,
성능이 좋을수록 표현이 서로 더 비슷해지는 경향이 나타난 겁니다.13

실험 중 하나는 이렇습니다.

  • 여러 3D 기반 에너지 예측 모델(MLIP)의 “에너지 예측 오차(MAE)”를 x축에 두고,

  • 각 모델의 표현이 기준 모델(UMA Medium 같은 강력한 모델)과 얼마나 정렬되는지 y축에 두었습니다.3

점들을 찍어보니, 오차가 줄어들수록(=실력이 좋아질수록) 기준 모델과의 정렬이 강해지는 뚜렷한 추세가 나왔습니다.

즉,

  • 성능이 좋은 모델들끼리는 서로 비슷한 표현 공간으로 수렴(convergence) 하고,

  • 성능이 떨어지는 모델들은 제각각의 “지역 최적해(local optimum)”에 갇혀 다른 방향으로 새는 모습입니다.1

연구팀은 이것을 두 가지 “모델 세계”로 나눠 설명합니다.2

  1. 강자들의 세계

    • 훈련 데이터와 비슷한 범위의 입력에 대해

    • 상위권 모델들은 거의 같은 표현 공간을 공유

    • “현실에 더 가까운 공통 지도”에 서로 모여드는 느낌

  2. 약자들의 세계

    • 같은 데이터라도 학습이 충분하지 않거나 구조가 부족한 모델들은

    • 공통 지도까지 도달하지 못하고,

    • 자기들만의 이상한 좌표계(=전이 잘 안 되는 표현)에 머무름

흥미롭게도, 표현의 “복잡도”를 나타내는 지표(내재 차원 Id 등)를 봤을 때도, 성능 좋은 모델들은 서로 비슷한 영역에서 놀았습니다.2
즉, 잘하는 모델들끼리는 “표현의 차원 수와 구조”까지도 유사해지는 경향을 보인다는 거죠.

이걸 연구진은 더 큰 맥락에서 “보편적 표현(universal representations)”이 등장하는 초기 증거로 보고 있습니다.1


하지만 새로운 물질 앞에선, 다 같이 ‘바보’가 된다

여기까지 들으면, “오, 그럼 곧 과학용 GPT가 나오겠네?” 라고 생각하기 쉽습니다.

문제는 새로운 구조입니다.

연구팀은 의도적으로, 훈련 데이터와 확실히 다르게 생긴 물질·구조를 모델들에게 던져봤습니다.1

예를 들어,

  • 학습 때 거의 보지 못한 결정 구조,

  • 새로운 유형의 분자 패턴,

  • 통계적으로 멀리 떨어진 화학 구성 등입니다.

이때 어떤 일이 벌어졌냐면,

  • 거의 모든 모델의 내부 표현이 “저정보(low-information)” 상태로 붕괴했습니다.1

  • 화학적으로 중요한 차이들을 표현하지 못하고,

  • 서로 다른 물질을 거의 비슷하게 느끼는 것처럼 표현이 뭉개졌습니다.

다시 말해,

  • 익숙한 영역에서는 “공통의 정교한 지도”를 잘 쓰다가,

  • 낯선 영역에 오면 모두가 “대충 스케치한 지도 한 장”으로 퇴행해 버리는 셈입니다.

이건 다른 연구들에서도 반복해서 관찰되는 패턴입니다.

  • 단백질-리간드 결합 예측(도킹/스코어링) 모델들도, 훈련에 없던 새로운 단백질 타깃에서는 성능이 뚝 떨어지는 일이 자주 보고됩니다.4

  • 일반적인 벤치마크에서는 점수가 좋아도, 진짜 새로운 표적(신규 타깃)에 대해선 전혀 일반화가 안 되는 경우가 많다는 분석도 있습니다.4

또 하나 흥미로운 건,
최근 발표된 SDE(Scientific Discovery Evaluation) 벤치마크 같은 곳에서도,

  • 어려운 과학 질문에 대해 최신 모델들이 “같은 틀린 답”을 내놓는 경향이 관찰됐다는 점입니다.3

즉,

  • 쉬운 영역에서는 잘 맞게 수렴하고,

  • 어려운 영역에서는 틀릴 때도 다 같이 비슷하게 틀리는,
    또 다른 형태의 “수렴”이 나타나는 겁니다.


진짜 ‘과학용 GPT’를 만들려면, 데이터와 기준부터 바꿔야 한다

MIT 연구진은 중요한 결론을 하나 내립니다.

지금의 재료·물질 AI 모델들은 아직 진정한 의미의 ‘파운데이션 모델’이 아니다.2

이유는 명확합니다.

  1. 훈련 데이터에 너무 의존

    • 표현이 “물리 법칙”이라기보다는,

    • 주어진 데이터 분포에 맞춘 통계적 패턴에 가깝습니다.1

  2. 훈련 분포 밖(OOD)에서는 표현 붕괴

    • 새로운 물질, 새로운 구조를 만나면

    • 화학 정보를 잘 유지하지 못하고 “저정보 표현”으로 후퇴합니다.1

연구진이 제안하는 해결책은 크게 두 가지입니다.

1) 훨씬 더 다양한 데이터

  • 지금까지의 재료·분자 데이터셋은 특정 타입에 편중되어 있습니다.
    예: 특정 결정 구조, 자주 연구되는 물질 계열, 인기 있는 단백질 패밀리 등

  • 새로운 물질, 새로운 상(phase), 새로운 결합 양식을 충분히 포함한 대규모·다양한 데이터셋이 필요합니다.13

이미 다른 분야에서도 비슷한 목소리가 나옵니다.

  • 신약 설계 쪽에서는 “특정 단백질군(예: 키나제, 프로테아제)에 너무 치우친 데이터 때문에, 새 타깃으로의 일반화가 거의 안 된다”는 비판이 꾸준히 제기되고 있고,4

  • 신소재 분야에서도 “시뮬레이션으로 수백만 물질을 만들어냈지만, 실제로 유용·안정한 물질은 거의 없다”는 평가가 나옵니다.5

2) 성능 점수 말고, ‘표현 정렬’을 새로운 기준으로

MIT 팀은 “표현 정렬(representational alignment)”을 새로운 벤치마크 지표로 쓰자고 주장합니다.1

지금은 보통

  • RMSE, MAE 같은 예측 오차

  • 정확도, AUROC 같은 분류 지표
    로 모델의 실력을 평가합니다.

여기에 더해,

  • “이 모델이 다른 강력한 모델들과 표현 공간에서 얼마나 잘 정렬되어 있는가?”
    를 보는 지표를 함께 쓰자는 겁니다.

이 기준을 적용하면,

  • “성능도 좋고, 다른 상위 모델들과 표현이 잘 맞는 모델”을 진짜 파운데이션 후보로 보고,

  • 성능은 괜찮아 보이지만 표현이 동떨어진 모델은 “편향된 꼼수 학습”일 가능성이 있다고 경계할 수 있습니다.12

장기적으로는,

  • 표현 정렬을 이용해 서로 다른 모달리티(텍스트, 그래프, 3D 구조, 단백질 서열 등)를 잇는

  • “크로스모달 과학 모델”을 고르고,

  • 잘 정렬된 표현만 추려서 distillation(지식 증류)하는 것도 가능해집니다.1


우리에게 주는 시사점: 과학, AI, 그리고 ‘같이 틀리는’ 위험

이 연구는 단순히 “AI가 멋지다”로 끝낼 이야기가 아닙니다. 실제로는 꽤 현실적인 경고를 담고 있습니다.

첫째, AI가 맞출 때도, 틀릴 때도 이유가 비슷해질 수 있다는 점입니다.

  • 상위 모델들이 같은 표현 공간으로 수렴한다는 건,

    • 장점: 서로 잘 통하고, 전이학습·멀티모달 통합이 쉬워진다는 뜻이지만,

    • 단점: 특정 편향이나 오류가 생겼을 때, 모든 모델이 비슷하게 잘못 이해할 위험도 커진다는 뜻입니다.3

둘째, 생각보다 훨씬 더 “데이터 한계”에 묶여 있다는 사실입니다.

  • 많은 홍보에서 “AI가 새로운 물질을 발견한다”고 말하지만,

  • 실제로는 훈련 데이터 주변에서만 잘 일반화하고,

  • 진짜 새로운 화학 영역에선 사람보다 못한 경우도 적지 않습니다.5

셋째, 실무에서 AI를 쓸 때의 태도를 바꿔야 한다는 메시지도 줍니다.

  • 신약 개발이나 신소재 발굴에서

    • “AI가 추천했으니 맞겠지”가 아니라,

    • “이 물질이 훈련 데이터 분포에서 얼마나 벗어났는가?”를 같이 봐야 합니다.

  • 훈련 분포 밖으로 나갈수록,

    • AI의 “자신감 있는 헛소리(confident nonsense)” 가능성이 급격히 증가합니다.

그래도 희망적인 메시지도 분명합니다.

  • 서로 다른 AI가 같은 ‘물질의 내부 언어’로 수렴한다는 건,

    • 장기적으로는 진짜 의미의 “과학용 파운데이션 모델”을 만들 수 있다는 신호이기도 합니다.13

  • 이미 단백질·화학 분야에서는

    • 구조 정보(AlphaFold2 같은),

    • 언어 모델 표현,

    • 3D 원자 표현을 동시에 쓰는 하이브리드 모델이 등장하면서,

    • 이전보다 훨씬 잘 일반화하는 결과도 보고되고 있습니다.6


마무리: 지금은 ‘초기 버전’… 그러나 방향은 분명하다

정리해보면 이렇습니다.

  1. 서로 다른 데이터와 구조로 학습한 과학 AI 모델들이,

    • 물질·재료·단백질에 대해 놀랍도록 비슷한 내부 표현을 학습하고 있습니다.13

  2. 성능이 좋을수록,

    • 이 표현은 서로 더 강하게 수렴하며,

    • 마치 “공통된 물리 현실의 좌표계”를 공유하는 것처럼 보입니다.1

  3. 하지만 훈련 데이터와 많이 다른 새로운 구조를 만나면,

    • 거의 모든 모델이 화학 정보를 잃고

    • 저정보 표현으로 붕괴하는 한계도 뚜렷합니다.14

  4. 진짜 과학 파운데이션 모델을 만들려면,

    • 훨씬 더 다양한 데이터셋과

    • 단순 성능 지표를 넘어선 “표현 정렬” 같은 새로운 평가 기준이 필요합니다.12

개인적으로 이 연구가 주는 가장 큰 메시지는 두 가지입니다.

  • 과대평가를 줄이자

    • “AI가 이미 과학을 이해했다”는 식의 과장은 위험합니다.

    • 지금 모델들은 “현실 전체”가 아니라, “본 적 있는 세상” 안에서만 똑똑합니다.

  • 그럼에도 방향은 맞다

    • 서로 다른 모델이 같은 ‘물질 언어’로 모여드는 현상은 분명 의미가 큽니다.

    • 데이터와 평가 방식을 제대로 고쳐나간다면,

    • 과학 연구의 공통 토양이 되는 “과학용 GPT”에 점점 가까워질 가능성이 있습니다.

앞으로 과학·재료·바이오 분야에서 AI를 활용할 계획이 있다면,

  • “이 모델이 어떤 데이터를 보고 자랐는지”,

  • “내 문제는 그 데이터에서 얼마나 벗어나 있는지”,

  • “다른 모델과 표현이 얼마나 잘 맞는지”

이 세 가지 질문을 꼭 함께 던져보길 권합니다.
AI가 어디까지 믿을 수 있고, 어디부터는 사람이 더 깊게 개입해야 하는지 감을 잡는 데 큰 도움이 될 겁니다.


참고

1Universally Converging Representations of Matter Across Scientific Foundation Models](https://arxiv.org/abs/2512.03750)

2Universally Converging Representations of Matter Across Scientific Foundation Models (HTML)](https://arxiv.org/html/2512.03750v1)

3Scientific AI models trained on different data are learning the same internal picture of matter, study finds](https://the-decoder.com/scientific-ai-models-trained-on-different-data-are-learning-the-same-internal-picture-of-matter-study-finds/)

4Generalization Beyond Benchmarks: Evaluating Learnable Protein-Ligand Scoring Functions on Unseen Targets](https://arxiv.org/html/2512.05386)

5AI materials discovery now needs to move into the real world](https://www.technologyreview.com/2025/12/15/1129210/ai-materials-science-discovery-startups-investment/)

6Generalizable compound protein interaction prediction with a model incorporating protein structure aware and compound property aware language model representations](https://www.nature.com/articles/s42004-025-01844-0)

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.