인공지능 모델의 성능 경쟁은 언제쯤 끝날까?

인공지능 GPT 모델의 성능 경쟁의 끝은 어디인가?

2024년 3월 4일, 앤트로픽에서 Claude 3 모델을 공개했다.

Introducing the next generation of Claude

모든 태스크에서 기존 GPT-4 의 성능을 뛰어넘는 것으로 주장하고 있다.

앤트로픽은 OpenAi 출신 엔지니어들이 나와서 새롭게 설립한 회사다.

당분간은 LLM의 성능 경쟁이 계속될 것이고, 조만간 LLM 모델의 벤치마크 점수가 인간 전문가의 수준과 유사해지는 수준을 목격할 수 있을 것이다.

그리고 거기서 끝이 아닐 것이다. 인간의 수준을 넘어서는 성능 경쟁이 계속될 수도 있다고 본다.

예컨대 모델의 성능 평가 항목 중에 HumanEval 이라는 것이 있다. 여기서 100%란 무엇인가.

인간의 기대 수준을 완전히 충족한다는 뜻일 것이다. 하지만 인간이 정한 기준이 '절대적 완벽'은 아닐 수 있다.

예컨대 요약과 같은 태스크에서 '완벽'이란 가상의 개념이며, 어떤 측면에서는 나쁜 요약이 또 다른 측면에서는 더 좋은 요약일 수도 있다. 따라서 인간 지능의 다양한 측면을 만족시켜주는 훌륭한 모델의 성능 경쟁은 계속될 것이다.

또한 인간의 추론 능력에는 한계가 있다. 인공지능 모델은 3단 추론을 넘어서, 4단, 5단, N단계의 추론을 가볍게 해낼 수 있는 시대가 올지도 모른다. 그렇다면 그 모델은 사람이 발견하지 못한 새로운 사실, 인과관계 등을 발견해낼지도 모르는 일이다.

그러나 개인적으로는 그런 성능 경쟁이 무한히 계속되지는 않을 것이라 본다.

어떤 모델이나 서비스가 시장의 킬러앱으로 나와서 대부분의 시장을 점유한다면 성능 경쟁은 서서히 잦아들 것이 자연스러운 현상이고 시장의 논리일 것이다. 모델의 성능 경쟁에는 시간과 비용이 소모되므로 개발 주체가 손익을 생각하는 시기가 자연히 도래할 것이다. (물론 시장의 관점에서는 그러하지만, 국가 차원에서는 계속 연구될지도 모른다.)

그렇다면 다시 물음은, 미래의 그 모델이 시장을 장악하는 시기가 언제인가로 귀결된다.

당연히 현재 그 물음에 자신있게 대답할 수 있는 사람은 없지만, 비유를 써서 예측해 보자면,

스마트폰이 서서히 사람들의 손과 동화된 것처럼, AI모델이 사람들의 브레인과 동화되는 시기가 바로 그때가 아닐까.

여기서 비유적으로 말한, 브레인과 동화된다는, 매일 사람들이 그것과 함께 생각하고 생활하고, 그것과 더불어 살기에, 그것이 없으면 안되는 시기의 모습이지 않을까. 그런 모습을 상상해 본다면, 아직은 잘 와 닿지 않지만 스마트폰이 사람들의 생활 양식을 바꾼 그 시간보다는 짧지 않을까 추측해 본다.