GPT 5.2 시대, 회사는 무엇을 바꿔야 할까

퇴근 후 혼자 GPT에 업무 엑셀을 던져 보정받던 시절은 거의 끝났습니다. 이제는 회사 차원에서 "어느 모델을 표준으로 삼을 것인가"를 결정해야 하는 국면에 들어섰기 때문입니다. 이번 GPT 5.2 공개는 단순한 성능 향상이 아니라, 어떤 종류의 일을 사람 대신 맡길 수 있는지가 한 단계 바뀌었다는 신호에 가깝습니다.

GPT 5.2가 진짜로 바꾼 것들

많은 분들이 "또 점수 몇 퍼센트 오른 거 아닌가"라고 느끼실 수 있습니다. 이번에는 그 수준을 조금 넘습니다. 특히 ARC AGI2와 장기 문맥, 코드·툴 연쇄 사용 쪽에서의 변화가 눈에 띄게 큽니다.

벤치마크 숫자보다 중요한 방향성

GPT 5.2는 Swebench Pro, GPQA Diamond 같은 전통적인 벤치마크에서 소폭이지만 꾸준한 상승을 보여줍니다. 수치만 보면 기존의 상위 모델 대비 몇 퍼센트 차이 정도로 보일 수 있습니다. 그러나 ARC AGI2 점수가 17%대에서 50%를 훌쩍 넘어 52.9% 수준으로 오른 부분이 핵심입니다. 같은 연구팀이 검증한 별도 설정에서는 90%대 점수에, 작업당 비용이 1만 달러 단위에서 10달러 안팎으로 떨어졌습니다. 거의 연구용 데모에서 실무 투입 가능한 장비로 넘어온 셈입니다.

여기서 많이들 놓치는 부분이 있습니다. ARC AGI2는 단순 지식 문제 풀이가 아니라, 처음 보는 규칙을 스스로 찾아내고 일반화하는 능력을 재보는 테스트에 가깝습니다. 점수가 조금만 올라가도 체감이 크고, 3배 가까운 점프는 "이제 규칙 기반 업무 자동화를 새로 설계해야 한다"는 메시지에 가깝습니다. 저라면 이 수치를 보고, 앞으로 몇 년간의 사내 RPA·로봇 프로세스를 완전히 다시 보는 계기로 삼겠습니다.

장기 문맥과 '기억력'의 질적 변화

GPT 5.2의 컨텍스트 길이는 256K 토큰으로 5.1과 동일합니다. 표면적으로는 변화가 없어 보이지만, 긴 문서에서 실제로 필요한 정보를 찾아내는 능력은 크게 달라졌습니다. 여러 개의 '바늘'을 숨겨 둔 문서에서 정답을 찾는 테스트에서, 5.1은 맨 끝으로 갈수록 정확도가 40%대로 떨어졌지만, 5.2는 비슷한 조건에서 70~90%대 정확도를 유지합니다.

이렇게 보면 긴 기획 문서, 수십 장짜리 계약서, 여러 회차에 걸친 회의록을 한 번에 던져놓고 "중요한 리스크만 뽑아 달라"는 요구가 훨씬 현실적인 요청이 됩니다. 제 기준에서는, 이제 '긴 문서를 몇 개까지 버텨 주느냐'보다 '긴 문서를 실제로 잘 읽고 요지를 잡아 주느냐'가 모델 선택의 1순위 기준이 되어야 한다고 봅니다.

작업 현장에서는 무엇이 달라질까

이 부분에서 의문이 드는 것은 당연합니다. "벤치마크 점수가 좋아졌다는데, 내 엑셀과 코드, 보고서는 실제로 얼마나 달라질까"라는 질문입니다. GPT 5.2는 특히 화이트칼라 업무 자동화와 개발 조직의 구조에 영향을 줄 가능성이 큽니다.

엑셀·캡테이블·보고서, '대충 도움'에서 '검토 대상 초안'으로

5.2가 보여준 대표적인 예시 중 하나가 인력 계획, 캡테이블, 프로젝트 보고서입니다. 기존 5.1도 엑셀 양식을 만들고 인력 수급 계획을 구성하는 정도는 가능했습니다. 다만 서식이 투박하고, 핵심 수식에서 빈칸을 남기거나, 주식 우선순위 계산을 틀리는 식의 치명적인 구멍이 자주 있었습니다. 이번에는 동일한 과제를 던졌을 때, 시각적으로 더 읽기 쉽고, 무엇보다 복잡한 청산 우선권 계산까지 일관되게 맞춥니다.

국내 스타트업 환경에서는 투자 유치와 스톡옵션 설계가 잦기 때문에, 이런 모델을 조달 과정 초안 작성에 활용하는 회사가 빠르게 늘어날 것입니다. 물론 최종 검증은 여전히 사람 몫입니다. 다만 초안을 0에서 사람이 쓰느냐, AI가 써 준 것을 30% 수정하느냐의 차이는 인력 구조와 업무 속도를 완전히 바꿉니다.

보고서 생성에서도 마찬가지입니다. 똑같은 정보를 줘도 5.1은 정보 블록을 나열하는 수준에 머무르는 반면, 5.2는 슬라이드 구조와 시각적 강조까지 어느 정도 고려된 결과물을 냅니다. 이 단계에 이르면 "AI 초안을 사람 눈높이에 맞춘다"에서 "사람의 보고서 기준 자체가 상향 조정된다"로 관점이 바뀝니다. 여기서 디자인 감각이 있는 사람에게는, AI가 구조를 잡고 사람이 톤과 디테일을 정교하게 보정하는 방식이 유리합니다. 반대로 보고서를 던져놓으면 누가 대신 멋지게 만들어 줄 거라고 기대하는 사람에게는, 5.2도 여전히 실망을 줄 수 있습니다.

코드 생성과 장기 툴 체인, 개발 팀의 역할 재조정

개발자 입장에서 가장 눈이 가는 부분은 코드와 도구 호출 능력입니다. 5.2는 복잡한 셰이더, 3D 느낌의 파티클, 물리 시뮬레이션 같은 고난도 프론트엔드 예제도 한 번에 뽑아 냅니다. 하나의 HTML 파일 안에 UI와 파라미터 조절, 애니메이션까지 꽤 그럴듯하게 구현하는 수준입니다.

더 중요한 부분은 긴 도구 호출 체인을 견디는 능력입니다. 예를 들어 항공사 고객 지원 시나리오에서, 5.1은 몇 번의 API 호출 후 상태를 놓치지만, 5.2는 여러 번의 호출과 조건 변경을 끝까지 따라갑니다. 국내에서는 콜센터, 통신사, 카드사, 공공 민원 시스템 같은 곳에서 이 능력이 직접적인 비용 절감으로 이어질 수 있습니다. 저라면 새로운 챗봇을 만들기보다, 기존 백오피스 툴들을 잘 정의된 API로 꺼내고, 그 위에 5.2를 붙이는 쪽을 먼저 고민하겠습니다.

다만 이 변화는 모든 개발자에게 동일한 방식으로 작용하지 않습니다. 레이아웃 잡고 CRUD 위주로 일하는 프론트엔드나 단순 스크립트 작업 비중이 큰 인력에게는 위협에 가깝습니다. 반면 도메인 이해도와 설계 능력이 높은 시니어에게는, 'AI가 작성한 코드를 검토하고 시스템을 재구성하는 아키텍트' 역할이 더 커질 가능성이 높습니다.

비용, 리스크, 그리고 국내 환경의 현실

많은 사람들이 여기서 막힙니다. "좋은 건 알겠는데, 이제는 비용이 문제 아니냐"는 지점입니다. 5.2는 성능만큼이나 가격도 올라갔기 때문입니다.

토큰 단가 인상과 ROI 계산 방식

5.2의 입력·출력 토큰 단가는 5.1 대비 의미 있게 올랐습니다. 대략 입력 기준으로 40% 정도 비싸졌다고 보면 됩니다. 단순히 가격표만 보면 업그레이드가 부담스럽게 느껴질 수 있습니다. 그러나 앞에서 봤듯이 같은 ARC AGI2급 작업을 수행하는 데 드는 총비용은 연산 효율 덕분에 수십, 수백 배 줄어든 지점도 있습니다.

국내 환경에서는 두 가지 층위로 계산해야 합니다. 우선 실험 단계에서는 토큰 단가 자체보다, "이 모델을 쓰면 사람이 투입되는 시간을 몇 퍼센트 줄이거나, 산출물 품질을 몇 단계 올릴 수 있는가"에 집중하는 편이 낫습니다. 본격 도입 단계에 들어가면, 사내 프롬프트와 워크플로를 최적화해서 사용 토큰을 줄이는 방향으로 움직여야 합니다. 이때 프롬프트 엔지니어링이 아니라, 업무 프로세스 리디자인에 가까운 작업이 됩니다.

환상과 함정, 무엇을 믿고 무엇을 의심할까

GPT 5.2는 환각 비율도 줄였습니다. 여러 테스트에서 "적어도 하나 이상의 오류를 포함한 답변" 비율이 5.1보다 내려갔고, 시각 자료 이해나 UI 스크린샷 해석도 오류율이 절반 수준으로 줄었습니다. 하지만 이 수치만 보고 "이제는 검토 없이 그대로 써도 된다"고 생각하면 위험합니다.

겉으로는 모든 벤치마크가 좋아진 것처럼 보이지만, 실제로는 벤치마크가 커버하지 못하는 회색 영역이 여전히 큽니다. 국내 법률, 행정, 금융 상품처럼 로컬한 맥락이 강한 분야에서는, 글로벌 벤치마크보다 훨씬 더 많은 오답이 나올 수 있습니다. 또 정신건강 상담처럼 민감한 분야는, 테스트상 안전성이 높아졌다 해도, 제도와 전문가의 견제가 없는 채로 완전히 맡기기에는 위험이 큽니다.

제 기준에서는, GPT 5.2를 "완성품 생성기"가 아니라 "고급 인턴" 정도로 보는 시각이 가장 현실적입니다. 잘 쓰면 주니어 몇 명 몫을 대신하지만, 최종 책임은 항상 사람에게 남는 구조를 전제로 설계해야 합니다.

시작 전 반드시 체크할 것

새 모델 소식이 나올 때마다 당장 모두 갈아타야 할 것 같은 압박을 느끼는 분들도 있습니다. 그러나 누구에게는 5.2가 필수 업그레이드이고, 누구에게는 아직 시기상조인 것도 사실입니다.

누구에게 중요한 이슈인가

우선 유리한 쪽은 명확합니다. 국내 기준으로, 엑셀과 파워포인트, 문서 작업 비중이 높은 기획·전략·재무팀, 그리고 프롬프트만으로도 충분히 높은 품질의 코드 초안을 뽑아야 하는 소규모 개발 조직입니다. 장기 문맥, 복잡한 도구 체인, 캡테이블과 같이 실수 비용이 큰 계산을 다루는 팀이라면, 5.2로 옮길 이유가 충분합니다.

반면 아직은 큰 의미가 없는 경우도 있습니다. 사내에 AI를 붙일 만한 데이터나 도구가 거의 없거나, 보안 이슈 때문에 클라우드 기반 LLM 사용이 막혀 있는 조직입니다. 또는, 상용 도입이 아닌 학습·체험 단계에 머물러 있는 개인 사용자라면, 굳이 더 비싼 5.2 유료 플랜으로 옮기기보다, 현재 쓰는 모델을 깊게 이해하는 편이 효율적일 수 있습니다.

현실적 제약과 지금 당장 취할 수 있는 첫 행동

현실적으로 가장 큰 제약은 두 가지입니다. 하나는 비용, 다른 하나는 내부 설득입니다. 비용은 결국 "얼마나 일을 바꾸는가"로 설명할 수밖에 없습니다. 5.2를 쓰면 어떤 업무가 몇 분에서 몇 초로 줄고, 어떤 오류가 줄어드는지, 아주 구체적인 시나리오로 승부해야 합니다. 내부 설득에서는 "사람을 줄인다"는 서사가 아니라 "사람이 더 중요한 일에 시간을 쓴다"는 프레이밍이 필요합니다.

지금 당장 할 수 있는 첫 행동은 의외로 단순합니다. 회사에서 자주 쓰는 엑셀, 리포트, 코드 리포지토리, 고객 응대 시나리오를 한두 가지 골라, 동일한 프롬프트를 5.1과 5.2에 각각 던져 보는 것입니다. 그 차이를 실제 산출물 기준으로 비교해 보면, 업그레이드 여부를 감으로가 아니라, 눈에 보이는 결과물로 판단할 수 있습니다. 그리고 이 비교 결과를, 사내에서 AI 도입 논의를 시작하는 출발점으로 삼는 편이 좋습니다.

저라면 GPT 5.2를 "모든 것을 대체할 신기술"로 보기보다, 앞으로 23년간 업무 도구 지형을 바꿔갈 기준점 정도로 받아들입니다. 이 기준점에 맞춰 우리 팀의 일하는 방식을 얼마나 빨리 재설계하느냐가, 과장이 아니라 커리어와 회사의 생존 가능성을 가르는 요소가 될 수 있습니다.

출처 및 참고 :