OpenAI, GPT-5.2 출시
OpenAI가 GPT-5.2를 출시했다. GPT-5.2는 전문 지식 노동을 위한 강력한 모델로, 다양한 업무에서 뛰어난 성능을 보이며, 특히 긴 문서 처리, 코드 작성, 이미지 인식 등에서 새로운 최고 성능을 기록했다. 또한, 안전성 개선과 함께 18세 미만 사용자를 위한 연령 예측 모델 적용도 시작되었다.

OpenAI가 GPT-5.2를 출시했다. GPT-5.2는 전문적인 지식 노동을 위해 지금까지 나온 모델 중 가장 강력한 모델이다.
GPT-5.2는 사람들이 전문적인 업무에서 더욱 큰 경제적 가치를 창출할 수 있도록 설계되었다. 스프레드시트 제작, 프레젠테이션 구성, 코드 작성, 이미지 인식, 긴 컨텍스트 이해, 도구 활용, 복잡한 다단계 프로젝트 수행 등에서 이전보다 모두 더 뛰어난 성능을 보여주고 있다.
GPT-5.2 출시 이전에 나온 OpenAI의 분석에 따르면 기업에 배포되는 ChatGPT 엔터프라이즈 사용자는 평균적으로 40~60분의 업무 시간을 줄이고 있으며, 헤비 유저의 경우 주당 10시간 이상의 업무 시간을 절약하고 있는 것으로 조사된 바 있다. 이제 이 같은 영향은 더욱 커질 것으로 기대된다.
GPT-5.2는 GDPval에서 70.9% (GPT-5.2 Thinking)를 기록하는 등 다양한 벤치마크에서 새로운 최고 성능(SOTA)를 기록했다. GDPval은 GDP에 기여가 큰 44개 핵심 지식노동 영역에서 AI가 얼마나 높은 성과를 발휘하는지 살펴보는 벤치마크로, 이 과제에는 프레젠테이션, 스프레드시트 등의 실제 산출물이 포함된다.
특히 GPT-5.2 씽킹은 GDPval 과제에서 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 결과를 생성했다(과거 지표 기준, ChatGPT 내 속도는 달라질 수 있음). 인간의 검토가 결합될 경우 전문 업무를 효과적으로 지원할 수 있음을 시사한다. 한 GDPval 심사위원은 “출력 품질이 눈에 띄게 도약했으며, 전문 회사가 제작한 것처럼 보인다”고 평가했다.
GPT-5.2 씽킹은 실제 소프트웨어 엔지니어링 역량을 엄격하게 평가하는 SWE-Bench Pro 벤치마크에서도 55.6%로 새로운 SOTA를 기록했다. 실무적으로는 코드를 더 안정적으로 디버깅하고, 기능 요청을 구현하며, 대규모 코드베이스를 리팩터링하며, 사람의 수작업 개입을 줄인 상태에서 수정 사항을 처음부터 끝까지 배포할 수 있게 되었다. 특히 프런트엔드 소프트웨어 엔지니어링에서 뛰어나, 초기 테스터들은 특히 3D 요소가 포함된 작업처럼 복잡하거나 기존 방식에서 벗어난 UI 구현에서 성능이 크게 향상되었다고 평가했다.
GPT-5.2 씽킹은 GPT-5.1 씽킹보다 환각(hallucination)에서도 개선을 이뤘다. ChatGPT에서 수집한 비식별화(de-identified) 질의 세트에서 오류가 있는 응답의 비율이 30% 상대적으로 감소했다. 전문가 관점에서 이는 리서치, 글쓰기, 분석, 의사결정 지원에 모델을 활용할 때 실수가 더 줄어든다는 뜻이며, 일상적인 지식 업무에서 더 신뢰할 수 있는 모델이 되었다는 의미이다.
GPT-5.2 씽킹은 장문 추론에서 새로운 SOTA를 달성해 긴 문서 전반에 흩어져 있는 정보를 통합하는 능력이 강화되었다. 실무적으로는 GPT-5.2를 활용해 보고서, 계약서, 연구 논문, 회의록, 여러 파일로 구성된 프로젝트처럼 매우 긴 문서를 다루면서도 수십만 토큰에 걸쳐 일관성과 정확성을 유지할 수 있다는 뜻이다.
GPT-5.2 씽킹은 차트 추론과 소프트웨어 인터페이스 이해에서 오류율을 약 절반 수준으로 감소시키는 등 OpenAI 선보인 모델 중 가장 강력한 비전 모델이기도 하다. 금융·운영·엔지니어링·디자인·고객지원 등 분야의 시각 정보 중심 업무를 효과적으로 지원한다는 점에서 의미가 크다.
GPT-5.2 프로와 씽킹은 과학자의 연구를 지원하고 가속하는 데 있어 세계 최고 수준의 모델이다. AI 모델이 수학과 과학 분야의 발전을 실질적으로 가속하는 사례는 점점 늘어나고 있다. 최근 GPT-5.2 프로를 활용한 연구에서, 연구자들이 통계적 학습 이론의 한 미해결 질문을 탐구하는 과정에서 이 모델은 하나의 증명(proof)을 제안했고, 해당 증명은 이후 저자들에 의해 검증되었으며 외부 전문가들의 검토도 거쳤다. 이는 최첨단 모델이 엄격한 인간의 감독 아래에서 수학 연구를 어떻게 보조할 수 있는지를 보여주는 사례이다.
안전 측면에서도, GPT-5.2는 민감한 대화 상황에서의 응답 품질을 강화했다. 자살이나 자해 신호, 정신 건강의 어려움, 모델에 대한 정서적 의존을 암시하는 프롬프트에 대해 어떻게 반응하는지에 대한 의미 있는 개선이 이뤄졌으며, 이러한 표적 개입을 통해 GPT-5.2 인스턴트와 GPT-5.2 씽킹은 GPT-5.1 및 기존 GPT-5 인스턴트·씽킹 모델 대비 바람직하지 않은 응답이 더 줄어들었다. 자세한 내용은 시스템 카드(system card)에서 확인할 수 있다.
또한 18세 미만 사용자에게 민감한 콘텐츠 접근을 제한하기 위한 연령 예측 모델의 단계적 적용을 초기 단계에서 시작하고 있다. 이는 이미 18세 미만임을 알고 있는 사용자에 대한 기존 접근 방식과 부모 보호 기능을 보완하는 조치이다.
GPT-5.2는 이날부터 ChatGPT 유료 사용자들을 시작으로 순차적으로 출시된다. API에서는 모든 개발자가 즉시 사용할 수 있다.
한편 Notion, Box, Shopify, Harvey, Zoom 등은 GPT-5.2를 테스트 한 뒤, 장기 추론과 도구 호출에서 SOTA 수준의 성능을 보인다고 평가했다. Databricks, Hex, Triple Whale은 에이전트형 데이터 과학과 문서 분석에서 탁월하다고 밝혔고, Cognition, Warp, Charlie Labs, JetBrains, Augment Code는 인터랙티브 코딩, 코드 리뷰, 버그 탐지 등에서 현저한 개선을 확인했다고 전했다.
댓글
댓글 쓰기