엔비디아, GTC서 RTX PC·DGX 스파크 조명.. 최신 오픈 모델·AI 에이전트 로컬 실행 가능
엔비디아, GTC서 RTX PC·DGX 스파크 조명.. 최신 오픈 모델·AI 에이전트 로컬 실행 가능
엔비디아는 GTC 2026에서 DGX 스파크와 RTX PC에서 최신 오픈 모델과 AI 에이전트를 로컬 실행할 수 있음을 발표했습니다. 네모트론 3 나노 4B, 네모트론 3 슈퍼 120B, 큐원 3.5, 미스트랄 스몰 4 등 신규 오픈 모델과 네모클로, 언슬로스 스튜디오 등 관련 기술도 소개되었습니다. GTC 참가자들은 ‘빌드 어 클로’ 이벤트에 참여해 개인용 AI 어시스턴트를 구축할 수 있었습니다.
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아는 미국 새너제이에서 열린 세계 최대 AI•가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 엔비디아 DGX 스파크(DGX Spark)와 엔비디아 RTX PC에서 최신 오픈 모델과 AI 에이전트를 로컬 환경에서 비용 부담 없이 안전하게 실행할 수 있다고 밝혔다.

그동안 컨슈머 컴퓨팅의 패러다임은 PC에서 스마트폰, 태블릿에 이르기까지 ‘개인용 디바이스’라는 개념을 중심으로 진화해 왔다. 그러나 생성형 AI, 특히 오픈클로(OpenClaw)의 등장은 ‘에이전트 컴퓨터’라는 완전히 새로운 카테고리를 탄생시켰다. 이 가운데 엔비디아 DGX 스파크 데스크톱 AI 슈퍼컴퓨터, 엔비디아 RTX PC를 비롯한 디바이스들은 비용 부담 없이 안전하게 개인용 에이전트를 구동할 수 있는 최적의 인프라로 자리매김하고 있다.
이번 엔비디아 GTC에서는 다음과 같은 혁신적인 에이전틱 AI 관련 발표들이 소개됐다:
로컬 에이전트를 위한 신규 오픈 모델 공개: 엔비디아 네모트론 3 나노 4B(Nemotron 3 Nano 4B)와 네모트론 3 슈퍼 120B(Nemotron 3 Super 120B)를 포함한 신규 모델이 새롭게 공개됐으며, 큐원 3.5(Qwen 3.5)와 미스트랄 스몰 4(Mistral Small 4)에 대한 최적화가 이뤄졌다.
엔비디아 네모클로(NemoClaw) 출시: 오픈클로를 위한 오픈 소스 스택인 네모클로는 보안성을 강화하고 로컬 모델을 지원함으로써 엔비디아 디바이스에서의 오픈클로 사용자 경험을 극대화한다.
언슬로스 스튜디오(Unsloth Studio)를 통한 파인튜닝(fine-tuning) 간소화: 에이전틱 워크플로우를 위한 오픈 모델의 정확도를 더욱 향상시킬 수 있도록 파인튜닝이 한층 쉬워졌다.
GTC 참가자들은 3월 19일(현지시간)까지 매일 오전 8시~오후 5시 GTC 파크(GTC Park)에서 열린 ‘엔비디아 빌드 어 클로(build-a-claw)’ 이벤트에 참여했다. 현장의 엔비디아 전문가들은 참가자들이 각자의 디바이스를 활용해 상시 구동되는 능동형 AI 어시스턴트를 맞춤형으로 구축•배포할 수 있도록 지원했다. 행사는 기술 숙련도와 관계없이 누구나 참여할 수 있었으며, 참가자들은 자신의 에이전트에 이름을 붙이고 성격을 정의하며 필요한 도구에 대한 접근 권한을 부여해, 평소 사용하는 메시징 앱을 통해 소통할 수 있는 개인용 어시스턴트를 직접 제작할 수 있었다.
신규 오픈 모델, 로컬 에이전트에 클라우드급 품질 제공
비약적으로 확장된 컨텍스트 윈도우(context window)를 갖춘 차세대 로컬 모델은 PC에서 에이전트를 구동할 수 있는 인텔리전스를 제공한다. 풍부한 사용자 컨텍스트와 강력한 로컬 도구의 결합은 AI PC의 새로운 가능성을 열고 있다. 특히 128GB 통합 메모리를 기반으로 1,200억 개 이상의 파라미터를 갖춰 대규모 모델을 수용할 수 있는 DGX 스파크는 이러한 잠재력을 극대화한다.
최근 출시된 네모트론 3 슈퍼는 1,200억 개의 파라미터와 120억 개의 활성 파라미터를 보유한 오픈 모델이다. 복잡한 에이전틱 AI 시스템 구동을 위해 설계됐으며, DGX 스파크나 엔비디아 RTX PRO 워크스테이션에서 에이전트를 가동하는 데 최적의 성능을 발휘한다. 특히 오픈클로 환경에서 거대 언어 모델(large language model, LLM) 성능을 측정하는 새로운 벤치마크 ‘핀치벤치(PinchBench)’에서 85.6%를 기록하며, 동급 대비 최고의 오픈 모델임을 입증했다.
미스트랄 스몰 4는 1,190억 개 파라미터 규모의 오픈 모델이다. 60억 개의 활성 파라미터와 전체 레이어 기준 80억 개 수준의 구성을 통해, 미스트랄 플래그십 모델의 역량을 하나로 집약했다. 이를 통해 사용자들은 일반적인 채팅과 코딩은 물론, 에이전틱 작업에 최적화된 고효율 모델을 활용할 수 있다.
두 모델 모두 DGX 스파크와 RTX PRO GPU에서 로컬 환경으로 구동된다.
보다 경량의 모델을 활용하려는 지포스(GeForce) RTX 사용자들을 위해, 엔비디아 네모트론 3 오픈 모델 제품군의 최신 모델인 네모트론 3 나노 4B가 출시됐다. 이 모델은 RTX AI PC에서 로컬 기반 에이전트와 어시스턴트를 구축하기 위한 최적의 기반을 제공한다. 특히 하드웨어 자원이 제한된 환경에서 구동되는 게임이나 애플리케이션 내 실행형•대화형 페르소나(persona) 구현에 적합하다. 네모트론 3 나노 4B는 엔비디아 GPU 기반 시스템 전반에서 활용 가능하며, 최소 수준의 VRAM만으로도 높은 수준의 지시 이행 능력과 우수한 도구 활용 성능을 발휘한다.
이와 함께 엔비디아는 뛰어난 정확도를 입증한 알리바바(Alibaba) 큐원 3.5 27B•9B•4B 모델에 대한 최적화를 발표했다. 해당 모델들은 엔비디아 GPU에서 로컬 에이전트를 구동하는 데 적합하며, 비전과 다중 토큰 예측, 26만 2,000 토큰에 달하는 대규모 컨텍스트 윈도우를 기본으로 지원한다. 특히 270억 파라미터 규모의 밀집 모델은 RTX 5090 GPU와 결합될 때 더욱 뛰어난 성능을 발휘한다.
모든 구성은 Q4_K_M 양자화를 적용하고, BS = 1, ISL = 1024, OSL = 128 조건에서 엔비디아 RTX 5090과 맥 M3 울트라(Mac M3 Ultra) 데스크톱을 기준으로 측정됐다. 토큰 생성 처리량은 라마.cpp(llama.cpp) b7789에서 라마 벤치 도구를 활용해 산출됐다.
이 모델들은 올라마(Ollama), LM 스튜디오(LM Studio), 라마.cpp를 통해 활용할 수 있으며, 사용자는 RTX GPU와 DGX 스파크를 기반으로 가속화된 추론을 경험할 수 있다. 여기에서 엔비디아 오픈 모델에 대해 알아볼 수 있다.
최신 RTX 최적화 모델로 가속하는 크리에이티브 AI
이달 초 출시된 라이트릭스(Lightricks)의 최첨단 오디오-비디오 모델 LTX 2.3은 NVFP4와 FP8 증류 모델(distilled model)을 지원하며, 최대 2.1배 빠른 성능 향상을 구현한다. 여기에서 라이트릭스 LTX 2.3 모델에 대해 자세히 알아볼 수 있다.
또한 블랙 포레스트 랩스(Black Forest Labs)의 플럭스.2 클라인 9B(FLUX.2 Klein 9B) 모델은 최근 업데이트를 통해 이미지 편집 속도가 최대 2배 향상됐다. 엔비디아는 블랙 포레스트 랩스와 협력해 RTX GPU에서 최적의 성능과 메모리 효율을 제공하는 FP8 버전을 출시했다.
엔비디아 네모클로, 오픈클로를 위한 엔비디아 최적화 솔루션
AI 개발자와 애호가들은 DGX 스파크 슈퍼컴퓨터를 구매하거나 전용 RTX PC를 구축해, 개인 파일과 앱, 워크플로우에서 컨텍스트를 가져와 일상 업무를 자동화할 수 있는 오픈클로 등 자율 AI 에이전트를 실행하고 있다. 그러나 오픈클로와 같은 에이전틱 시스템이 보급됨에 따라, 토큰 비용뿐만 아니라 보안, 프라이버시에 대한 우려도 커지고 있다.
이러한 문제를 해결하기 위해 엔비디아는 엔비디아 디바이스에서 오픈클로 최적화를 구현하는 오픈 소스 스택 네모클로를 공개했다. 네모클로에서 제공되는 첫 번째 기능은 엔비디아 네모트론 오픈 모델과 엔비디아 오픈쉘(OpenShell) 런타임이다. 네모트론 로컬 모델을 사용하면 사용자가 추론을 로컬에서 실행할 수 있어, 프라이버시가 강화되고 토큰 비용이 발생하지 않는다. 오픈쉘은 클로(claw)를 보다 안전하게 실행하도록 설계된 런타임이다.
여기에서 네모클로에 대해 자세히 알아볼 수 있으며, 엔비디아 창립자 겸 CEO 젠슨 황(Jensen Huang)의 GTC 기조연설과 세션을 확인할 수 있다.
언슬로스 스튜디오로 파인튜닝 간소화
오픈 모델이 빠르게 발전함에 따라, 사용자 데이터와 사용 사례에 맞춰 모델을 최적화하는 파인튜닝 기술이 모델 정확도를 높이는 핵심 수단으로 주목받고 있다. 기존에는 파인튜닝을 수행하려면 깊은 기술적 전문성과 코딩 역량, 방대한 설정 과정이 필요했다. 모델 파인튜닝과 정렬 분야의 선도적 오픈 소스 라이브러리인 언슬로스는 AI 개발자와 애호가들이 파인튜닝 과정을 손쉽게 진행할 수 있도록 웹 기반 사용자 친화적 인터페이스 ‘언슬로스 스튜디오’를 출시했다.
500개 이상의 AI 모델을 지원하는 언슬로스 스튜디오는 훈련과 파인튜닝 과정을 획기적으로 간소화한다. 사용자는 데이터세트를 업로드한 뒤, 그래프 기반 캔버스를 선택해 고품질 합성 데이터를 생성하고 즉시 파인튜닝 작업을 시작할 수 있다. 언슬로스 스튜디오는 양자화된 로우 랭크 어댑테이션(quantized low-rank adaptation) 또는 로우 랭크 어댑테이션(low-rank adaptation)은 물론, 전체 파인튜닝까지 모두 지원한다. 사용자는 모델이 파인튜닝되는 동안 작업 진행 상황을 실시간으로 모니터링하고 시각화할 수 있다. 그다음 원하는 프레임워크로 모델을 내보내 같은 웹 앱 안에서 곧바로 대화를 나누며 성능을 확인해 볼 수 있다.
언슬로스 스튜디오의 새로운 인터페이스는 맞춤형 특화 GPU 커널을 탑재해 훈련 속도를 최대 2배 높이고 VRAM 사용량을 최대 70%까지 절감하는 언슬로스 라이브러리를 기반으로 구축됐다. 덕분에 신규 사용자들도 엔비디아 RTX GPU와 DGX 스파크의 성능을 즉시 최대로 활용할 수 있다.
언슬로스 스튜디오는 현재 사용 가능하며, 네모트론 3 나노 4B와 큐원 3.5 신규 모델을 지원한다.
댓글
댓글 쓰기