엔비디아, 코스모스 WFM과 물리 AI 데이터 도구 발표

 

엔비디아, 코스모스 WFM과 물리 AI 데이터 도구 발표

엔비디아는 물리 AI 개발을 위한 월드 파운데이션 모델(WFM)인 코스모스를 발표했습니다. 코스모스는 옴니버스 플랫폼과 함께 로봇, 자율주행차 개발을 위한 합성 데이터 생성 엔진을 제공하며, 어질리티 로보틱스, 포어텔릭스 등 다양한 기업들이 도입하고 있습니다. 코스모스 프리딕트, 코스모스 트랜스퍼, 코스모스 리즌 등 다양한 모델이 개발자의 물리 AI 데이터 생성과 분석을 지원하며, 신뢰할 수 있는 AI 원칙에 따라 개방형 가드레일과 신스ID 기술이 적용됩니다.

엔비디아(CEO 젠슨 황)가 미국 새너제이에서 열린 GTC에서 새로운 엔비디아 코스모스(NVIDIA Cosmos) 월드 파운데이션 모델(world foundation model, WFM)을 발표했다. 이는 물리 AI 개발을 위해 개방적이고 완전히 맞춤화 가능한 추론 모델을 도입해 개발자에게 월드 생성에 대한 전례 없는 정도의 제어를 제공한다.

 

또한, 엔비디아는 엔비디아 옴니버스(Omniverse)와 코스모스 플랫폼을 기반으로 하는 두 가지 새로운 블루프린트를 선보인다. 이들은 사후 훈련 로봇과 자율주행차 제작을 위해 제어 가능한 대규모 합성 데이터 생성 엔진을 개발자에게 제공한다.

1X, 어질리티 로보틱스(Agility Robotics), 피규어 AI(Figure AI), 포어텔릭스(Foretellix), 스킬드 AI(Skild AI), 우버(Uber) 등 선도 기업들은 코스모스를 최초로 도입해 물리 AI를 위한 풍부한 훈련 데이터를 대규모로 신속하게 생성하고 있다.

엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “거대 언어 모델(large language model, LLM)이 생성형 AI와 에이전틱 AI에 혁명을 일으켰던 것처럼, 코스모스 월드 기반 모델은 물리 AI를 획기적으로 발전시킬 것이다. 코스모스는 물리 AI를 위한 개방적이고 완전히 맞춤화 가능한 추론 모델을 도입해, 로보틱스와 물리적 산업에서 단계적 기능 발전의 기회를 열어준다”고 말했다.

코스모스 트랜스퍼(Cosmos Transfer) WFM은 세분화 맵(segmentation map), 뎁스 맵(depth map), 라이더 스캔(lidar scan), 포즈 추정 맵(pose estimation map), 궤적 맵(trajectory map)과 같은 구조화된 비디오 입력을 활용해 제어 가능한 사실적인 비디오 출력을 생성한다.

코스모스 트랜스퍼는 지각 AI 훈련을 간소화한다. 이를 통해 옴니버스에서 생성된 3D 시뮬레이션 또는 실측 정보를 사실적인 비디오로 변환해 제어 가능한 대규모 합성 데이터를 생성한다.

어질리티 로보틱스는 코스모스 트랜스퍼와 옴니버스를 조기에 도입해 로봇 모델 훈련을 위한 대규모 합성 데이터를 생성할 예정이다.

어질리티 로보틱스 최고 기술 책임자인 프라스 벨라가푸디(Pras Velagapudi)는 “코스모스는 현실 세계에서 수집할 수 있는 데이터의 한계를 넘어, 보다 사실적인 훈련 데이터를 대규모로 활용할 수 있는 기회를 제공한다. 이미 보유중인 물리 기반 시뮬레이션 데이터를 최대한 활용하는 동시에, 엔비디아의 플랫폼으로 어떤 새로운 성능을 구현할 수 있을지 기대된다”고 말했다.

자율주행차 시뮬레이션을 위한 엔비디아 옴니버스 블루프린트(Blueprint)는 코스모스 트랜스퍼를 통해 물리 기반 센서 데이터의 변형을 증폭시킨다. 포어텔릭스는 이 블루프린트를 활용해 다양한 주행 데이터 세트에 날씨, 조명 등 조건을 변경해 행동 시나리오를 발전시킬 수 있다. 패러럴 도메인(Parallel Domain) 역시 이 블루프린트를 사용해 센서 시뮬레이션에 유사한 변형을 적용하고 있다.

합성 조작 모션 생성을 위한 엔비디아 GR00T 블루프린트는 옴니버스와 코스모스 트랜스퍼를 결합해 다양한 데이터 세트를 대규모로 생성한다. 또한, 오픈USD(Universal Scene Description, OpenUSD) 기반 시뮬레이션의 이점을 활용해 여러 날이 걸리는 데이터 수집과 증강 시간을 단 몇 시간으로 단축한다.

지능형 월드 생성을 위한 코스모스 프리딕트

지난 1월 CES에서 발표된 코스모스 프리딕트(Predict) WFM은 텍스트, 이미지, 동영상과 같은 멀티모달 입력으로부터 가상 월드 상태를 생성한다. 새로운 코스모스 프리딕트 모델들은 멀티 프레임 생성(Multi Frame Generation, MFG)을 지원해, 시작과 종료 입력 이미지가 주어지면 중간 동작이나 모션 궤적을 예측할 수 있다. 사후 훈련을 위해 특별히 제작된 이들 모델은 오픈 소스로 사용 가능한 엔비디아의 물리 AI 데이터 세트를 통해 맞춤화할 수 있다.

개발자는 엔비디아 그레이스 블랙웰(Grace Blackwell) NVL72 시스템의 추론 컴퓨팅 성능과 대규모 엔비디아 NV링크(NVLink) 도메인을 통해 월드 생성을 실시간으로 구현할 수 있다.

1X는 코스모스 프리딕트와 코스모스 트랜스퍼를 사용해 새로운 휴머노이드 로봇 NEO 감마(NEO Gamma)를 훈련하고 있다. 로봇 두뇌 개발업체인 스킬드 AI(Skild AI)는 로봇의 합성 데이터 세트를 보강하기 위해 코스모스 트랜스퍼를 활용하고 있다. 또한, 넥사(Nexar)와 옥사(Oxa)는 자율주행 시스템을 발전시키기 위해 코스모스 프리딕트를 사용하고 있다.

코스모스 리즌(Reason)은 시공간 인식 기능을 갖춘, 개방적이며 완전히 맞춤화 가능한 WFM이다. 이는 연쇄 추론을 사용해 영상 데이터를 이해하고, 사람이 횡단보도에 들어서거나 선반에서 상자가 떨어지는 것과 같은 상호작용의 결과를 자연어로 예측한다.

개발자는 코스모스 리즌을 사용해 물리 AI 데이터 주석과 큐레이션을 개선하고, 기존 WFM을 발전시키거나 새로운 비전 언어 행동 모델을 생성할 수 있다. 또한, 코스모스 리즌을 사후 훈련시켜 물리 AI가 특정 작업을 완료하기 위해 무엇을 해야 하는지 지시하는 고급 플래너를 만들 수도 있다.

개발자는 다운스트림 작업에 맞춰, 네이티브 파이토치(PyTorch) 스크립트 또는 엔비디아 DGX 클라우드(DGX Cloud)의 엔비디아 네모(NeMo) 프레임워크를 사용해 코스모스 WFM을 사후 훈련시킬 수 있다.

또한, 코스모스 개발자는 가속화된 데이터 처리와 큐레이션을 위해 DGX 클라우드의 엔비디아 네모 큐레이터(Curator)를 사용할 수 있다. 링커 비전(Linker Vision)과 마일스톤 시스템즈(Milestone Systems)는 대규모 비전 언어 모델을 훈련하기 위한 대량 비디오 데이터를 큐레이션하는 데 엔비디아 네모 큐레이터를 활용하고 있다. 이 대규모 비전 언어 모델은 비디오 검색과 요약을 위한 엔비디아 AI 블루프린트를 기반으로 구축된 시각 에이전트를 위한 것이다. 한편, 버추얼 인시전(Virtual Incision)은 엔비디아 네모 큐레이터를 향후 수술용 로봇에 배포하기 위해 실험하고 있다. 우버(Uber)와 와비(Waabi)는 자율주행차 개발 발전에 엔비디아 네모 큐레이터를 활용하고 있다.

엔비디아는 신뢰할 수 있는 AI 원칙에 따라 모든 코스모스 WFM에 개방형 가드레일을 적용하고 있다. 더불어 엔비디아는 구글 딥마인드(Google DeepMind)와의 협업으로 신스ID(SynthID) 기술을 통합해, build.nvidia.com에서 제공되는 코스모스 WFM 엔비디아 NIM 마이크로서비스에서 AI로 생성된 결과물에 워터마크를 추가하고 식별하는 데 도움을 주고 있다.

코스모스 WFM은 엔비디아 API 카탈로그에서 미리보기로 제공되며, 현재 구글 클라우드의 버텍스 AI(Vertex AI) 모델 가든(Model Garden)에도 수록돼 있다. 코스모스 프리딕트와 코스모스 트랜스퍼는 허깅 페이스(Hugging Face)와 깃허브(GitHub)에서 누구나 사용할 수 있으며, 코스모스 리즌은 얼리 액세스로 제공된다.

댓글

이 블로그의 인기 게시물

애플, 에어팟·프로·맥스 최신 펌웨어 업데이트 '6F21' 출시

애플, 에어팟 프로2용 새로운 펌웨어 '7A305' 출시

애플, iOS 17.5.2 마이너 업데이트 출시 임박