AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(CEO 젠슨 황)가 엔비디아 코스모스(NVIDIA Cosmos™)를 발표했다. 이는 최첨단 생성형 월드 파운데이션 모델(World Foundation Model, WFM), 고급 토크나이저, 가드레일, 가속화된 비디오 처리 파이프라인으로 구성된 플랫폼으로 자율주행 차량(AV), 로봇과 같은 물리 AI 시스템의 개발을 촉진한다.
물리 AI 모델은 개발 비용이 많이 들고 방대한 양의 실제 데이터와 테스트가 필요하다. 코스모스 WFM은 개발자가 기존 모델을 훈련하고 평가할 수 있는 방대한 양의 사실적인 물리 기반 합성 데이터를 손쉽게 생성할 수 있는 방법을 제공한다. 아울러 개발자는 코스모스 WFM을 미세 조정해 맞춤형 모델을 구축할 수도 있다.
코스모스 모델은 로보틱스와 AV 커뮤니티의 작업을 가속화하기 위해 오픈 모델 라이선스로 제공될 예정이다. 개발자는 엔비디아 API 카탈로그에서 첫 번째 모델을 미리 보거나, 엔비디아 NGC™ 카탈로그 또는 허깅페이스(Hugging Face)에서 모델 제품군과 미세 조정 프레임워크를 다운로드할 수 있다.
1X, 애자일 로봇(Agile Robots), 어질리티(Agility), 피규어 AI(Figure AI), 포어텔릭스(Foretellix), 푸리에(Fourier), 갤봇(Galbot), 힐봇(Hilbot), 인트봇(IntBot), 뉴라 로보틱스(Neura Robotics), 스킬드 AI(Skild AI), 버추얼 인시전(Virtual Incision), 와비(Waabi), 샤오펑(XPENG) 등 선도적인 로보틱스, 자동차 기업들과 차량 공유 업체인 우버(Uber)가 코스모스를 최초로 도입한 기업들 중 하나이다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “로보틱스를 위한 챗GPT(ChatGPT)의 순간이 다가오고 있다. 거대 언어 모델(large language model, LLM)과 마찬가지로 WFM은 로봇과 AV 개발을 발전시키는 데 필수적이다. 그러나 모든 개발자가 자체적으로 훈련할 수 있는 전문 지식과 리소스를 갖추고 있는 것은 아니다. 우리는 물리 AI를 대중화하고 모든 개발자가 일반 로보틱스를 활용할 수 있도록 하기 위해 코스모스를 만들었다”고 말했다.
차세대 AI 물결을 가속화하는 오픈 WFM
엔비디아 코스모스 오픈 모델 제품군은 개발자가 AV 운행 비디오 녹화나 로봇이 창고를 탐색하는 등의
데이터 세트를 사용해 WFM을 목표 애플리케이션의 필요에 맞게 맞춤화할 수 있음을 의미한다.
코스모스 WFM은 물리 AI 연구와 개발을 위해 특별히 설계됐다. 또한, 텍스트, 이미지, 동영상과 같은 입력과 로봇 센서 또는 모션 데이터의 조합으로 물리 기반 비디오를 생성할 수 있다. 이 모델은 물리 기반 상호 작용, 객체 영속성, 창고나 공장과 같은 시뮬레이션 산업 환경과 다양한 도로 상황을 포함한 주행 환경의 고품질 생성을 위해 구축됐다.
CES 개막 기조연설에서 젠슨 황은 물리 AI 개발자가 코스모스 모델을 활용할 수 있는 방법을 다음과 같이 소개했다:
비디오 검색과 이해: 개발자가 비디오 데이터에서 눈길 상황이나 창고 혼잡과 같은 특정 훈련 시나리오를 쉽게 찾을 수 있도록 지원한다.
물리 기반 사실적 합성 데이터 생성: 코스모스 모델을 사용해 엔비디아 옴니버스(Omniverse™) 플랫폼에서 개발된 제어된 3D 시나리오에서 실제와 같은 비디오를 생성한다.
물리 AI 모델 개발과 평가: 파운데이션 모델에 맞춤형 모델을 구축하거나, 코스모스를 사용해 강화 학습으로 모델을 개선하거나, 특정 시뮬레이션 시나리오에서 모델이 어떻게 작동하는지 테스트한다.
예측과 다중우주 시뮬레이션: 코스모스와 옴니버스를 사용해 AI 모델이 취할 수 있는 모든 가능한 미래 결과를 생성해 가장 정확한 최선의 경로를 선택할 수 있도록 한다.
고급 월드 모델 개발 도구
물리 AI 모델을 구축하려면 페타바이트의 비디오 데이터와 해당 데이터를 처리, 큐레이션, 라벨링하기 위한 수만 시간의 컴퓨팅 시간이 필요하다. 데이터 큐레이션, 훈련과 모델 맞춤화에 드는 막대한 비용을 절감할 수 있도록 코스모스는 다음과 같은 기능을 제공한다:
엔비디아 AI와 쿠다(CUDA®) 가속 데이터 처리 파이프라인: 엔비디아 네모 큐레이터(NeMo™ Curator)를 기반으로 구동되며, 개발자가 엔비디아 블랙웰(Blackwell) 플랫폼을 사용해 2천만 시간의 비디오를 14일 만에 처리, 큐레이션, 라벨링할 수 있게 한다. 이는 CPU 전용 파이프라인을 사용할 경우 3년 이상이 걸리는 작업이다.
엔비디아 코스모스 토크나이저(Cosmos Tokenizer): 이미지와 비디오를 토큰으로 변환하는 최첨단 비주얼 토크나이저이다. 오늘날의 주요 토크나이저보다 8배 더 많은 총 압축과 12배 더 빠른 처리 속도를 제공한다.
엔비디아 네모 프레임워크: 매우 효율적인 모델 훈련, 맞춤화, 최적화를 위한 프레임워크다.
세계 최대 규모의 물리 AI 산업에서 채택하는 코스모스
물리 AI 산업의 선구자들은 이미 코스모스 기술을 채택하고 있다.
AI와 휴머노이드 로봇 회사인 1X는 코스모스 토크나이저를 사용해 1X 월드 모델 챌린지(1X World Model Challenge) 데이터 세트를 출시했다. 샤오펑은 코스모스를 사용해 휴머노이드 로봇의 개발을 가속화할 예정이다. 아울러 힐봇과 스킬드 AI는 범용 로봇의 개발을 가속화하기 위해 코스모스를 사용하고 있다.
어질리티의 최고 기술 책임자인 프라스 벨라가푸디(Pras Velagapudi)는 “데이터 부족과 가변성은 로봇 환경에서 성공적인 학습을 위한 핵심 과제이다. 코스모스의 텍스트, 이미지, 비디오 기반 세계 생성 기능을 통해 다양한 작업에서 사실적인 시나리오를 생성하고 증강할 수 있다. 따라서 많은 비용이 드는 실제 데이터 수집 없이도 모델을 훈련하는 데 이를 사용할 수 있다”고 말했다.
교통 분야의 선도 기업들도 코스모스를 사용해 AV용 물리 AI를 구축하고 있다.
와비: AV를 시작으로 물리 세계를 위한 생성형 AI를 개척하고 있는 와비는 AV 소프트웨어 개발과 시뮬레이션을 위한 데이터 큐레이션의 맥락에서 코스모스를 사용할 예정이다.
웨이브(Wayve): 자율주행을 위한 AI 파운데이션 모델을 개발 중인 웨이브는 안전성과 검증에 사용되는 엣지, 코너 케이스 주행 시나리오를 검색하는 도구로 코스모스를 평가 중이다.
포어텔릭스: AV 툴체인 제공업체 포어텔릭스는 코스모스를 엔비디아 옴니버스 센서 RTX API(Sensor RTX API)와 함께 사용해 충실도 높은 테스트 시나리오와 훈련 데이터를 대규모로 평가하고 생성할 예정이다.
우버: 글로벌 차량 공유 업체인 우버는 자율주행 모빌리티를 가속화하기 위해 엔비디아와 협력하고 있다. 우버의 풍부한 주행 데이터 세트와 코스모스 플랫폼, 엔비디아 DGX 클라우드(DGX Cloud)를 결합하면 AV 파트너들이 더욱 강력한 AI 모델을 더 효율적으로 구축할 수 있다.
우버의 CEO 다라 코스로샤히(Dara Khosrowshahi)는 “생성형 AI는 모빌리티의 미래를 주도할 것이며, 이를 위해서는 풍부한 데이터와 강력한 컴퓨팅이 모두 필요하다. 엔비디아와의 협력을 통해 안전하고 확장 가능한 자율주행 솔루션을 업계에 제공할 수 있는 시기를 앞당길 수 있을 것이라 확신한다”고 말했다.
개방적이고 안전하며 책임감 있는 AI 개발
엔비디아 코스모스는 개인 정보 보호, 안전, 보안, 투명성, 원치 않는 편향 감소를 우선시하는 엔비디아의 신뢰할 수 있는 AI 원칙에 따라 개발됐다.
신뢰할 수 있는 AI는 개발자 커뮤니티 내에서 혁신을 촉진하고 사용자의 신뢰를 유지하는 데 필수적이다. 엔비디아는 백악관의 자발적인 AI 공약과 기타 글로벌 AI 안전 이니셔티브에 따라 안전하고 신뢰할 수 있는 AI를 제공하기 위해 노력하고 있다.
오픈 코스모스 플랫폼에는 유해한 텍스트와 이미지를 감소시키도록 설계된 가드레일이 포함되며, 텍스트 프롬프트의 정확성을 높이기 위한 도구가 있다. 엔비디아 API 카탈로그에서 코스모스 자동 회귀와 확산 모델로 생성된 비디오에는 AI가 생성한 콘텐츠를 식별하는 보이지 않는 워터마크가 포함돼 잘못된 정보와 잘못된 저작자 표시의 가능성을 줄여준다.
엔비디아는 개발자가 신뢰할 수 있는 AI 사례를 채택하고 애플리케이션에 대한 가드레일과 워터마킹 솔루션을 더욱 강화할 것을 권장한다.
이용 정보
코스모스 WFM은 현재 허깅페이스와 엔비디아 NGC 카탈로그에서 엔비디아의 오픈 모델 라이선스에 따라 사용할 수 있다. 코스모스 모델은 곧 완전히 최적화된 엔비디아 NIM 마이크로서비스로 제공될 예정이다.
개발자는 가속화된 비디오 처리를 위해 엔비디아 네모 큐레이터에 액세스하고 엔비디아 네모로 자체 월드 모델을 맞춤화할 수 있다. 엔비디아 DGX™ 클라우드는 이러한 모델을 빠르고 쉽게 배포할 수 있는 방법을 제공하며, 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼을 통해 엔터프라이즈 지원을 받을 수 있다.
아울러 엔비디아는 개발자가 의료, 금융 서비스, 제조 등의 엔터프라이즈 AI 사용 사례에 사용할 수 있는 새로운 엔비디아 라마 네모트론(Llama Nemotron) LLM과 엔비디아 코스모스 네모트론 비전 언어 모델도 발표했다.