English | 로그인 ㅣ ID/비번 찾기 ㅣ 회원가입/이메일 재인증
PC 부품 OS/소프트웨어 노트북/미니PC 서버 컴퓨팅 소식
Home 컴퓨팅 OS/소프트웨어 신제품뉴스

엔비디아, 추론 성능 가속화하는 새로운 소프트웨어 텐서RT-LLM 출시

2023/09/12 10:38:00

 
 Tweet

엔비디아(www.nvidia.co.kr)가 새로운 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시했다고 밝혔다.


텐서RT-LLM은 대규모 언어 모델이 발전함에 따라 오픈 소스 모듈식 파이썬 API(Python API)를 통해 사용 편의성과 확장성을 개선하고, 쉽게 사용자 맞춤화할 수 있다. 파이썬 API는 새로운 아키텍처와 개선 사항을 정의, 최적화, 실행할 수 있다. 예를 들어, 모자이크ML은 텐서RT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 추론 서비스에 통합했다.

H100은 단독으로도 A100보다 4배 빠른 속도를 보여준다. 인플라이트 배칭 등 텐서RT-LLM의 성능을 추가하면 속도가 총 8배로 증가해 최고의 처리량을 제공한다.최근 메타가 출시한 언어 모델 라마2(Llama 2)는 생성형 AI를 통합하려는 여러 조직에서 널리 사용되고 있다. 이 라마2에서 텐서RT-LLM은 A100 GPU에 비해 추론 성능을 4.6배 가속화할 수 있다.


라마2와 같은 최신 대규모 언어 모델에서는 700억 개의 파라미터를 사용하더라도 고객은 A100 기준 대비 4.6배의 성능 속도 향상을 실현한다. 이로써 총소유비용은 3배, 소비 에너지는 3.2배 절감할 수 있다.

텐서RT-LLM은 개별 가중치 행렬을 여러 디바이스에서 분할하는 모델 병렬 처리의 일종인 텐서 병렬 처리(Tensor Parallelism)를 사용한다. 이를 통해 개발자의 개입이나 모델 변경 없이도 각 모델이 NV링크(NVLink)를 통해 연결된 여러 GPU와 서버에서 병렬로 실행돼 대규모 추론을 효율적으로 수행할 수 있게 됐다.

또한 텐서RT-LLM에는 오늘날 프로덕션 환경에서 널리 사용되는 많은 대규모 언어 모델의 최적화되고 바로 실행 가능한 버전이 포함돼 있다. 여기에는 메타의 라마 2, 오픈AI(OpenAI)의 GPT-2 와 GPT-3, 팔콘(Falcon), 모자이크 MPT(Mosaic MPT), 블룸(BLOOM) 등 12가지가 포함되며, 모두 사용이 간편한 텐서RT-LLM 파이썬API로 구현할 수 있다.

이러한 기능을 통해 개발자는 사실상 모든 업계의 요구 사항을 충족하는 맞춤형 대규모 언어 보델을 더 빠르고 정확하게 만들 수 있다.


인플라이트 배칭을 사용하면 전체 요청이 완료될 때까지 기다렸다가 다음 요청 세트로 넘어가는 대신, 텐서RT-LLM 런타임이 완료된 시퀀스를 배치에서 즉시 제거한다. 그런 다음 다른 요청이 아직 전송 중인 동안 새 요청을 실행한다. 인플라이트 배칭과 추가적인 커널 수준 최적화를 통해 GPU 사용량을 개선하고 H100 텐서 코어 GPU의 실제 대규모 언어 모델 요청 벤치마크에서 처리량을 최소 두 배 이상 증가시켜 총소유비용을 최소화하고 에너지 비용을 절감한다.

텐서RT-LLM이 탑재된 엔비디아 H100 GPU(H100 GPU)를 사용하면 모델 가중치를 새로운 FP8 형식으로 쉽게 변환하고, 최적화된 FP8 커널을 자동으로 활용하도록 모델을 컴파일할 수 있다. 이는 호퍼 트랜스포머 엔진(Hopper Transformer Engine) 기술을 통해 가능하며, 별도로 모델 코드를 변경할 필요가 없다.

H100에 도입된 FP8 데이터 포맷을 통해 개발자는 모델을 정량화하고 모델 정확도를 저하시키지 않으면서 메모리 소비를 획기적으로 개선한다. FP8 양자화는 INT8 또는 INT4와 같은 다른 데이터 형식에 비해 높은 정확도를 유지하면서도 가장 빠른 성능을 달성하고 가장 간단한 구현을 제공한다.

텐서RT-LLM은 프로덕션 환경에서 추론을 위한 대규모 언어 모델을 정의, 최적화, 실행하기 위한 간단한 오픈 소스 파이썬 API에 텐서RT의 딥 러닝 컴파일러, 최적화된 커널, 사전, 사후 처리, 멀티 GPU/멀티 노드 통신으로 구성된다.


엔비디아 텐서RT-LLM은 현재 얼리 액세스 버전으로 제공된다. 아울러 보안, 안정성, 관리 용이성, 지원 등을 갖춘 엔터프라이즈급 AI 소프트웨어 플랫폼인 엔비디아 AI 엔터프라이즈(AI Enterprise)의 일부인 엔비디아 네모 프레임워크에 통합될 예정이다. 개발자와 연구자는 NGC의 네모 프레임워크 또는 깃허브(GitHub)의 소스 레포지토리를 통해 텐서RT-LLM에 액세스할 수 있다.

얼리 액세스 릴리스를 신청하려면 엔비디아 개발자 프로그램(Developer Program)에 등록돼 있어야 한다. 또한 기업용 이메일 주소로 로그인해야 한다. 지메일(Gmail), 야후(Yahoo), 큐큐(QQ) 또는 기타 개인 이메일 계정을 사용하는 계정에서는 신청을 받을 수 없다.

Tweet
More Sharing Servicesmore

#엔비디아, #인공지능


케이벤치 많이 본 기사
  [뉴스] 신형 무선이어폰 '갤럭시 버즈 FE' 가격 유출.. 버즈2 프로 '절반' 이하
  [기획] 최신 게임 저렴하게 만나는 방법은? PC '게임 번들' 이모저모
  [뉴스] 애플, 중요 버그 수정된 'iOS 17.0.1' 마이너 업데이트 공개
  [뉴스] 아이폰15 시리즈, 10일 13일 한국 상륙…6일부터 사전 예약
  [뉴스] 구글 '픽셀 9' 두뇌 텐서 G4 칩셋 '엑시노스 2400' 기반
  [뉴스] 최신 가성비 스마트폰 '홍미노트 13' 시리즈 발표.. 19만 9천원부터 시
  [기획] 합리적이고 효율적인 고성능 게이밍 노트북, 레노버 리전 슬림 5i 16IRH8 i7
  [뉴스] 삼성전자-美 국방부 협업, '갤럭시S23' 택틱컬 에디션 공개
  [기획] 포트 하나로 10개 기능 활용 가능! C타입 멀티 허브, 앱코 AMH 10in1
  [기획] 한국에서 개발된 세계최초 MP3 플레이어,개발배경과 슬픈사연은?
  [뉴스] 갤럭시S24 울트라, 3년 만에 10배 잠망경 모듈 버리나
  [기획] 한 단계 더 업그레이드된 PCIe 5.0 성능 뿜뿜, 씨게이트 파이어쿠다 540
Copyrightⓒ 넥스젠리서치(주) 케이벤치 미디어국. www.kbench.com 인쇄 목록 위로
케이벤치 기자 / pr@kbench.com

연관기사 보기
  엔비디아, OCI에 최신 엔비디아 GPU 가속 컴퓨팅 인스턴스 탑재
  AMD, 새로운 버설(Versal) AI 엣지 적응형 SoC 강화
  엔비디아, 사이버펑크 2077 팬텀 리버티 대응 드라이버 배포
  엔비디아, 메르세데스-벤츠 차세대 플랫폼 디지털 생산 시스템 구축 지원
  레노버, 차세대 엣지 AI 솔루션 출시로 인텔리전트 트랜스포메이션 실현
  인텔, 인텔 이노베이션 2023에서 AI와 보안 융합 가속화
  인텔, 개발자가 어디서나 AI를 구현하도록 지원하는 방안 공개
  노드VPN, 인공지능 및 챗GPT 기반 피싱 잡는 보안 프로그램 소나 런칭
  엔비디아 차세대 GPU 블랙웰, MCM 구조 도입한다?
  이스트소프트, 보도전문채널 YTN과 한 쌍의 AI 앵커 선보여
  AMD 차세대 플래그십 게이밍 GPU 포기설, AI 시장용 칩 확보 목적?
  엔비디아 지포스와 경쟁하다 망한 GPU,XGI / 파워VR / 매트록스...어? 인텔 아크? [PC흥망사 5-4]
추천컨텐츠
케이벤치 이벤트/공지사항
 
[일반공지]케이벤치 컨텐츠 제작자/기자 채용 공고
[공지사항][이벤트 당첨 발표] 신년 3차 착한일 이벤트 당첨자 발표
[공지사항][이벤트 당첨 발표] 신년 2차 덕담 이벤트 당첨자 발표
[공지사항][이벤트 당첨 발표] 신년 1차 장비자랑 이벤트 당첨자 발표
[이벤트][이벤트] 케이벤치 베스트 어워드 및 2022년 신년 이벤트
[공지사항][게시글 이벤트] 나누고 싶은 이야기에 게시글 남기고 케이벤치 마스

케이벤치 많이 본 기사 TOP 10
뉴스
기사
TSMC, 구글의 '텐서 G4' 위탁 생산 요청 거부.. '수익성 없어'
안드로이드 14 설치된 '갤럭시S22' 성능 대폭 향상?
신형 무선이어폰 '갤럭시 버즈 FE' 가격 유출.. 버즈2 프로 '절반' 이하
삼성파운드리 4나노 자신감 이유 있었네.. '갤럭시S23 FE' 성능 S22 앞서
갤럭시S24 울트라, 3년 만에 10배 잠망경 모듈 버리나
'갤럭시S24 시리즈' 스토리지 옵션 유출.. 울트라 최대 2TB 옵션 제공
MS '서피스 랩탑 스튜디오2' 공식 발표 앞서 렌더링·가격 유출
iOS 17 새로운 알림음 너무 조용.. 사용자들 '부글부글'
'갤럭시S24 울트라' 디자인 바뀐다.. 평면 디스플레이·티타늄 프레임
구글 '픽셀 9' 두뇌 텐서 G4 칩셋 '엑시노스 2400' 기반
뉴스
기사
합리적이고 효율적인 고성능 게이밍 노트북, 레노버 리전 슬림 5i 16IRH8 i7
한 단계 더 업그레이드된 PCIe 5.0 성능 뿜뿜, 씨게이트 파이어쿠다 540
한국에서 개발된 세계최초 MP3 플레이어,개발배경과 슬픈사연은?
유선과 블루투스 무선이 자유자재로, 레트로 디자인 더한 무접점 키보드, 앱코 KN30BT
포트 하나로 10개 기능 활용 가능! C타입 멀티 허브, 앱코 AMH 10in1
디지털 아티스트의 막힘없는 작업을 위한 디지털 드로잉 PC 구성하기
최신 게임 저렴하게 만나는 방법은? PC '게임 번들' 이모저모
지포스 RTX 4060 Ti 잡을까? 라데온 RX 7700 XT 벤치마크, 최종 평가는?
최고의 게임 경험을 위한 게이밍 노트북, MSI Vector GP78 HX 13VH-i9 QHD
가장 최적의 효율로 구성된 비즈니스 환경 무선 AP, 넷기어 WAX630E