베일 벗은 엔비디아 볼타(Volta), 텐서 코어로 파스칼 보다 5배 빨라졌다

파스칼에 이어 엔비디아의 먹거리를 책임지게 될 차세대 GPU 컴퓨팅 아키텍처, 코드명 볼타(Volta)가 엔비디아 GPU 테크놀로지 컨퍼런스에서 발표됐다.

창립자 겸 CEO인 젠슨 황이 기조 연설을 통해 볼타 아키텍처와 이를 이용해 만든 최초의 프로세서인 테슬라 V100 데이터센터 GPU을 소개한 것이다.

엔비디아 볼타 GPU 아키텍처는 인공지능 추론 및 트레이닝에서 요구되는 뛰어난 속도와 확장성을 지원하도록 개발 됐다.

특히, 믹스드 프리시전 기술을 통해 2배 빠른 FP16 연산 성능을 실현한 파스칼 GPU 아키텍처와 다르게 텐서 코어(Tensor Core)라 부르는 640개의 전용 유닛이 CUDA 코어로만 이뤄졌던 GPU 아키텍처에 결합된 것으로 확인됐다.

텐서 코어가 추가된 볼타 V100 GPU는 640개의 전용 유닛만으로 120 TFLOPS의 딥 러닝 연산 능력을 실현했다.

믹스드 프리시전 기술로 21.2 TFLOPS를 실현했던 파스칼 P100 보다 5배 이상 빠른 것인데 엔비디아는 CPU 100개 수준의 딥 러닝 성능을 구현했다고 주장했다.

실제, ResNet-50 상에서 추론 성능을 비교한 것을 보면 1초에 100장의 이미지를 처리할 수 있는 인텔 브로드웰 CPU와 달리 엔비디아 볼타 V100은 5000장 까지 처리할 수 있는 것으로 나와 있다.

같은 조건에서 파스칼 P100이 600장을 처리한다니 딥 러닝 성능만 보면 그 어떤 세대 교체보다 혁명적이라 할 수 있다.

볼타 GPU 아키텍처의 게이밍 성능을 가능할 FP32(단정밀도) 성능은 15 TFLOPS로 확인됐다.

FP32 성능은 5,120개의 CUDA 코어로만 측정된 결과라서 텐서 코어가 빠진 차세대 지포스 GPU 성능과 비슷할 것으로 예상 되는데 파스칼 P100 보다 41%정도 향상된 것을 보면 차세대 지포스 GPU 역시 이에 준하는 게이밍 성능을 갖출 것으로 전망 된다.

텐서 코어는 딥 러닝 전용 유닛인 만큼 지포스 시리즈로 투입될 GPU에선 제외되거나 기능이 제한될 가능성이 크다.

엔비디아는 볼타 GPU 아키텍처로 개발한 테슬라 V100 GPU를 DGX 시스템에 최초로 적용, 이미 판매를 시작했으며 3분기 부터 본격적인 출하를 예고했다.

Imagination Factory