모든 것을 압도한다! 에이다 러브레이스, 엔비디아 지포스 RTX 4090 FE
엔비디아는 이미 HPC용 GPU와 컨슈머 및 워크스테이션용 GPU의 개발과 생산을 분리하고 있다. 모든 시장에 투입할 단일 GPU 아키텍처를 개발한 후 시장 특성과 가격에 맞춰 일부 기능을 제한하던 전략에서 벗어나 각각의 시장 특성에 맞는 GPU 아키텍처를 개발했고 지금도 그 전략을 이어오고 있다. 하지만, 많은 이들은 엔비디아가 여전히 단일 GPU 아키텍처를 사용하는 것 처럼 생각하고 있다. 그래서 HPC용 GPU 아키텍처, 코드명 호퍼가 발표 됐을 때 차세대 지포스 시리즈에 대한 우려와 논란들이 있었는데 이제 그런 논란에 종지부를 지을 때가 됐다. 지금부터 엔비디아의 컨슈머용 차세대 GPU 아키텍처, 코드명 에이다 러브레이스와 이를 탑재한 지포스 RTX 4090에 대해 소개해 보도록 하겠다.
■ 에이다 러브레이스, 무엇이 달라졌나? 엔비디아가 설계한 코드명 에이다 러브레이스 아키텍처는 컨슈머 시장과 워크스테이션 시장을 겨냥한 GPU 아키텍처다. 쉽게 말해, 게임과 3D 랜더링, 단일 GPU로 처리 가능한 컴퓨팅 연산에 최적화 한 GPU 아키텍처라는 뜻이다. 그래서 HPC 시장을 겨냥한 호퍼와는 구조적인 차이가 상당히 많다. 무수히 많은 쿠다 코어의 집합체라는 점에선 호퍼나 에이다 러브레이스나 다를 것이 없지만 호퍼는 다수의 GPU를 연결하는 슈퍼컴퓨팅 플래폼에 필요한 인터페이스와 그런 플래폼을 필요로 하는 작업에 적합한 연산 유닛만 담겨 있다. 사실 상 계산기나 다를 바 없어 디스플레이 출력 기능도 없고 레이트레이싱 가속화에 요구되는 RT 코어나 영상 인코딩용 NVENC도 없다. 거기다 전력 소모에 대한 기준도 달라서 일반 데스크탑 PC 환경 보다 훨씬 많은 전력을 소모할 수 있도록 성능이 셋팅된다. 전력 소모에 대한 기준이 무제한은 아니지만 그 한계 값이 컨슈머 시장용 GPU 보다 훨씬 높은 건 사실이며 그래서 SXM 버전의 호퍼 H100은 TDP가 무려 700W나 된다. 이런 점 때문에 HPC용 GPU 아키텍처로 컨슈머용 GPU 아키텍처의 발전 방향이나 상세 스펙을 가늠하기 어려운 것이 현실이고 이번 에이다 러브레이스 아키텍처도 그런 루머와는 다른 모습으로 등장하게 됐다. 에이다 러브레이스 아키텍처의 핵심은 쿠다 코어가 아니다. 깡성능의 핵심인 쿠다 코어는 이전 아키텍처와 다르지 않다. 여기서 다르지 않다는 말은 아키텍처의 진화나 발전이 사실 상 없다는 것 뿐이지 양적인 증가가 없다는 말은 아니다. 깡성능의 바탕이 되는 SM 내부 쿠다 코어 구성과 레지스터 용량, 스케줄러 구조와 처리 성능, L1 데이터 캐쉬 크기, 텍스처 유닛 구성 모두 이전 세대인 암페어와 동일하다. 튜링에서 처리 할 수 없던 FP32 동시 작업도 암페어부터 제공했던 기능이라 사실 상 SM 자체는 변한 것이 없다고 봐도 무방하다. SM 보다 상위 클러스터인 TPC와 GPC 또한 암페어와 같은 구성을 하고 있어 가장 큰 클러스터 단위인 GPC를 더 많이 배치한 것이 깡성능 관점에서 보는 에이다 러브레이스의 변화라 할 수 밖에 없다. 물론, L1 캐쉬와 L2 캐쉬의 용량 증가, 특히 16배나 증가한 L2 캐쉬가 깡성능 증가에 어느 정도 도움이 되는 것은 사실이나 실질적인 클럭당 계산 능력 자체는 이전 세대와 같다고 볼 수 밖에 없다. 대신, 질적 증가가 아닌 양적 증가에서 에이다 러브레이스의 깡성능을 기대할 수 밖에 없게 됐는데 이에 대한 설명은 글을 이어가며 할 것이다. 어차피 현재의 GPU가 깡성능 만으로 평가될 수 없는 것 또한 사실이기에 이것만으로 에이다 러브레이스를 결론짓는 것도 성급한 판단이다. 에이다 러브레이스의 진정한 가치는 레이트레이싱에서 빛을 발하기 때문이다. 엔비디아는 이를 위해 3세대 RT 코어를 개발했다. 에이다 러브레이스에 적용된 3세대 RT 코어는 세 가지 측면에서 업그레이드 됐다. 그 중 첫 번째가 RT 코어의 교차 테스트 성능이 2배 업그레이드 됐다는 점인데 1세대와 비교하면 무려 4배나 교차 테스트 처리량이 증가했고 이는 별도의 패치나 업데이트 없이 현존하는 레이트레이싱 작업에 바로 적용된다. 교차 테스트는 빛을 역추적할 때 삼각형에 닿았는가를 테스트하는 것으로, 이 처리량이 증가했다는 것은 사실 상 더 많은 빛을 추적하고 처리할 수 있으며 더 복잡하고 디테일 한 객체에 대한 레이트레이싱도 가능해 졌다는 것을 의미한다. 쉽게 말해, 레이트레이싱으로 표현하는 품질이 업그레이드 되고 이런 고품질 그래픽을 게임에 구현할 수 있게 됐다는 의미다. 엔비디아는 교차 테스트의 처리량을 두 배 늘린 것과 함께 Shader 코어에 대한 의존도를 낮추고 BVH 작업을 비약적으로 개선할 새로운 기술 두 가지도 개발했다. 먼저, Opacity Micromap Engine으로 소개된 기능은 매우 작은 크기의 나뭇잎이나 화염 처럼 알파 채널에 텍스쳐를 입혀 표현되는 객체들을 보다 빠르게 처리하기 위한 것이다. 이전 방식은 Shader를 호출해 히트와 미스를 판단해야 했고 이런 작업이 여러 개 진행되면서 효율 저하를 가져 왔지만 Opacity Micromap Engine을 사용하면 가상의 마이크로 맵을 생성하여 히트와 미스를 스스로 판단하고 엣지 부분만 Shader로 불투명도를 판단할 수 있어 작업량을 크게 줄일 수 있다. 엔비디아에 따르면, 알파 테스트 지오메트리를 사용하는 어플리케이션에서 Opacity Micromap Engine을 적용하는 것 만으로 트리 탐색 성능이 2배 증가한 것을 확인할 수 있었다고 한다. 단, Opacity Micromap Engine을 사용하려면 개발자가 이에 맞춰 코드를 변경해줘야 한다. 이미 레이트레이싱이 적용된 게임도 Opacity Micromap Engine의 장점을 활용하려면 이에 맞춰 패치가 제공 되야 한다. 에이다 러브레이스에 추가된 또 다른 RT 코어 기술은 Displaced Micro-Mesh Engine이다. 이 기술은 텍스쳐에 담은 볼륨 정보를 기반으로, 객체의 디테일을 증가시키는 기법을 활용한 것이다. 객체의 지오메트리 증가는 곧 테스트 할 박스의 증가, 즉 더 복잡한 BVH 생성을 의미하지만 이를 매우 단순한 BVH와 베이스 트라이앵글로 평가하고 이 정보에 볼륨 정보를 가진 맵을 결합하면 복잡한 지오메트리의 객체의 레이트레이싱 효과를 단순한 작업만으로 처리할 수 있다. 이 기술도 Opacity Micromap Engine 처럼 패치나 업데이트가 필요하기에 지금 당장 효과를 경험하거나 평가하는 것은 어렵지만 어도비와 심플리곤 처럼 기술 도입에 적극적인 파트너들이 있다고 하니 추후 이를 직접 경험해 볼 수 있을 것으로 판단된다. 마지막이자 3세대 RT 코어의 또 다른 핵심인 SER(Shader Execution Reordering)은 앞선 기술 두 가지 보다 더 중요한 기술이다. 이 기술은 광석을 추적하며 발생하는 복잡한 작업을 보다 빠르게 처리하기 위한 것으로, 지금까지의 레이트레이싱 추적은 작업 종류나 데이터 차이를 구분하지 않고 무조건적으로 처리 했지만 이를 같은 종류의 작업과 데이터 지역성에 기반하여 재정렬 한 것이다. 쉽게 말해, 종류가 같은 것끼리 묶어서 처리하면 더 빨리 처리할 수 있다는 의미다. 어차피 GPU가 그런 작업에 최적화 된 구조라서 처음부터 이런 구조를 도입했으면 좋았겠지만 초창기 레이트레이싱은 매우 제한적으로 도입 됐고 2차 광선의 다중 히트까지 감안할 수준도 아니어서 이제서야 도입이 됐다고 이해하면 될 듯 싶다. SER은 레이트레이싱의 복잡도가 증가할 수록 효과가 증가하며 최대 2배까지도 성능 향상에 도움이 될 수 있다는 것이 엔비디아 측 설명이다. 실제, 사이버펑크2077 오버드라이브 모드에선 최대 44%까지 성능 향상을 확인 했다고 한다. 참고로, SER은 앞선 두 기술과 마찬가지로 이전 게임에는 적용이 불가능하고 이를 지원하는 패치나 업데이트가 제공 되야 한다. 엔비디아는 마이크로소프트와 함께 SER을 표준 API에 통합시키는 작업을 진행 중이라고 밝혔는데 인텔도 이와 유사한 기술을 Arc GPU에 적용한 상황이라서 조만간 DirectX 12의 DXR 표준으로 추가되지 않을까 생각된다.
■ DLSS3, 핵심은 프레임 생성 엔비디아의 DLSS는 경쟁사의 유사 솔루션 보다 화질이 좋다. 이에 대한 검증은 충분히 이뤄졌고 누구나 인정하는 사실이다. 하지만, DLSS도 원시 해상도의 프레임 상한을 넘어설 수 없는 것은 마찬가지라서 아무리 AI 기반의 업스케일 기술이라도 프레임 증가폭을 크게 개선하기 힘든 것이 현실 였다. 화질 보다 체감도가 큰 프레임 증가폭은 경쟁사가 이미 따라 잡았으니 이를 뛰어 넘는 무언가가 필요 했는데 그게 바로 DLSS3다. 엔비디아가 개발한 DLSS3는 지금까지의 업스케일 기술과 다르다. DLSS2를 포함한 타사의 유사 솔루션들은 원시 해상도를 타깃 해상도로 업스케일 하는 것이 전부 였지만 엔비디아는 여기에 더해 프레임 생성이라는 새로운 기술을 추가했다. 프레임 생성, 흔히 프레임 보간이라고도 알려진 이 기술은 삼성이나 LG 같은 프리미엄 TV 메이커들이 오래 전 부터 제공해 왔던 기술이다. 차이가 있다면 엔비디아는 프레임과 프레임 사이에 한 장의 프레임만 추가 했고 이 프레임 생성을 위해 OFA(Optical Flow Engine)라는 전담 유닛을 추가했다는 것이다. TV처럼 여러 장을 삽입할 수도 있었겠지만 그렇게 되면 지연 시간이 증가해 즉각적인 컨트롤과 반응이 어려워진다. 그래서 삽입되는 프레임은 딱 한 장만 사용하기로 결정했으며 프레임 생성시 발생하는 문제들을 해결하기 위해 OFA를 추가한 것이다. OFA는 새로운 모션 벡터 엔진으로 확인되는 벡터 정보에 픽셀의 움직임 방향과 크기 정보를 결합해 부정확한 프레임 생성을 방지하기 위한 것이다. OFA 자체는 이전 세대부터 제공했지만 에이다 러브레이스의 OFA는 처리량이 2배 빨라졌고 여기에 개선된 모션 벡터 분석 알고리즘을 더해 프레임 생성 기능을 완성한 것이 DLSS3의 핵심이라고 보면 된다. 프레임 생성으로 인해 증가된 지연 시간은 엔비디아 리플렉스(Reflex) 기술이 보완하게 짜여졌는데 이 때문에 DLSS3는 AI 기반 업스케이링과 프레임 생성 그리고 리플렉스가 하나의 패키지로 제공하도록 되어 있다. 게이머는 3가지 기술을 모두 사용할 수도 있고 프레임 생성을 끄고 DLSS2 처럼 사용할 수도 있다. 엔비디아는 DLSS3의 프레임 생성 기술을 포함해 최대 4배까지 프레임 증가가 가능하다는 입장이며 CPU 성능에 제약을 받는 조건에서도 프레임 증가가 가능한 점을 DLSS3의 핵심 중 하나로 소개하고 있다.
■ TSMC 4nm 공정, 트랜지스터 집적도는 2배 이상 에이다 러브레이스로 개발된 플래그쉽 칩은 AD102다. 이 칩은 TSMC의 4nm 커스텀 공정에서 생산 됐으며 다이 사이즈만 608.5 mm2에 달하는 빅사이즈 모델이다. 이 크기에 763억 개의 트랜지스터가 집적 됐으니 283억 개로 AD102 보다 조금 컸던 암페어의 GA102와 비교하면 놀라지 않을 수 없을 텐데 2배 이상의 트랜지스터 집적도 만큼이나 놀라는 것이 바로 쿠다 코어 구성이다. AD102에는 18432개의 쿠다 코어가 내장되어 있다. RT코어도 144개고 텐서 코어도 576개나 된다. GA102가 10752개의 쿠다 코어와 336개의 텐서 코어, 84개의 RT 코어를 탑재한 것과 비교하면 쿠다 코어에 얼마나 많은 트랜지스터가 사용 됐는지는 알 수 있을 텐데 그 만큼 깡성능에 많은 부분을 할애한 것이 바로 AD102다. 쉽게 말해 아키텍처 변화 보다 물량 투입으로 성능을 끌어 올렸다고 보면 된다. 거기다 부스트 클럭 까지 0.7GHz나 끌어 올렸으니 게이머들이 기대했던 성능을 충분히 제공할 수 있는 것이 지포스 RTX 40 시리즈라 생각하면 될 것이다. 오늘 소개하는 지포스 RTX 40 시리즈는 풀 칩은 아니지만 AD102의 성능 증가를 제대로 느끼기에 충분한 지포스 RTX 4090이며 함께 소개된 RTX 4080 시리즈는 11월 중 제품 출시와 함께 성능이 공개 될 예정이다.
■ 두껍지만 길이는 줄어든 지포스 RTX 4090 FE AD102로 생산된 지포스 RTX 4090은 풀 칩 보다 일부 사양이 줄어들었다. RTX 3090 Ti와 RTX 3090의 관계 처럼 일부 유닛을 제한한 것이 지포스 RTX 4090이다. 풀 칩 사양을 적용한 상위 모델이 어떤 제품명으로 언제 등장할지는 아무도 모른다. 어쨌든 지포스 RTX 4090은 그런 성격을 가진 제품이라서 18432개가 아닌 16384개의 쿠다 코어만 사용할 수 있고 RT 코어와 텐서 코어도 128개와 512개만 사용하도록 만들어졌다. 이 조건을 이전 세대(RTX 3090)와 비교하면 코다 코어와 RT 코어 그리고 텐서 코어 모두 1.56배 증가된 것으로 나타났다. 엔비디아는 RTX 3090이 아닌 3090 Ti와 비교하고 있으나 RTX 4090도 풀 칩이 아닌 이상 정확한 세대 비교는 RTX 3090과 하는 것이 맞는다고 생각한다. 이런 양적 증가에 더해 기술적인 발전과 0.7GHz 증가한 부스트 클럭까지 더해지다 보니 지포스 RTX 4090의 실제 성능은 1.56배 이상도 가능하리라 생각된다.어차피 결과는 차트만 보면 바로 알 수 있으니 자세한 건 해당 파트에서 추가하기로 하고 지금부터는 엔비디아가 설계하고 생산한 지포스 RTX 4090 파운더스 에디션에 대해 이야기해 볼까 한다. 지포스 RTX 4090 파운더스 에디션은 지포스 RTX 3090 파운더스 에디션 만큼 크고 묵직하다. 처음 지포스 RTX 4090 파운더스 에디션을 꺼냈을 때는 지포스 RTX 4090 파운더스 에디션 보다 더 크고 무겁다는 생각도 들었지만 실제 두 제품을 비교해 보니 무게 증가는 거의 없고 대신 두께가 두껍고 길이는 살짝 줄어든 것을 확인할 수 있었다. 사진으로 봐도 지포스 RTX 4090 파운더스 에디션이 3090 보다 길이가 짧다. 높이는 거의 그대로고 무게는 아주 살짝 무거운 것으로 측정 됐지만 저울의 오차범위를 생각하면 사실 상 같은 무게라 봐도 무방할 것이다. 한 동안 이슈였던 PCIe Gen5 파워 커넥터는 문제가 없는 것으로 확인됐다. 재장착 30회라는 기준도 다른 케이블에도 적용되던 기준이라 PCIe Gen5 파워 커넥터만 특별히 제한한 것도 아니라고 한다. 엔비디아가 PCI-SIG에 공유했던 이슈는 이미 해결됐고 그런 문제 없이 일반 파워서플라이를 사용할 수 있는 PCIe Gen5 파워 커넥터 변환 케이블이 번들로 제공된다. 이 변환 케이블은 8핀 PCIe 커넥터 4개를 필요로 하지만 3개만 연결해도 사용에는 문제가 없다. 단, 커넥터 당 감당해야 할 와트수가 높아지면 그 만큼 부하가 높아지고 파워서플라이에 안 좋은 영향을 줄 수 있다. 일부 파워서플라이 유통사는 이런 문제를 감안해 모듈러 파워일 경우 PCIe 파워 커넥터 단자를 순차적으로 연결하지 말고 사이 사이를 비워 놓는 것이 좋다고 공지한 바 있다. 지포스 RTX 4090 파운더스 에디션과 함께 제공되는 PCIe Gen5 파워 커넥터 변환 케이블은 논란에서 벗어났지만 이로 인한 장착 문제가 발생했다. PCIe Gen5 파워 커넥터 변환 케이블의 단자 부분이 쉽게 꺾이지 않는 구조인데다 ㄱ자도 아니라서 일반적인 미들 타워 케이스에 장착할 경우 사이드 패널을 닫지 못할 수도 있다. RTX 3090 파운더스 에디션 처럼 파워 커넥터를 기판과 직각으로 두고 비스듬한 경사로 배치했다면 이런 문제가 없었을 텐데 이번에는 다른 일반적인 그래픽카드처럼 수직으로 꽂게 만들어 놨으니 이런 문제가 발생할 수 밖에 없다. 케이스 내부 깊이가 좀 깊은 구조의 케이스라면 문제가 없겠지만 그렇지 않은 케이스들을 사용한다면 번들로 제공되는 PCIe Gen5 파워 커넥터 변환 케이블 대신 파워서플라이로 직접 연결되는 12VHPWR 케이블을 구하거나 케이스 제조사에서 판매하는 수직 장착 브라켓을 알아봐야 할 것이다. 참고로, 필자가 사용하는 리안리 PC-O11 Air도 깊이는 일반 미들 타워 케이스랑 별반 차이가 없어서 강화 유리로 된 사이트 패널을 닫지 못했다. 엔비디아는 이에 대한 여유 공간으로 1.4인치, 그러니까 36mm 정도의 여유 공간을 확보해야 장착이 가능하다고 설명하고 있다.
■ 지포스 RTX 4090 FE에 필요한 파워서플라이는? 지포스 RTX 4090 FE의 TDP는 450W다. 여기서 TDP는 칩 파워가 아닌 그래픽카드 전체를 기준으로 한 소비전력이다. 그래서 450W를 그래픽카드가 소모하니 CPU가 소모할 전력과 주변 기기가 소모할 전력을 합쳐 최소 850W 이상의 파워서플라이는 필요하다는 것이 엔비디아측 설명이다. 하지만, 이 설명은 최소 기준일 뿐이다. 권장은 850W 보다 높을 수 밖에 없고 이에 대한 확인은 파워서플라이 제조사에 문의하라는 것이 엔비디아의 입장이다. 이에 대해 파워서플라이 제조사는 PCIe AIC Power 기준으로 2배 용량은 사용해야 한다고 입장이다. 지포스 RTX 4090 FE의 TDP가 450W니 900W라는 말이 되고 시장엔 사실 상 900W 파워가 없으니 1000W는 선택해야 안정성에 문제가 없다는 말이 된다. TDP 450W가 이번이 처음도 아니니 그렇게 놀랄 일은 아니지만 지포스 RTX 4090 FE를 제대로 사용하려면 그 만큼 고출력 파워도 필요하다는 점 꼭 잊지 말기 바란다. 혹시나, 출력이 검증되지 않은 뻥파워로 지포스 RTX 4090 FE를 돌리길 희망한다면 처음부터 기대를 접는 것이 좋을 텐데 파워와 함께 지포스 RTX 4090 FE가 사망할 가능성이 매우 놓다. 필자는 지포스 RTX 4090 FE를 테스트하기 위해 커세어의 AX1600i를 가져 왔다. 이 파워는 차세대 질화갈륨(GAN) 트랜지스터를 적용한 몇 안 되는 고성능 파워서플라이로, 일반 트랜지스터 보다 전기 저항이 낮고 스위칭 속도가 빨라 40% 향상된 전력 밀도를 제공하면서도 기존 보다 더 작은 크기로 파워서플라이를 제작할 수 있다는 이점이 있다. 이 제품이 처음 출시 됐을 당시에는 질화갈륨 트랜지스터가 워낙 신소재여서 잘 알려지지도 않았지만 최근에는 고출력 USB 충전기에도 활용되면서 일반 소비자들에게도 많이 알려지게 됐다. 커세어의 AX1600i는 질화갈륨(GAN) 트랜지스터에 더해 다양한 안정장치를 기본으로 제공하고 티타늄 등급의 고효율 파워서플라이로 인증 받았으며 싱글레일이면서도 풀 모듈러 파워서플라이로 동작이 가능하다는 장점도 있다. 모듈러 조건에선 출력 커넥터마다 최대 출력을 지정할 수 있는 기능도 제공하며 각각의 출력 상황을 실시간 모니터링 하는 기능도 제공한다. 모든 면에서 지포스 RTX 4090 FE와 RTX 4090 Ti로 예상되는 AD102 풀 칩 모델을 소화할 수 있는 몇 안 되는 파워서플라이 제품인데 이 정도면 PC 파워는 종결해도 된다. 출력이나 품질, 기능성 모든 면에서 더 바랄 것이 없는 제품이다.
■ 지포스 RTX 4090 FE, 깡성능을 확인하자 지포스 RTX 4090 FE의 성능은 진짜 놀랍다는 말이 절로 나온다. 일일이 모든 게임과 벤치마크 항목을 소개할 필요 없이 모든 결과에서 이전 세대와 경쟁사를 압도하는 결과를 보여줬다. 2K QHD 조건은 CPU 성능에 제약을 받는 게임이 일부(HZD,FarCry6) 있었으나 그런 게임에서도 지포스 RTX 4090 FE가 20% 이상 높았으니 깡성능 만큼은 진짜 역대급이라 하지 않을 수 없다. 앞서 설명 했듯이 1.56배의 물량 공세에다 0.7GHz 플러스 된 부스트 클럭까지 더해졌으니 어찌 보면 당연한 결과일 텐데 그럼에도 믿기지 않을 만큼 지포스 RTX 4090 FE의 성능 증가폭은 놀랍기만 하다.
■ 레이트레이싱, DLSS 없이 가능한가? 레이트레이싱을 DLSS 없이 사용한다는 건 불가능에 가까웠다. 특히 4K 해상도는 진짜 말도 안 됐는데 그게 이제 말이 되고 있다. 지포스 RTX 4090 FE는 DLSS 없이 4K로 레이트레이싱 최고 옵션을 소화할 수 있다. 게임에 따라 실시간 60Fps가 불가능한 경우도 있었지만 메트로 엑소더스 인핸스드 에디션 조차 4K60 이상을 소화해 냈다. 레이트레이싱에 더 많은 작업을 할애한 사이버펑크2077은 아쉬운 면이 없지 않지만 레이트레이싱 품질을 더 높인 오버드라이브 모드 조차 3세대 RT 코어의 최신 기술로 40 프레임대를 유지할 수 있어 DLSS 없는 레이트레이싱 게임이 더 이상 꿈이 아니라는 것을 확인할 수 있었다. 그래도 아쉽다면 원본 보다 나은 화질을 제공하는 DLSS2 퀄리티 모드를 선택하면 된다. 지포스 RTX 4090 FE의 DLSS2 퀄리티 모드는 4K 해상도에서 100 프레임대 게임 플레이가 가능하다는 것을 보여줬는데 어차피 깡성능 차이가 반영된 결과라지만 4K에서 이 정도 프레임을 실현할 수 있게 됐다는 것이 놀랍기만 하다.
■ 프레임 생성 기능 추가된 DLSS3, 얼마나 빨라지나? 프레임 생성 기능이 추가된 DLSS3는 이론 상 4배까지 프레임을 증가시킬 수 있다. DLSS2에서 제공했던 AI 업스케일 기능으로 프레임을 2배 증가시킨 후 프레임 생성 기능으로 프레임을 추가하면 4배가 되는 아주 간단한 공식이다. 하지만, 이 공식이 언제나 성립하는 것은 아니다 최적의 조건에서만 이런 공식이 성립할 수 있는데 실제 게임과 테크 데모, 벤치마크 프로그램에선 어떤 결과들이 확인 됐는지 지금부터 확인해 보도록 하자. 지포스 RTX 4090 FE로 확인한 DLSS3는 AI 업스케일만 사용한 DLSS2 보다 더 높은 프레임을 재현해 냈다. 원본 보다 AI 업스케일링을 적용한 DLSS2가 프레임이 높았고 여기에 프레임 생성 기술을 적용한 DLSS3가 더 높은 프레임을 재현했다. DL2S2만 적용할 수 있는 지포스 RTX 3090 FE와 비교하면 3배 이상 차이 난 경우도 있었는데 같은 게임에서 지포스 RTX 4090 FE 스스로도 3.43배라는 결과가 나왔으니 엔비디아가 주장한 4배가 결코 허황된 수치는 아니라는 것을 입증했다고 본다. 특히, MS 플라이트 스뮬레이터 같은 경우 CPU 성능에 묶여 AI 업스케일로도 프레임 증가가 어려운 게임 였지만 프레임 생성 기능을 통해 그런 제약에서 벗어날 수 있다는 점도 확인됐다. 이 정도면 무에서 유를 창조했다고 해도 과언이 아니다 싶은데 언제가 될지는 모르겠지만 DLSS2를 지원하고 있는 그 많은 게임들이 프레임 생성 기능이 추가된 DLSS3로 어서 빨리 업데이트 되기를 희망해 본다. 참고로 위 테스트 결과는 엔비디아와 게임 개발사들이 제공한 DLSS3 테스트 버전을 사용한 것이며 정식 업데이트 버전의 릴리즈 시점을 확인되지 않았다.
■ 지포스 RTX 4090 FE의 컴퓨팅 성능과 듀얼 인코더 성능 그래픽카드는 다양한 분야에 활용할 수 있다. 한때 가격 폭등의 원인으로 지적 됐던 가상 화폐 채굴에도 그래픽카드를 사용할 수 있었고 각종 시뮬레이션 작업과 3D 랜더링, 영상 편집 및 인코딩 작업에도 그래픽카드를 활용하는 것이 지금의 PC 환경이다. 지포스 RTX 4090 FE도 그런 환경에서 얼마나 높은 성능을 발휘할 수 있는지 확인하기 위해 몇 가지 테스트를 실시했다. 우선, 모든 프로세서의 연산 성능을 확인하고 비교하는데 활용되는 긱벤치 결과에서 지포스 RTX 4090 FE의 연산 성능은 게임 만큼은 아닐지라도 확실히 이전 세대와는 차별화 된 성능이 제공되는 것으로 나타났다. 이러한 차이는 계산 영역을 넘어 실제 작업 환경을 대변하는 블랜더 벤치마크에선 더 큰 차이로 다가 왔는데 monster 항목에선 점수 차이가 2배 이상 벌어지기도 했다. 이 정도면 역대급이라 해도 과언이 아닐 것이다. 다빈치 리졸브 18에서 제공되는 Ai 마스킹 기능에도 GPU가 사용된다. GPU 성능에 따라 전체 트랙에서 마스킹을 처리하는 시간이 차이 날 수 밖에 없다. 결과는 블랜더 벤치마크의 Monster 만큼은 아니지만 거의 2배 가까이 작업 시간 차이가 났다. 경쟁사의 최상위 모델과 비교하면 진짜 말도 안 되는 수준이다. 마지막으로 확인한 것은 지포스 RTX 4090 FE에 적용된 듀얼 인코더 성능이다. 지포스 RTX 4090 FE 뿐만 아니라 에이다 러브레이스 아키텍처에는 AV1까지 지원하는 2개의 하드웨어 인코더가 탑재되어 있으며 이 인코더를 활용해 작업 시간을 절반으로 낮출 수 있게 만들어졌다. 프레임 한 장을 인코딩 할 때 절반씩 나눠서 2개의 인코더로 압축하는 것이 에이다 러브레이스의 듀얼 인코더인데 그 기능을 활용하면 작업 시간을 크게 줄일 수 있고 실제 결과도 그렇게 나타났다. 특히, 4K60 H.264 영상을 8K30 H.265로 변환하는 작업에선 작업 시간이 절반 이하로 줄어든 경우도 있었는데 여기에 더해 차세대 오픈 소스 코덱으로 자리 잡은 AV1까지 비슷한 작업 시간만으로 인코딩 할 수 있다니 화질 저하 없이 영상 파일 크기를 줄이고 싶은 이들에겐 반가운 제품이 아닐 수 없다.
■ 모든 것을 압도한다, 지포스 RTX 4090 FE 깡성능 부터 레이트레이싱 그리고 프레임 생성이 추가된 DLSS3 까지, 모든 면에서 이전 세대를 압도하는 것이 지포스 RTX 4090 FE다. 30~40% 수준의 명분만 채운 그런 세대 교체가 아니라 게이머들이 기다려 왔던 그런 임팩트 있는 세대 교체를 지포스 RTX 4090 FE가 만들어 냈다. 이 정도면 그 누구도 인정하지 않을 수 없을 텐데 환율 문제로 국내 가격에 논란은 좀 있겠지만 100달러 인상된 MSRP를 감안하더라도 그 정도 가치 이상은 충분한 것이 지포스 RTX 4090 FE라고 자신한다. 사실, 100달러 인상된 가격으로 깡성능만 1.5~1.7 배면 오히려 혜자라고 해도 과언이 아니다. 거기다 프레임 생성 기능이 추가된 DLSS3에 듀얼 인코더로 무장한 NVEnc까지 있으니 더 이상 통수라는 말은 나오기 어렵지 않을까 한다. |
댓글
댓글 쓰기