GDDR5는 끝났다? 차세대 GPU와 게이밍을 위한 HBM 메모리
다음 달 발표 예정인 라데온 R300 시리즈는 GDDR5가 아닌 HBM이라는 새로운 메모리가 탑재된다.
지난 금융 분석가 행사에서도 HBM이 언급 됐고 새로운 GPU 라인업에 HBM 기술이 적용됐다는 사실을 AMD가 인정한 바 있는데 AMD가 HBM을 자세히 소개하는 자리를 마련 했었다.
오늘은 이날 소개된 HBM에 대해 알아보는 기사를 준비했다.
■ GDDR5 메모리, 한계가 왔다
|
▲ GDDR5 / 512-bit / 320GBps BW를 구현한 라데온 R9 290X
GPU와 찰떡 궁합이었던 GDDR 메모리는 세대를 거듭하며 더 높은 대역폭을 실현해 왔다. 반도체 생산 공정이 미세화 될 수록 더 높은 용량을 실현하면서 더 빠른 속도로 대역폭 향상을 이끌어 왔다.
그러나, UHD로 대표되는 초고화질 콘텐트 시대로 접어들면서 GDDR 메모리가 한계에 다다랐다는 평가가 지배적이다.
GDDR5 메모리를 적극 사용해 온 그래픽카드도 2013년 512-bit 버스로 320~336GB/s 대역폭을 달성했을 뿐 최근 출시된 플래그쉽 제품에선 대역폭 향상이 멈춘 상태다.
단순 계산으론, GDDR5 메모리 32개를 연결하면 1024-bit 버스(32-bit 버스 x 32)를 사용할 수 있고 그렇게 되면 대역폭이 2배로 증가할 것 같겠지만 구리 배선을 이용한 PCB 회로에서 1024-bit 버스를 구현하는 것 자체가 어렵기도 하고 이를 구현한다 해도 시그널 노이즈 때문에 동작 속도를 원하는 만큼 높일 수 없는 한계가 있다.
결국 비용만 증가할 뿐 실제 얻어지는 혜택이 크지 않기 때문에 512-bit 이상의 버스를 실현하고 싶어도 할 수 없는 것이 지금의 GDDR5 메모리 기반 그래픽카드인데 AMD는 이러한 한계를 극복하기 위해 HBM를 선택했다.
■ HBM 이란 무엇인가?
|
HBM는 High Bandwidth Memory의 약자다. 이름 그대로 대역폭이 높은 메모리고 이는 GDDR5 대비 3.5배 이상이다.
이러한 메모리 대역폭 차이는 HBM의 구조적인 특징 때문에 가능한 것이다.
기존 GDDR5 메모리는 DRAM 다이 하나만 패키징 하고 32-bit 버스에 1750Mhz로 동작시켜 필요한 대역폭을 얻어냈지만 HBM은 다수의 DRAM 다이를 하나로 패키징 시키고 1024-bit 버스를 사용해 저속으로도 3배 이상의 대역폭을 실현할 수 있도록 만들어 졌다.
적층된 DRAM 다이는 실리콘관통전극(TSV) 기술로 베이스 다이와 연결되기 때문에 겹쳐 쌓아도 데이터 전송에 문제가 없다.
그리고 일반 PCB 회로라면 꿈도 못 꿨을 칩당 1024-bit 버스는 보다 미세한 선폭을 구현할 수 있는 실리콘 웨이퍼 기반 인터포저를 채택해 실현시켰다.
기존처럼 PCB 회로로 GPU와 메모리를 연결시키지 않고 실리콘 웨이퍼에 미세한 회로를 만들고 GPU와 메모리를 함께 실장 해 연결한 방식이라서 HBM 칩 한개에 해당되는 1024-bit 버스는 기본이고 4096-bit 버스에 해당되는 회로 구현도 가능한 것이다.
구동 속도는 GDDR5 보다 7배 정도 느리지만 버스 크기가 32배나 높기 때문에 실질적인 대역폭은 HBM 쪽이 3.5배 이상 높고 동작 전압이 낮기 때문에 발열도 적다.
참고로 발열에 대해 덧붙이자면, GPU에 적용된 HBM은 열전도체 역할까지 겸하게 된다고 한다. GPU와 근접하게 패킹된 HBM은 발열이 낮지만 GPU에서 발생한 열이 HBM을 통해 쿨러로 전달되기 때문에 GPU 발열을 낮추는데 도움이 된다고 한다.
■ HBM 1세대의 한계, 용량
|
AMD가 라데온 R300 시리즈에 적용할 HBM은 1세대 제품이다.
칩당 4개까지 DRAM 다이를 적층할 수 있고 DRAM 다이 당 2Gb가 제공된다. 칩 하나로 계산하면 가용 용량은 1GB가 되는데 GDDR5 처럼 넓은 PCB 회로 전 후면에 24개 이상을 박아 넣을 수 있다면 좋겠지만 실리콘 인터포저로 패킹된 HBM와 GPU는 불가능한 구성이다.
AMD가 직접 밝힌 바로는 최대 8개까지 패킹이 가능하다는데 외신을 통해 확인된 바로는 8개 모두 GPU에 직접 연결된 구조는 아니라고 한다. 4개 기준의 4096-bit 버스를 사용하고 두 개씩 버스를 공유하는 방식으로 추측된다.
AMD는 나름의 해법을 찾아서 다행이지만 대용량 버퍼를 요구하는 특수한 환경에선 지금의 HBM은 한계가 있을 수 밖에 없다.
그런 이유로, 2세대 HBM은 칩당 8개까지 DRAM 다이를 패킹할 수 있고 DRAM 다이 용량도 2배 까지 늘어날 계획이다.
4 스택 구조에선 4GB, 8 스택 구조에선 8GB까지 칩 하나로 실현할 수 있게 되며 속도도 2배로 증가하기 때문에 더 이상 GDDR5에 의존할 이유가 없어지게 된다.
2세대 HBM이 등장할 2016년 부터는 GDDR5가 차츰 사라질 전망인데 GDDR5를 고집해 온 엔비디아 마저 2세대 HBM을 차세대 GPU에 적용할 계획이다.
■ HBM, GPU가 끝이 아니다
|
AMD는 HBM을 GPU에 한정하지 않았다. CPU와 GPU를 통합한 이기종 컴퓨팅 분야에도 높은 메모리 대역폭이 필요했기 때문에 GPU에 HBM을 적용한 것은 시작일 뿐 AMD가 출시할 차세대 APU에도 HBM을 적용할 계획임을 분명히 했다.
지난해 2월, AMD가 밝힌 FASTFORWARD 프로젝트에서도 스택 DRAM이 핵심 역할을 담당하게 될 것임을 밝힌 바 있는데 이것이 실현된다면 64-bit DRAM 모듈에 듀얼 채널이나 쿼드 채널에 묶여 100GB/s 대역폭을 넘겨본 적 없던 PC 컴퓨팅 환경에 대대적인 변화를 가져오게 된다.
2세대 HBM이 APU에 접목되면 프로세서와 시스템 메모리 간 데이터 전송은 4개 구성만으로 1024GB/s라는 엄청난 대역폭을 실현할 수 있다.
용량면에선 기존 DRAM 모듈 보다 부족하겠지만 10배 이상 빠른 대역폭을 실현할 수 있어 실질적인 컴퓨팅 속도를 획기적으로 개선할 수 있을 전망이다.
물론, 근 1~2년 사이에 HBM을 시스템 메모리로 사용하는 APU가 출시된다는 말은 아니다. 1차적으론 APU 내부에 집적된 GPU 파트에만 HBM을 할당하고 게임을 포함한 순수 그래픽 랜더링과 이기종 컴퓨팅 작업에서 이를 활용하게 될 것으로 추정되는데 AMD는 ZEN 코어 기반 APU에서 이러한 모험에 도전할 것으로 알려져 있다.
얼마전 유출된 AMD 내부 자료에서도 16코어 ZEN APU가 이러한 구조로 만들어 졌음이 확인된 바 있다.
댓글
댓글 쓰기