2017년 3월 3일 금요일

믿을 수 없는 가성비, AMD '라이젠 프로세서' 성능 확인!

오랫동안 기다려온 AMD의 새로운 아키텍쳐 RYZEN(이하 라이젠) 기반 프로세서가 드디어 PC 시장에 투입된다. 
이미 여러차례 퍼진 루머를 통해 경쟁사 대비 절반 이하의 가격으로 동급의 성능을 낼 것이라는 기대감이 소비자들을 흥분시키고 있다. 
과연 AMD가 내세운 성능 향상이 실제로 일어날 수 있는 지, 혹은 불도저의 재림인지 그 궁금증도 엄청날 것이다. 
케이벤치에서는 AMD 라이젠 SR7 1800x 리뷰킷을 통해 성능을 검증해보기로 했다. 

■ AMD ZEN 아키텍쳐의 등장, '천지개벽'
과거 AMD 전성기 시절을 함께 했던 전설의 CPU 아키텍트 개발자 '짐 켈러'가 다시한번 AMD와 손잡고 만든 'ZEN 아키텍쳐' 기반의 새로운 라이젠 프로세서가 드디어 출시된다.
불도저 이후 5년만에 출시하는 라이젠 프로세서는 공정 미세화와 아키텍쳐 개선으로 클럭당 명령어 처리성능(IPC)을 52% 가까이 끌어올렸다고 한다. 그러면서도 전력 효율은 이전 엑스카베이터와 동급을 유지한다. 
공정 미세화와 아키텍쳐 개선을 동시에 이루면서도 IPC를 40% 끌어올린 저력이 궁금해진다. 가장 큰 변화로는 불도저 세대의 CMT 구조에서 SMT 구조로 변경되었다는 것이다.
단일 스레드만 사용하는 환경에서도 코어 내의 모든 자원을 사용할 수 있게 되면서 자원의 병목 현상에서 벗어났다.  물리적 연산 자원을 스레드 별로 분배해 단일 스레드 성능이 떨어지던 불도저의 악몽에서 벗어나게 된 것이다.
AMD가 설명하는 ZEN 아키텍쳐의 특징은 크게 세가지 부류로 나뉜다. 프로세서 코어 엔진의 개선과 캐시 시스템의 개선 그리고 전력 효율을 위한 기술 탑재이다. 
프로세서 코어 엔진 개선의 경우 SMT 구조로 1코어당 2스레드 처리 가능, OP캐시 탑재로 디코드 성능 개선, 분기 예측 개선 및 각종 연산 자원의 확장이 이뤄졌다. 
캐시 시스템에선 각 내부 캐시의 용량 증설 및 개선된 프리페처, 약 2배로 높아진 L1, L2 캐시 대역폭과 5배 높아진 L3 캐시 대역폭이 등이 주를 이룬다. 
ZEN 아키텍쳐의 코어 개선 중 주목할 만한 점은 OP캐시의 신설이다. 기존 캐시가 디코드되지 않은 자료를 필요로할 때 인출해주는 것과 달리 OP캐시는 이미 디코드된 마이크로옵을 저장, 경우에 따라 디코드 과정을 생략한다. 
또한 코어당 4개의 디코더를 탑재해 인텔 브로드웰과 동일한 사이클당 4~5개의 x86 처리량을 지녔다. 이 디코더를 통해 처리된 마이크로옵과 OP캐시에 저장되있던 마이크로옵을 백엔드로 보내는 마이크로옵 대역폭은 사이클당 6개로 인텔 스카이레이크와 동급이다. 
분기예측에 사용되는 분기 타겟 버퍼(BTB) 및 트랜슬레이션 룩어사이드 버퍼(TLB)가 늘어났는데, 공개된 TLB 크기에 따르면 신설된 L0 TLB (8 entry per core)와 L1 TLB (64 entry per core), L2 TLB(512 entry per core)를 탑재했다. 
분기예측 성능은 버퍼 용량에 비례해 정확도가 높아진다. 신설된 L0 TLB와 불도저 대비 2배로 늘어난 L1, L2 LTB로 향상된 성능을 기대할 수 있겠다. 
정수 실행부는 불도저 대비 두배로 늘어난 4개의 정수 유닛(ALU)과 2개의 로드&스토어 유닛(AGU)으로 구성된 4+2 구조이다. 
또한 192 엔트리 리타이어 큐에서 연산이 끝난 마이크로옵들은 8개씩 리타이어 되며 이 역시 불도저 대비 2배의 향상을 이뤄냈다. 
ZEN 아키텍쳐의 부동소수점 부는 불도저 대비 2배 더 많은 ALU/ FPU를 탑재했으며 각각의 FPU는 256비트 AVX 명령어를 2사이클당 처리할 수 있다.
2계층 스케쥴링 큐 구조와 높아진 백엔드 이슈 포트 대역폭, SSE, AVX1, AVX2, AES, SHA, 레거시 mmx/x87 명령어에 대응하며, AES 유닛은 두 개가 탑재되었다. 
ZEN 아키텍쳐의 캐시 체계는 이번 세대에서 완전히 뒤집혔다. exclusive 방식을 고집하던 AMD가 Includive 방식을 채택했으며 1모듈내 할당되었던 L2캐시를 코어별로 완전 분리시킨 것도 불도저와의 차이점이다. 
L1 캐시는 32+64KB, L2 캐시는 512KB로 인텔 스카이레이크보다도 두배 놓은 캐시 용량을 지니게 되었으며 L3 캐시는 Exclusive 방식으로 코어당 2MB의 용량을 지녔다. 

■ ZEN 아키텍쳐의 뛰어난 전성비는 SenseMI가 뒷받침한다
AMD는 라이젠 이전에 28nm 공정만을 쓸 수밖에 없었던 환경에서 어떻게든 프로세서 성능을 끌려올려 보고자 여러 기술들을 만들어왔다. 
라이젠 프로세서에 탑재된 다섯가지 AMD SenseMI 기술들도 갑자기 튀어 나왔다기 보다는 AMD가 이전부터 시도해왔던 신기술들이 라이젠과 만나 결실을 맺었다고 할 수 있다. 
그 첫번째 기술인 Pure Power는 AMD가 카리조 APU에서 도입했던 AVFS 기술을 계승한 것이다. 프로세서내 회로 사이사이에 임베디드 센서를 배치해 실시간으로 전압/ 온도를 측정하고 적절한 프리퀀시 및 전압을 제어함으로써 소비전력의 최적화를 이뤄냈다. 
앞으로 소개될 프리시전 부스트와 자동 오버클럭 기술인 XFR 과도 연관이 깊다. 
프리시전 부스트는 기존의 클럭 부스트 알고리즘에서 100MHz 단위로 움직이던 것을 25MHz 단위로 세부조절 가능하게 되면서 와트당 성능비를 더욱 최적화하게 된 것이다.
그리고 라이젠에서 선보이는 새로운 기능 XFR은 컴덕이나 전문가들이 손수 만져왔던 오버클럭의 영역을 자동화시켠 혁신적인 기술이라 할 수 있다. 기본 원리는 온도가 높으면 클럭을 낮추던 알고리즘을 정 반대로 적용시켰다고 생각하면 이해하기 쉽다. 
거대한 공랭쿨러나 일체형 수냉쿨러, 액화질소 등의 쿨링 솔루션이 받쳐만 준다면 사용자가 귀찮게 손댈 것 없이 자동으로 CPU 클럭이 상승한다. 라이젠 프로세서 라인업에선 'X'네이밍이 붙은 제품에서 XFR 오버클럭을 지원한다. 
이외 두가지 솔루션은 전성비보다는 아키텍쳐 개선과 관련이 있다. 젠 아키텍쳐에는 신경망 예측이라는 기술이 도입되었는데, 이미 밥캣이나 재규어에서 선보였던 것을 개선한 것이다. 
분기 예측 이후 디코드가 필요한 마이크로옵을 위해 미리 디코더를 준비해준다던가 마이크로옵의 최적화된 작업 경로를 예측하여 제공하고 소프트웨어 코드 실행을 통해 필요한 명령어를 미리 불러오는 작업을 한다. 
젠 아키텍쳐의 캐시 체계는 앞서 설명되었듯 L1/ L2 캐시의 inclusive 구성과 L3 캐시의 Exclusive 구성으로 되어있다. 
L3 캐시는 L2캐시에서 방출되는 데이터만을 담아두는 빅팀(Victim)캐시로 설계되었는데, 데이터가 자주 들어가고 나가는 상황에선 불필요한 데이터 흐름이 발생하게 된다. 
이를 개선하기 위한 알고리즘으로 스마트 프리페처 기술이 적용되었다. 어플리케이션 코드를 통해 데이터의 처리 위치를 미리 고안하고 어플리케이션 데이터 액세스 패턴을 스스로 익히도록 설계했다. 
중요 데이터를 로컬 캐시에 미리 프리페칭 함으로써 즉각적인 데이터 처리에 대응할 수 있다. 

■ 실성능 검증해보니, 초과목표 달성은 '트루'
이제 이론은 충분하다. 이 기사를 읽을 때쯤 이미 라이젠의 다양한 성능 벤치마크 자료들이 올라왔겠지만, 필자도 불도저와의 성능 비교를 하지 않을 수가 없었다. 
AMD가 젠 아키텍쳐를 처음 발표할 당시 40%의 IPC 향상을 예고했었지만, 얼마전 AMD는 자신있게 52%의 초과 달성을 이뤄냈다고 발표했다. 그럼 우선 CPU 연산 성능과 관련된 벤치마크 결과를 보자. 
비교군에 사용된 AMD 비쉐라 FX8370은 엑스카베이터가 아니라 파일드라이버 기반이기 때문에 젠 아키텍쳐와 비교한다면 52%가 아닌 72%의 IPC 향상을 보여줘야 한다. (물론 테스트에는 베이스 클럭을 3.6GHz로 다운클럭하여 1:1 매칭했다.)
테스트에 사용된 Sandra 2016 SP1은 CPU의 기본적인 연산 성능을 측정하기 위한 툴이며, Cinebench와 Blender는 그래픽 렌더링 성능을 측정하기 위한 툴이다. x265 Benchmark는 미디어 인코딩 성능을 측정하고 7zip은 암호화, 복호화 성능을 측정한다. 
Sandra 2016 SP1의 경우 라이젠 R7 1800X가 FX8370대비 평균 82% 높은 클럭당 성능을 보여줬다. Cinebench R15 싱글 스레드 기준으론 88.2%의 향상, Blender의 렌더링 테스트에선 소요시간이 절반 가까운 48% 줄어들었다. 아키텍쳐 변경으로 인한 ipc 향상을 톡톡히 본 셈이다.
멀티 스레드 기준에선 더욱 두드러진 성능 향상 폭을 확인할 수 있다. 
Sandra 2016 SP1의 세가지 테스트 기준으로 평균 181.5%의 향상 폭을 보여줬으며, Cinebench R15에선 153%의 멀티스레드 성능 향상을 볼 수 있다. 
Blender의 멀티 스레드 렌더링 테스트에선 소요시간이 반으로 줄었으며 x265 벤치마크에선 1080P 영상 기준 2배 이상, 4K 영상 기준으론 3배 이상의 빠른 처리속도를 보여줬다. 마지막으로 7zip 벤치마크에서는 74%의 성능 향상 폭을 보여준다. 
게이밍 성능에서도 큰 차이를 보일까? 
3D 성능 측정 벤치마크 툴인 3DMARK는 그래픽카드의 성능 뿐만 아니라 CPU의 Physucs 연산 성능도 측정할 수 있다. 
또한, CPU 성능 차이가 두드러질 것으로 예상되는 RTS 장르 'Ashes of Singularity', Total War: Warhammer와 DX12 기반의 라이즈 오브 더 툼레이더, 기어즈 오브 워 4를 통해 게이밍 성능을 알아보기로 했다. 
3DMark Fire Strike Ultra의 종합점수는 약 200점 차이로 5% 내외의 차이를 보였지만, CPU만의 Physics 성능은 R7 1800X가 150%나 높은 것을 알 수 있다. 
실제 게이밍 테스트에서는 각각의 타이틀마다 편차가 있다. 라이즈 오브 더 툼레이더, 토탈 워: 워해머 등의 게임은 성능 향상이 미미한 모습을 보여줬다. 
반면, Ashes of Singularity, Thief, Hitman(2016), Gears of War 4의 경우 CPU 성능에 따라 최고 44%의 성능 향상을 경험할 수 있다.  

■ 뛰어난 발열과 전력소모량 
AMD 라이젠 프로세서는 앞서 살펴봤듯 퓨어 파워, 프리시전 부스트, XFR 등의 기술로 전력 효율을 최대한 끌어올린 것이 특징이다. 
라이젠 R7 1800x는 8코어 16스레드 3.6GHz임에도 95W의 전력 설계(TDP)가 이뤄졌다. 그만큼 발열도 적을 터, AIDA64의 시스템 안정성 테스트를 통해 CPU와 FPU만 스트레스를 가하며 30분간 CPU 온도를 측정했다.
AMD 라이젠 R7 1800X의 기본(IDLE) 온도는 29도 였으며, 풀 로드 시에도 최대 57도에서 더이상 상승하지 않고 유지되는 모습을 보여주었다. 
테스트에 사용된 AMD Wraith MAX 쿨러의 성능이 준수한 것도 있겠으나, 기본적으로 라이젠 프로세서의 발열량이 양호하다는 것을 알 수 있다. 
시스템 전력 소모는 라이젠 R7 1800X가 FX8370 대비 아이들 상태에서 15W 정도 더 높았으나, 풀로드 상황에선 15W 정도 더 낮은 시스템 전력 소모량을 보여주었다. 
8코어 16스레드 구성과 그에 맞는 성능 향상 폭에 비해 오히려 더 낮은 풀로드 전력을 보여줌으로써, 전력 효율 또한 높다는 것을 알 수 있다. 

■ 믿을 수 없는 가성비, 2017년 새 PC는 라이젠이 답이다
이번 라이젠 프로세서의 성능 향상 폭은 AMD에겐 혁신이다. 인텔을 따라잡는 것 뿐만 아니라 넘어서게 되었다는 것에 충분한 의미가 있다. 
하지만 진정한 혁신은 높은 성능이 아니라 바로 가격 파괴에 있다. 진짜(?) 옥타코어로 돌아온 라이젠 프로세서를 40만원대부터 만나볼 수 있게 된 것이다. 
경쟁사 제품으로 보면 동급 제품을 위해 두배 이상의 가격을 지불해야 하는 경우도 있고 메인보드 가격부터 비교가 불가능하기에, 둘의 가성비를 논하는 것 조차 거리가 멀어졌다. 사실 경쟁사의 동급 라인업은 일반인들을 대상으로 판매하던 제품이 아니었기 때문에 비싼 것이기도 하다. 
경쟁사는 이번 AMD의 라이젠 프로세서로 인해 가격 인하라는 무기로 방어를 해보이겠지만, 라이젠 프로세서는 경쟁사의 시장 생태계를 무너뜨리기에 충분하다. 보다 저렴한 가격으로 즐기는 하이엔드 데스크탑, 막힘없는 멀티태스킹을 원하는 소비자라면 라이젠 R7 시리즈를 고려해보지 않을 수 없을 것이다. 
또한, 올해 적당한 가격으로 뛰어난 가성비의 PC를 맞출 소비자들은 좀 더 저렴한 가격대의 라이젠 R5, R3 시리즈를 기다리는 것이 합리적인 선택이 될 것이다.

아기를 재워주는 토끼 인형 '루비 두비 인형'

크라우드 펀딩 사이트인 인디고고에서 잠을 보채는 아이를 위한 제품이 등장했다. 바로 '루비 두비 인형(Rubby Dubby Dolls)'라는 제품이다. 이 제품은 귀여운 토끼 인형으로 아이를 잠재우기 위한 특별한 기능이 탑재됐다...