[이슈분석]인텔 제온 스케일러블 프로세서의 혁신… 높은 확장성에 고성능 구현

발행일 : 2017-07-12 13:46 업데이트 : 2017-07-13 14:18 지면 : 2017-07-13 6면

인텔은 11일(현지시간) 미국 뉴욕에서 차세대 데이터센터용 프로세서 신제품 '제온 스케일러블 프로세서'를 공개했다.

제온 스케일러블 프로세서는 개발 코드명 스카이레이크-SP로 알려진 제품이다. 인텔은 기존의 제온 프로세서 대비 성능 전반이 60% 향상됐다고 밝혔다. 제온 스케일러블 프로세서는 제온 플래티넘, 골드, 실버, 브론즈 제품으로 나뉜다. 최고 등급 제품인 제온 플래티넘의 경우 1개 서버에 최대 8개를 꽂아 쓸 수 있다. 소켓과 소켓 간 데이터의 송수신 성능을 높이고 칩 내부 프로세서 코어 간 데이터를 교환하는 방법도 기존의 링 방식에서 촘촘한 그물을 깔아 둔 것 같은 메시 방식으로 바꿔 효율을 높였다. 이처럼 확장성이 강화됐다는 점에서 '스케일러블'이란 단어를 붙였다고 인텔은 소개했다.

스카이레이크-SP와 쌍으로 붙어 활용될 메인보드 칩셋(PCH)인 C620시리즈(코드명 루이스버그)도 이날 세부 사양이 공개됐다. 10개의 USB 3.0포트, 4개의 10Gb 이더넷 포트와 각종 보안 기술이 내장됐다.

인텔은 그동안 이 둘을 합친 차세대 데이터센터 플랫폼을 코드명 펄리로 불러 왔다. 스카이레이크-SP, 루이스버그 PCH, 펄리 플랫폼은 앞으로 데이터센터 컴퓨팅 시장에서 자주 듣게 될 용어다.

제온 스케일러블 프로세서의 혁신 구조 개선 5개 사항을 짚어 본다.

◇높아진 확장성, AVX512 명령어 세트 지원

제온 스케일러블 프로세서는 '스케일러블'이란 이름 그대로 전작 제품 대비 확장성을 높였다. 데이터센터 컴퓨팅 기술은 한정된 공간 안에서 전력을 효율 높게 쓰고 성능을 높이는 방향으로 진화하고 있다. 제온 스케일러블 프로세서 시리즈의 최상위 제품인 제온 플래티넘은 최대 28코어가 탑재되며, 8개 이상의 소켓 구성을 지원한다. 서버 대당 최대 224개 코어를 내장할 수 있는 셈이다. 기존의 제온 E5 v4는 최대 22개, 제온 E7 v4는 최대 24개 코어를 각각 갖추고 있었다.

한 걸음 더 진화된 벡터 확장 명령어 세트인 AVX512도 지원한다. 벡터 연산은 하나의 명령어가 다중 데이터를 병렬로 처리함을 뜻한다. 동영상 인코딩이나 사진 처리 능력을 높일 때 활용된다. 인텔이 이날 제시한 자료에 따르면 AVX256은 와트(W)당 2.92기가플롭스(GFLOPS, 1기가플롭스에 매 초 10억회 부동소수점 연산), AVX512는 W당 4.83기가플롭스 성능을 냈다. 또 1기가헤르츠(㎓) 클록당 AVX256은 3.77기가플롭스, AVX512는 7.19기가플롭스 연산이 각각 가능했다. 코어당 연산 효율이 높아졌다는 의미다. 인텔은 동일 동작 클록에서 제온 스케일러블 프로세서 코어 성능 전반이 전 세대 제품 대비 10% 향상됐다고 설명했다.

◇메시 아키텍처, 그물처럼 촘촘하게 코어 간 데이터 송수신

제온 스케일러블 프로세서는 코어 간 데이터 송수신 구조를 기존의 링 방식에서 메시 방식으로 변경했다. 코어 개수가 많은 데이터센터 프로세서에 더욱 특화된 구조다. 기존의 고성능 제온 프로세서 시리즈에는 최대 24개 코어가 들어가 있다. 1번부터 12번 코어와 13번부터 24번 코어가 각각 다른 링 버스로 엮인 구조였다. 첫 번째 링에서 두 번째 링 버스로 데이터를 넘기려면 중앙 버퍼를 거쳐야만 했다. 코어 숫자가 더 많아질 경우 효율성 문제를 야기할 수 있는 구조였다. 제온 스케일러블 프로세서는 이 같은 링 구조를 촘촘한 그물처럼 바꿨다. 그래서 메시라는 이름을 붙였다. 이 구조를 적용해 데이터 전송 거리가 짧아졌고, 지연 시간도 단축됐다. 이 같은 구조를 접목함으로써 코어 개수를 늘리는 것이 용이해졌다.

인텔은 메시 아키텍처를 적용, 낮은 동작의 주파수와 전압에서도 높은 대역폭과 저지연 시간을 보장한다고 설명했다. 설명에 따르면 마치 체증 없이 최적 속도로 주행하도록 설계된 고속도로를 설치한 것과 같은 효과다.

◇캐시 메모리 구조 개선

캐시 메모리는 프로세서 코어와 메인 메모리 속도 차이에 따른 병목 현상을 줄여 주는 역할을 한다. 캐시 메모리 용량을 늘리면 성능이 좋아지겠지만 그럴수록 프로세서 내 많은 면적을 차지, 원가가 상승할 수밖에 없다. 인텔은 제온 스케일러블 프로세서의 2차(L2), 3차(L3) 캐시 메모리 구조를 효과 높게 변경했다.

코어당 독립 사용되는 L2 캐시 메모리 용량은 기존의 256킬로바이트(KB)에서 1메가바이트(MB)로 늘고, 모든 코어를 공용하는 L3 캐시 메모리 용량은 코어당 2.5MB에서 1.375MB로 줄었다.

기존에는 L2에 저장된 데이터가 L3에도 저장됐다. 바뀐 구조에선 L2에 특정 데이터가 있으면 L3에 그대로 복사하지 않는다. 이 같은 구조를 적용함으로써 L2 캐시 메모리의 성능은 대폭 높아진 반면에 L3는 용량을 줄였음에도 기존보다 크게 성능이 떨어지지 않았다고 인텔은 설명했다. 적은 비용으로 효과를 극대화한 것이다.

◇60% 확대된 메모리 대역폭, 전체 I/O 대역폭은 50% 향상

제온 스케일러블 프로세서에는 총 2개의 메모리 컨트롤러가 탑재된다. 컨트롤러 1개에 채널 3개가 준비돼 총 6개 채널을 지원한다. 이는 총 4개의 채널을 지원하던 전작보다 늘어난 것이다. 인텔은 종전 제온 E5 v4와 비교했을 때 메모리 대역폭이 60% 증대됐다고 설명했다. DDR4 메모리의 경우 2666메가헤르츠(㎒)를 지원한다. 프로세서 소켓당 지원하는 최대 메모리 용량은 1.5테라바이트(TB)다. 이 밖에 PCI익스프레스(PCIe) X16 등 각종 입출력(I/O) 컨트롤러를 프로세서에 내장하는 등 구조 변경으로 전반에 걸쳐 I/O 대역폭을 50% 향상시켰다.

◇UPI, 고속 고효율 소켓 간 연결 기술로 확장성 개선

1개 서버에 다량의 제온 스케일러블 프로세서를 탑재할 경우 프로세서가 탑재되는 소켓 간 데이터를 주고받는 속도도 전체 성능에 큰 영향을 미친다. 인텔은 그동안 QPI(Quick Path Interconnect)라는 기술로 여러 프로세서의 데이터를 주고받았다. 제온 스케일러블 프로세서에는 소켓 간 2개 또는 3개 통로로 데이터를 주고받는 UPI(Ultra Path Interconnect) 기술을 탑재했다. 이를테면 QPI 업그레이드판이다. 데이터 전송 속도는 QPI가 9.6GT/s인 반면에 UPI(2개 통로 사용 시)는 10.4GT/s로 빠르다. UPI 기술은 QPI 대비 대기 상태 전력 소모량도 크게 줄어들었다.

뉴욕(미국)=