코코링크, “국산 슈퍼컴 시대 개막” 자신감
“다음달(2월)부터 우리가 최근 개발한 국산 슈퍼컴 ‘클라이맥스-페타큐브’를 국내에서도 출시합니다. 24대를 병렬 연결하면 30페타플롭스(1페타플롭스(PF)=1초에 부동소수점 1000조 회 연산) 성능을 내게 됩니다. 용량을 더 늘리고 싶으면 클라이맥스-페타큐브 100대를 연동해 126PF 성능의 시스템을 구축할 수도 있습니다.”
지난 26일 만난 슈퍼컴퓨터 전문 스타트업 ㈜코코링크의 이동학 대표는 시판을 앞둔 초고성능컴퓨터(HPC)에 대해 넘치는 자신감을 감추지 않았다. 국내 출시를 앞둔 이 슈퍼컴은 이전에 자체 개발한 고성능컴퓨터(HPC)(클라이맥스-210S)10대를 하나의 랙으로 연계 구성함으로써 시스템(클라이맥스-페타큐브) 한 대로 1.26PF 성능을 구현했다. 성능을 따져보니 지난해 11월 발표된 톱500.org 순위 기준으로 세계 400위권에 이른다. 한 대의 가격은 30억원.
■토종 슈퍼컴 스타트업, 국가급 슈퍼컴 구축 능력 확보
코코링크의 국산 슈퍼컴의 성능은 상반기 중 슈퍼컴퓨팅센터에 구축될 슈퍼컴5호기와 비교해 보면 더 분명해진다.
정부는 지난해 9월 540억원짜리 국가 슈퍼컴5호기 구축 사업자로 미국 크레이 슈퍼컴을 선정했고, 크레이는 한국 최고성능인 슈퍼컴5호기(이론 성능 25.7PF)를 한창 구축 중이다. 이 슈퍼컴은 크레이의 고성능컴퓨터(HPC) 120대를 병렬연결해 완성된다. 차지하는 공간이 교실 4~5개 정도 크기다.
그런데 일개 중소 스타트업인 코코링크의 국산 HPC(슈퍼컴) 단 24대를 병렬연결하는 것만으로도 대전 KISTI 내 국가슈퍼컴퓨팅센터에 구축중인 슈퍼컴5호기 성능을 넘어선 30PF 연산 성능을 발휘한다. 이는 클라이맥스 페타큐브가 국가슈퍼컴 5호기 설치 면적의 4분의 1만으로도 동일한 이론성능을 구현할 수 있게 해준다는 의미다. 즉 코코링크가 개발한 슈퍼컴의 성능 밀도가 크레이의 국가슈퍼컴5호기보다 높다는 의미이기도 하다.
그렇다면 코코링크의 HPC 제품 성능은 국내에서 시판돼 안심하고 사용할 수 있을 정도로 검증됐을까?
이 대표는 지난 2013년 이래 해마다 두 차례 열리는 세계슈퍼컴퓨팅 컨퍼런스(SC)를 거의 빠지지 않고 참가했다. 첫 출품시 1.5테라플롭스(1테라플롭스(TF)=초당 1조회 연산속도) GPU 8개가 꽂힌 ‘클릭8000’을 소개했다.
참가 2년 만인 지난 2015년 코코링크는 처음으로 해외에서 한국산 슈퍼컴퓨팅 제품 설계능력을 인정받는다.
이 해 미국의 컴퓨팅 전문사이트 넥스트 플랫폼이 코코링크의 잠재력을 알아보고 주목할 만한 전세계 HPC 스타트업 9개사에 코코링크를 포함시켰다.
그리고 이 해 코코링크는 해외 유명 연구소와 기업으로부터 HPC 수주를 받기에 이른다. 2015년 세계 굴지의 연구소인 미해군연구소(NRL)와 프랑스 제 1 이통 사업자인 오렌지텔레콤으로부터 클라이맥스 210 시스템 수주를 받았고 HPC를 공급하기에 이른다.
NRL은 국방관련 연구소인 만큼 용도를 알 수 없다. 하지만 오렌지 텔레콤의 경우 인공지능 음성인식용으로 사용하고 있는 것으로 알려졌다. 또한 오렌지텔레콤 본사는 코코링크의 제품을 실리콘밸리에 설립한 연구소에도 소개시켜 주기도 했다.
이어 코코링크는 지난해 말 해외 수요처의 요청으로 ‘클라이맥스-페타큐브’를 만들기에 이른다.
특히 놀라운 것은 클라이맥스-페타큐브에는 고효율의 PCI익스프레스(PCIe) 스위치 기술이 세계최초로 적용돼 모든 GPU 간에 완벽한 P2P 기능을 구현토록 했다는 점이다. 코코링크의 여러개 GPU를 연결해 주는 PCI익스프레스(PCIe) 스위치는 성능면에서 세계최고라는 평가를 함께 받고 있다.
코코링크는 이 기술을 자사 HPC와 슈퍼컴에 적용함으로써 “이미 클라이맥스210에서 보여주었 듯 20대의 고성능 GPU를 장착하고도 95%가 넘는 연동 성능 효율을 보여주었다”며 “인공지능(AI) 연구를 비롯한 과학 공학 계산 분야에서 절대적인 성능 우위를 과시한다”고 말한다.
실제로 미 캘리포니아샌디에이고대(UCSD)의 슈퍼컴퓨터센터장인 로스 워커 교수는 자신의 블로그에 코코링크 클라이맥스210에 탑재된 PCIe 스위치에 장착된 모든 GPU가 25GB/초의 균일한 전송 성능을 보였다는 테스트 결과를 밝히고 있다. 그는 자신의 블로그에 “코코링크의 클라이맥스210이 기판 하나에 20개의 GPU를 장착하는 전세계 유일의 시스템”이며 “성능 또한 가장 우수하다”며 코코링크 시스템을 베낀 유사제품들과의 비교 테스트 결과를 제시하고 있기도 하다.
실제로 코코링크는 이를 통해 GPU-중심(GPU-Centric) 프로그래밍을 지원하는 세계유일의 시스템을 제공하게 됐다고 밝힌다.
이동학 대표가 다음 달 클라이맥스 페타큐브를 국내 출시하면서 국산 슈퍼컴 시대 개막에 대한 확신을 갖는 데는 이처럼 이미 코코링크의 시스템을 인정해 준 해외 기업·대학·연구소의 사용 경험과 신뢰가 자리하고 있다.
아쉽게도 국내에서는 상대적으로 덜 알려져 있다. 국내에서는 외산 브랜드의 명성에 밀려 왔다.
하지만 그는 이제 자신감있게 말한다.
“클라이맥스 페타큐브 출시를 계기로 어떤 기관이나 연구소에도 당장이라도 (클라이맥스 페타큐브 기반의) 슈퍼컴5호기 이상의 작동 성능을 갖는 시스템을 즉시 구축해 드릴 수 있게 됐습니다.”
■클라이맥스210S 10대로 구성...‘클라이맥스-페타큐브’ 성능은?
코코링크가 국산 슈퍼컴 시대를 열게 된 자신감의 배경이 된 것은 최근 개발한 슈퍼컴 ‘클라이맥스 페타큐브’다. 그리고 그 뒷심은 이를 구성하는 클라이맥스 210S서버에서 나온다.
2년 전 선보인 ‘클라이맥스-210S’ 서버는 엔비디아의 GPU(테슬라 V100) 18장으로 구성돼 단일 노드로는 세계최고 성능(126테라플롭스(TF))을 과시한다. .
클라이맥스-페타큐브는 이 서버(HPC) 10대와 2중 스위치,스토리지 서버 등을 19인치 듀얼컬럼 랙에 장착했다. 이를 이중, 또는 삼중의 100Gbps의 네트워크로 연동해 클러스터를 구성함으로써 더욱더 효율성 높은 슈퍼컴을 구성했다.
이렇게 만들어진 클라이맥스-페타큐브 시스템 한 대(rack)는 커다란 사무실용 에어컨 크기다. 시스템 한 대의 성능은 ▲1.26페타플롭스(64비트 연산시) ▲2.5페타플롭스(32비트 연산시) ▲20.1페타플롭스(딥러닝 활용시)를 각각 구현한다.
클라이맥스-페타큐브는 규모 확장에도 용이하다. 인터커넥션 스위치를 추가하지 않고도 최대 24대를 상호 연동해 30페타플롭스의 성능을 구현할 수 있다. 충분한 내장 인터커넥션의 여유를 갖고 있도록 설계됐기 때문이다. 인터커넥션으로 스위치(48포트 100Gbps)를 장착해 각 노드를 2중, 또는 3중으로 연결함으로써 병목현상을 최소화했다. 대규모 SSD 스토리지 노드가 제공된다.
이동학 사장은 “인터커넥션 스위치를 보강하면 시스템 규모를 1000대 이상으로 확장시킬 수 있다. 100대를 연동시키는 것만으로도 126페타플롭스의 성능을 구현할 수 있다”고 말한다.(이는 지난해 11월 세계 슈퍼컴 1위에 오른 중국 선웨이타이후 라이트와 대등한 수준이다.)
그는 “클라이맥스-페타큐브를 테스트해 본 결과 이 시스템은 인공지능연구, 3D렌더링, 암호처리, GPU DBMS 등과 같은 32비트 연산은 물론 유체 시뮬레이션처럼 64비트 연산이 요구되는 영역에서도 발군의 고효율 특성을 보였다”고 말했다.
실제로 단일 노드로 운영 중인 클라이맥스-210S는 국내외 유수의 대학, 연구소, 기업에서 여러 대가 이같은 용도로 공급·운영되면서 성능을 과시하고 있다.
해외에서는 앞서 밝힌 미해군연구소(NRL)와 프랑스 최대 이통사인 오렌지텔레콤, 국내에서는 서울대, 대구경북과학기술원(DGIST) 등이 이를 활용해 상당한 성과를 드러내고 있다.
■전세계적 트렌드 GPU기반 슈퍼컴...독보적 PCIe기술에 UCSD슈퍼컴 센터 등 주목
30년간 컴퓨터 전문가로 일해 온 그는 GPU기반 슈퍼컴 예찬론자다.
이 사장은 “이미 수년 전부터 전세계 슈퍼컴 업계의 슈퍼컴용 칩 사용 트렌드는 중앙연산처리장치(CPU)기반에서 GPU 기반으로 가고 있습니다. 업계·학계 모두가 GPU컴퓨터가 CPU기반 슈퍼컴에 비해 150배 이상 빠르다고 보는데 이견이 없는 것도 사실입니다. 주목할 만한 예를 들자면 지난해 톱500이 발표한 세계 슈퍼컴 랭킹 3위에 오른 스위스 기상청 슈퍼컴입니다. 이 슈퍼컴은 기존에 사용하던 구형 GPU를 장착한 구형 크레이슈퍼컴을 동일한 구조의 신형 GPU를 탑재한 시스템으로 교체했을 뿐인데 이처럼 커다란 성능향상을 보였다는 점입니다”라고 말한다. (상반기중 구축될 대전 한국과학기술정보원(KISTI) 내 슈퍼컴퓨팅센터에 설치될 슈퍼컴 5호기는 CPU 기반이다.)
그는 국내로 눈을 돌려 보자고 말한다.
이 사장은 “코코링크의 클라이맥스-페타큐브 24대를 연동하면 이론 성능으로는 KISTI 슈퍼컴5호기와 비슷하지만 작동 성능으로는 슈퍼컴5호기의 4배 이상이 될 것으로 봅니다. 그래픽칩셋(GPU)기반으로 제작했기 때문에 가능해지는 겁니다”라고 말한다. 또 “그간 설계 및 테스트 과정에서도 줄곧 GPU를 주된 연산장치로 사용할 경우 CPU를 사용할 때와 비교해 더욱더 큰 연산 효율의 차이를 보여왔다”고도 밝혔다.
30년 경력의 시스템 프로그래머인 그는 “전형적인 폰노이만식 구조의 확장인 CPU보다는 유연하게 확장된 벡터프로세서로 볼 수 있는 GPU가 효율이 높을 수 밖에 없다”고 이유를 설명한다. 이 뿐만이 아니다. 이 사장은 “고효율화가 가능한 GPU를 주된 연산 장치로 활용하면 고효율의 프로그래밍 기술을 지원할 있어 슈퍼컴퓨팅의 비용을 획기적으로 줄일 수 있다”고도 거듭 강조한다. 그래서 “과학 공학 계산에서 있어 가장 효율적인 칩이 GPU이며, 클라이맥스 페타큐브는 가장 이상적인 GPU기반 슈퍼컴”이라고 자신한다.
그가 실제 사례로 스위스 국가슈퍼컴퓨터센터의 GPU 기반 시스템을 살펴볼 것을 재삼 강조하는 이유이기도 하다.
이동학 사장은 자사의 GPU기반 클라이맥스 페타큐브로 슈퍼컴5호기의 이론성능과 맞먹는 시스템을 구축할 경우 “비슷한 구축비용이 들고 최대 이론 성능은 비슷하겠지만 실제 작동성능에서는 차이가 크다. 64비트나 32비트 연산은 CPU기반의 슈퍼컴5호기보다 10배정도 빠를 것으로 예상이 된다. 인공지능 분야에 적용할 경우 50배 이상의 성능 우위가 예상된다”고 자신하면서 설명을 덧붙인다.
“이는 ROMS 같은 해양용 모델만 돌려봐도 확인할 수 있습니다. 페타큐브는 GPU기반이라 대당 1.26PF에 불과한 이론 성능이지만 많은 소프트웨어에서 KISTI의 25.7PF 시스템과 대등한 성능을 보여줄 것으로 예상됩니다. 페타큐브의 상품성은 응용프로그램을 추가하여 어플라이언스 형태로 공급할 때 월등히 높아집니다.”
■국내 유일의 슈퍼컴 국산화 및 수출기업 쉽지 않았지만
하지만 해외에서도 인정해 주는 한국산 슈퍼컴 기술에 대한 인지도와 수출 성과는 하루아침에 이뤄진 것은 아니다.
코코링크는 지난 2001년 설립된 이래 슈퍼컴퓨터 기술개발에 주력해 왔지만 지난 2010년에야 자체 개발성과를 제품화해 내놓을 수 있었다. 그러고도 5년.
코코링크에 세계적인 슈퍼컴 유망 벤처로서 인정받게 된 계기는 지난 2015년 SC15(Supercomputing Conference 2015)였다.
미국 텍사스주 오스틴에서 열린 이 행사 현장에서 클라이맥스210의 시연 성능을 유심히 지켜 본 미국 해군연구소(NRL)와 프랑스 최대 이통사오렌지텔레콤의 관계자들이 제품 주문을 해오면서 마침내 수출의 물꼬를 트게 됐다.
어느새 코코링크는 GPU 프로그래밍 분야의 코딩 역량은 물론 GPU로의 코드이식과 최적화에서도 정상급 역량을 입증하며 세계적 슈퍼컴 업체로서의 성장가능성을 확신하고 있다. .
이뿐 아니다. 코코링크는 그간 개발해 온 HPC와 슈퍼컴 연산성능을 이용, 다양한 시스템 활용에 나서고 있다.
대표적인 것이 지난 2016년 출시한 OLED소자를 개발하는데 있어 발광소자의 효율을 해석하고, 발광물질의 특성을 분석해 최적의 색채와 최고 전력효율 설계를 가능케 하는 시뮬레이팅 SW와 HW(모델명: 룩솔 OLED) 개발 및 상용화다. 기존 시뮬레이터의 CPU 프로그램을 GPU로 이식했고, 그 결과 성능을 수천 배 개선한 GPU칩 기반 시뮬레이터를 상용화하는데 성공했다. 이는 삼성과 LG에 공급돼 세계 최고 한국 OLED디스플레이 개발에 활용되고 있기도 하다.
■2월부터 CPU기반 슈퍼컴에 대한 GPU코드 이식 서비스도
국내 유일의 슈퍼컴퓨터 제조업체이자 서울대기술지주회사의 자회사인 ㈜코코링크는 지난 10년 동안 클릭(CliC)80000 시리즈, 클라이맥스-210 시리즈, 클라이맥스-x10 시리즈 등 고성능 컴퓨터(HPC)를 설계해 제조하고 수출해 왔다.
물론 그는 야심작 클라이맥스 페타큐브를 국내에 출시한다고 해서 해외시장 개척에 손놓고 있을 생각은 아니란다. 이미 해외 모 수요처가 ‘클라이맥스 페타큐브’ 구매작업을 진행 중이며 4~6월 중 확정될 전망이다. 그는 결과를 낙관하고 있다고 밝힌다.
그는 국내시장에 슈퍼컴을 공급할 때엔 클라이맥스 페타큐브에서 사용할 응용프로그램을 포팅해서 어플라이언스 형태로 공급하게 될 것 같다고 밝힌다.
이동학 사장은 “한국산이란 이유만으로 외면당해 왔던 국내 유일의 슈퍼컴 개발업체 코코링크의 슈퍼컴 및 HPC수출은 올해부터 가속될 것”이라고 전망한다.
대부분의 해외의 수요자들은 국내에서의 실적을 요구한다. 그 점이 한국 유일의 슈퍼컴 개발 기업으로서 어려운 점이란다. 하지만 코코링크는 연내 3~5대 정도 수출이 가능할 것으로 보고 있다.
국내 시장에서도 서두르지는 않을 생각이다. 수요처들이 예산확보 문제 등으로 인해 당장 클라이맥스-페타큐브를 구입하기는 쉽지 않을 것이기 때문이다. 따라서 이 시스템을 구성하는 서버(HPC)인 클라이맥스210S가 주로 팔릴 것으로 보고 있다.
이 사장에게 “상반기 중 정부가 대전 KISTI 내 국가슈퍼컴퓨팅 센터내에 2.56페타플롭스(이론성능)급 슈퍼컴을 구축하는데 국산 슈퍼컴을 출시하면 사용자가 나올지에 대해 물었다. 즉 사용자들이 최신형 KISTI 슈퍼컴5호기에 몰리지 않겠는가라는 질문을 던졌다.
그는 “국내의 모든 슈퍼컴 리소스를 단일 기관에 집중하는 정책을 편 결과 슈퍼컴 활용 연구분야가 위축됐다고 봅니다. 그렇지 않았더라면 국내 슈퍼컴퓨터 수요 규모는 100PF 규모는 됐을 겁니다. 서울대학교 교내 연구자들의 슈퍼컴퓨팅 수요만도 50PF 이상일 겁니다. 지난 20년간 대학의 슈퍼컴퓨팅 수요 예산을 억제하는 정책을 펴면서 국내 슈퍼컴 활용 연구 분야가 매우 심각하게 위축돼 버렸습니다. KISTI 슈퍼컴(5호기) 성능이 대단해 보이지만 실상은 그조차도 연구기관 한곳의 요구 성능을 충족시키는데 불과한 수준입니다. 게다가 KISTI 슈퍼컴은 CPU 기반이라 현업에서의 실제 성능은 매우 낮습니다”라고 거침없이 말한다.
지난 2001년부터 시스템 아키텍처 연구를 통해 고성능 컴퓨터(HPC)를 만들어 온 코코링크. 이 국내 유일의 슈퍼컴 강소기업은 이제 전세계 유수 슈퍼컴퓨터 수요자들의 반응에 힘입어 국내 시장을 놓고 글로벌 슈퍼컴 강자들과 한판 대결에 나섰다. 상대는 크레이, IBM, HPE 같은 글로벌 시장의 강자들이다.
이동학 사장은 “주요 슈퍼컴 강국들의 각축장인 엑사스케일 컴퓨팅 분야에서도 코코링크의 클라이맥스 페타큐브 1,000대를 연동해 당장이라도 엑사플롭스(1엑사플롭스=초당 100경회 부동소수점 연산)급 슈퍼컴퓨터를 구축할 수 있다”며 “기술면에서는 한국은 이미 슈퍼컴퓨팅 강국”이라고 힘주어 말한다.
이동학 대표는 2월부터 국가급 슈퍼컴퓨터 시스템 ‘클라이맥스-페타큐브’ 국내 출시를 계기로 기존 CPU기반 슈퍼컴 사용자들의 성능향상을 위해 이를 GPU 코드로 이식하는 용역도 본격적으로 제공할 계획이다.
이재구기자 jklee@etnews.com