모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

발행일 : 2026-05-04 16:12 업데이트 : 2026-05-04 16:12

Photo Image — 모레는 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 참여해 '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. (모레 제공)

모레는 텐스토렌트의 '갤럭시 웜홀' 시스템에 자사 'MoAI 추론 프레임워크'를 적용해 거대언어모델(LLM) 추론 성능을 성공적으로 입증했다고 4일 밝혔다.

모레는 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기준으로 테스트한 결과, 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다고 설명했다. 이는 그래피처리장치(GPU) 중심의 기존 인공지능(AI) 인프라를 대체할 수 있는 수준의 성능 경쟁력을 잘 보여준 결과라고 회사는 덧붙였다.

특히 모레는 GPU와 텐스토렌트 웜홀 칩을 결합한 '이종 분산 서빙' 구조를 통해 비용 효율성을 크게 개선했다. 텐스토렌트 칩을 입력 처리(prefill) 전용 가속기로 활용함으로써, 고비용 구조의 고대역폭메모리(HBM) 사용을 줄이고 전체 인프라 비용을 절감했다는 설명이다.

모레는 이 같은 성과를 지난 1일(현지시간) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 처음 공개했다.

모레의 'MoAI 추론 프레임워크'는 엔비디아, AMD, 텐스토렌트 등 이종 GPU 및 신경망처리장치(NPU)를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션이다. 이를 통해 기업들은 특정 벤더에 종속되지 않고, 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있다.

조강원 모레 대표는 “이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다”며 “향후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획”이라고 밝혔다.

정현정 기자 iam@etnews.com