구글 TPU 막아라… HBM 없는 엔비디아 신기술 등장

요약

엔비디아가 구글 TPU의 AI 추론 시장 공세에 대응하기 위해 HBM 대신 GDDR7을 사용하는 Rubin CPX라는 새로운 칩을 발표했습니다. 이 칩은 LLM 추론의 프리필(Prefill)과 디코드(Decode) 단계를 분리하여, 긴 컨텍스트 처리에 최적화된 비용 효율적인 솔루션을 제공합니다.

주요 내용

1. Rubin CPX의 등장 배경

  • 구글 TPU의 시장 진출: 구글이 TPU를 자체 사용뿐만 아니라 메타, AWS 등에 판매하기 시작하면서 엔비디아의 시장을 위협
  • AI 추론 시장의 급성장: AI 학습보다 추론(Inference) 시장이 사용자 수에 비례해 폭발적으로 성장하는 추세
  • 2024년 9월 발표: AI Infrastructure Summit에서 Ian Buck이 발표한 Rubin CPX는 기존 GPU 라인업에 없던 새로운 형태의 칩

2. 프리필과 디코드의 분리 전략

프리필(Prefill) 단계:

  • 사용자 입력(PDF, 이미지, 긴 문서 등)을 한 번에 분석하는 단계
  • 수만~수십만 토큰을 트랜스포머 레이어에 통과시키며 셀프 어텐션 수행
  • 연산 집약적이지만 메모리 대역폭 요구는 상대적으로 낮음
  • TTFT(Time To First Token)라는 중요한 성능 지표

디코드(Decode) 단계:

  • KV 캐시를 활용해 한 토큰씩 생성하는 단계
  • 매 토큰마다 메모리 읽기/쓰기가 빈번하게 발생
  • HBM의 높은 메모리 대역폭이 필수적

기존 GPU의 한계: H100, B200 등 기존 GPU는 프리필과 디코드를 모두 하나의 칩에서 처리하여 자원 활용 효율성이 떨어짐

3. Rubin CPX의 핵심 설계 특징

GDDR7 메모리 채택:

  • 128GB GDDR7 탑재 (512-bit 버스로 추정)
  • HBM 대비 약 5배 높은 가격 대비 성능
  • 제조 원가가 Rubin HBM GPU의 약 1/3 수준
  • CoWoS 같은 고비용 패키징 불필요

어텐션 전용 가속 블록:

  • GB300 NVL72 대비 3배 수준의 컨텍스트 처리 성능
  • 8 Exaflops FP4 연산 성능

시스템 구성:

  • Vera Rubin NVL144 CPX 랙: Rubin CPX 144개 + Rubin HBM GPU 144개 + Vera CPU 36개
  • NVIDIA Dynamo로 워크로드 관리 및 분산
  • ConnectX-9, NVLink Switch 6로 네트워크 연결

4. 작동 방식과 데이터 플로우

  1. 사용자 요청이 들어오면 NVIDIA Dynamo가 프리필 작업을 Rubin CPX로 할당
  2. CPX가 긴 컨텍스트를 분석하여 KV 캐시 생성
  3. 생성된 KV 캐시를 Rubin HBM GPU로 전송
  4. Rubin GPU가 디코드 단계를 수행하여 토큰 생성
  5. 네트워크를 통해 결과를 전체 시스템에 분산

5. GPU와 TPU의 진화 과정

엔비디아 GPU: 범용 GPU에서 점차 AI 최적화

  • Hopper 아키텍처부터 Tensor Core, Transformer Engine 탑재
  • 내부 메모리 오프로딩과 모듈별 역할 분담 구조 발전
  • Rubin CPX로 렉(Rack) 스케일에서 하이브리드 ASIC 구조 구현

구글 TPU: AI 전용 칩으로 지속 진화

  • RNN, CNN 시절부터 트랜스포머 모델로 진화하며 구조 변경
  • 초기에는 HBM 미사용 → 현재는 HBM 탑재
  • Systolic Array 구조로 최대 9,000개까지 확장 가능
  • 3D Torus 구조로 네트워킹 스위칭 효율성 확보
  • V7부터 학습과 추론 모두 지원

6. GDDR7 vs HBM 비교

GDDR7의 장점:

  • 가격: HBM 대비 약 1/5 수준
  • 생산 유연성: 기존 게이밍 GPU 생산 라인 활용 가능
  • 패키징: CoWoS 불필요, 단일 다이로 전력/냉각 설계 수월
  • 공급망: HBM처럼 소수 업체 독점이 아님

HBM의 장점:

  • 메모리 대역폭: 디코드 단계처럼 빈번한 메모리 액세스에 필수
  • 집적도: 동일 공간에 더 많은 메모리 탑재 가능

7. 구글 TPU vs 엔비디아 Rubin CPX

구글 TPU의 강점:

  • 수직 통합: 자체 AI 모델 + 자체 하드웨어 + Google Cloud
  • 고정된 워크로드에서 뛰어난 비용 효율
  • 프리필/디코드 분리 가능 (동일 TPU를 역할별로 활용)
  • 확장성: 3D Torus 구조로 대규모 확장

엔비디아 Rubin CPX의 강점:

  • 유연성: 클라우드, 콜로케이션, 온프레미스 모두 지원
  • CUDA 생태계: 개발자들이 새로운 모델 즉시 활용 가능
  • 하이브리드 구조: HBM GPU와 GDDR CPX 조합으로 워크로드별 최적화
  • 비용: GDDR7로 HBM 공급 병목 회피

8. 시장 영향과 전망

  • ASIC 스타트업 압박: Groq, Tenstorrent, d-Matrix 등 프리필/디코드 분리 특화 칩 개발 업체들이 엔비디아의 시스템 레벨 대응으로 경쟁 심화
  • 메모리 생태계: HBM뿐 아니라 GDDR도 AI 추론 시장의 핵심 메모리로 자리잡을 가능성
  • 클라우드 사업자: 메타, AWS 등이 엔비디아의 60-70% 영업이익률 부담을 줄이기 위해 TPU 도입 검토
  • AI 추론 경쟁 축: FLOPs에서 ‘컨텍스트 길이 처리 능력 + 비용 효율성’으로 전환

핵심 인사이트

  • 워크로드 분리의 중요성: AI 추론의 프리필과 디코드는 연산/메모리 특성이 근본적으로 다르며, 이를 하드웨어 레벨에서 분리하는 것이 차세대 AI 인프라의 핵심 전략입니다.
  • 메모리 계층 다변화: HBM만이 답이 아니라 워크로드에 따라 GDDR7 같은 대안적 메모리 솔루션이 비용 효율적일 수 있습니다. 엔비디아가 이를 증명하면 업계 전반에 GDDR 채택이 확산될 가능성이 있습니다.
  • 범용성 vs 전문성의 균형: 엔비디아 GPU는 여전히 CUDA 생태계와 유연성이라는 해자를 가지고 있지만, 구글 TPU는 수직 통합과 비용 효율성으로 특정 워크로드에서 충분히 경쟁력이 있습니다. 향후 3-5년은 양자가 공존하며 시장을 분할할 것으로 예상됩니다.
  • 롱 컨텍스트 시대의 도래: 100만 토큰 이상의 초장문 처리가 표준이 되면서, 프리필 성능이 AI 서비스 경험의 핵심 지표(TTFT)가 되고 있습니다. 이는 하드웨어 설계 철학 전반을 바꾸고 있습니다.
  • 공급망 병목 회피 전략: HBM과 CoWoS의 공급 제약이 지속되는 상황에서, GDDR7 기반 CPX는 엔비디아가 시장 수요에 더 빠르게 대응할 수 있는 전략적 카드입니다.

Leave a Comment