요약
엔비디아가 구글 TPU의 AI 추론 시장 공세에 대응하기 위해 HBM 대신 GDDR7을 사용하는 Rubin CPX라는 새로운 칩을 발표했습니다. 이 칩은 LLM 추론의 프리필(Prefill)과 디코드(Decode) 단계를 분리하여, 긴 컨텍스트 처리에 최적화된 비용 효율적인 솔루션을 제공합니다.
주요 내용
1. Rubin CPX의 등장 배경
- 구글 TPU의 시장 진출: 구글이 TPU를 자체 사용뿐만 아니라 메타, AWS 등에 판매하기 시작하면서 엔비디아의 시장을 위협
- AI 추론 시장의 급성장: AI 학습보다 추론(Inference) 시장이 사용자 수에 비례해 폭발적으로 성장하는 추세
- 2024년 9월 발표: AI Infrastructure Summit에서 Ian Buck이 발표한 Rubin CPX는 기존 GPU 라인업에 없던 새로운 형태의 칩
2. 프리필과 디코드의 분리 전략
프리필(Prefill) 단계:
- 사용자 입력(PDF, 이미지, 긴 문서 등)을 한 번에 분석하는 단계
- 수만~수십만 토큰을 트랜스포머 레이어에 통과시키며 셀프 어텐션 수행
- 연산 집약적이지만 메모리 대역폭 요구는 상대적으로 낮음
- TTFT(Time To First Token)라는 중요한 성능 지표
디코드(Decode) 단계:
- KV 캐시를 활용해 한 토큰씩 생성하는 단계
- 매 토큰마다 메모리 읽기/쓰기가 빈번하게 발생
- HBM의 높은 메모리 대역폭이 필수적
기존 GPU의 한계: H100, B200 등 기존 GPU는 프리필과 디코드를 모두 하나의 칩에서 처리하여 자원 활용 효율성이 떨어짐
3. Rubin CPX의 핵심 설계 특징
GDDR7 메모리 채택:
- 128GB GDDR7 탑재 (512-bit 버스로 추정)
- HBM 대비 약 5배 높은 가격 대비 성능
- 제조 원가가 Rubin HBM GPU의 약 1/3 수준
- CoWoS 같은 고비용 패키징 불필요
어텐션 전용 가속 블록:
- GB300 NVL72 대비 3배 수준의 컨텍스트 처리 성능
- 8 Exaflops FP4 연산 성능
시스템 구성:
- Vera Rubin NVL144 CPX 랙: Rubin CPX 144개 + Rubin HBM GPU 144개 + Vera CPU 36개
- NVIDIA Dynamo로 워크로드 관리 및 분산
- ConnectX-9, NVLink Switch 6로 네트워크 연결
4. 작동 방식과 데이터 플로우
- 사용자 요청이 들어오면 NVIDIA Dynamo가 프리필 작업을 Rubin CPX로 할당
- CPX가 긴 컨텍스트를 분석하여 KV 캐시 생성
- 생성된 KV 캐시를 Rubin HBM GPU로 전송
- Rubin GPU가 디코드 단계를 수행하여 토큰 생성
- 네트워크를 통해 결과를 전체 시스템에 분산
5. GPU와 TPU의 진화 과정
엔비디아 GPU: 범용 GPU에서 점차 AI 최적화
- Hopper 아키텍처부터 Tensor Core, Transformer Engine 탑재
- 내부 메모리 오프로딩과 모듈별 역할 분담 구조 발전
- Rubin CPX로 렉(Rack) 스케일에서 하이브리드 ASIC 구조 구현
구글 TPU: AI 전용 칩으로 지속 진화
- RNN, CNN 시절부터 트랜스포머 모델로 진화하며 구조 변경
- 초기에는 HBM 미사용 → 현재는 HBM 탑재
- Systolic Array 구조로 최대 9,000개까지 확장 가능
- 3D Torus 구조로 네트워킹 스위칭 효율성 확보
- V7부터 학습과 추론 모두 지원
6. GDDR7 vs HBM 비교
GDDR7의 장점:
- 가격: HBM 대비 약 1/5 수준
- 생산 유연성: 기존 게이밍 GPU 생산 라인 활용 가능
- 패키징: CoWoS 불필요, 단일 다이로 전력/냉각 설계 수월
- 공급망: HBM처럼 소수 업체 독점이 아님
HBM의 장점:
- 메모리 대역폭: 디코드 단계처럼 빈번한 메모리 액세스에 필수
- 집적도: 동일 공간에 더 많은 메모리 탑재 가능
7. 구글 TPU vs 엔비디아 Rubin CPX
구글 TPU의 강점:
- 수직 통합: 자체 AI 모델 + 자체 하드웨어 + Google Cloud
- 고정된 워크로드에서 뛰어난 비용 효율
- 프리필/디코드 분리 가능 (동일 TPU를 역할별로 활용)
- 확장성: 3D Torus 구조로 대규모 확장
엔비디아 Rubin CPX의 강점:
- 유연성: 클라우드, 콜로케이션, 온프레미스 모두 지원
- CUDA 생태계: 개발자들이 새로운 모델 즉시 활용 가능
- 하이브리드 구조: HBM GPU와 GDDR CPX 조합으로 워크로드별 최적화
- 비용: GDDR7로 HBM 공급 병목 회피
8. 시장 영향과 전망
- ASIC 스타트업 압박: Groq, Tenstorrent, d-Matrix 등 프리필/디코드 분리 특화 칩 개발 업체들이 엔비디아의 시스템 레벨 대응으로 경쟁 심화
- 메모리 생태계: HBM뿐 아니라 GDDR도 AI 추론 시장의 핵심 메모리로 자리잡을 가능성
- 클라우드 사업자: 메타, AWS 등이 엔비디아의 60-70% 영업이익률 부담을 줄이기 위해 TPU 도입 검토
- AI 추론 경쟁 축: FLOPs에서 ‘컨텍스트 길이 처리 능력 + 비용 효율성’으로 전환
핵심 인사이트
- 워크로드 분리의 중요성: AI 추론의 프리필과 디코드는 연산/메모리 특성이 근본적으로 다르며, 이를 하드웨어 레벨에서 분리하는 것이 차세대 AI 인프라의 핵심 전략입니다.
- 메모리 계층 다변화: HBM만이 답이 아니라 워크로드에 따라 GDDR7 같은 대안적 메모리 솔루션이 비용 효율적일 수 있습니다. 엔비디아가 이를 증명하면 업계 전반에 GDDR 채택이 확산될 가능성이 있습니다.
- 범용성 vs 전문성의 균형: 엔비디아 GPU는 여전히 CUDA 생태계와 유연성이라는 해자를 가지고 있지만, 구글 TPU는 수직 통합과 비용 효율성으로 특정 워크로드에서 충분히 경쟁력이 있습니다. 향후 3-5년은 양자가 공존하며 시장을 분할할 것으로 예상됩니다.
- 롱 컨텍스트 시대의 도래: 100만 토큰 이상의 초장문 처리가 표준이 되면서, 프리필 성능이 AI 서비스 경험의 핵심 지표(TTFT)가 되고 있습니다. 이는 하드웨어 설계 철학 전반을 바꾸고 있습니다.
- 공급망 병목 회피 전략: HBM과 CoWoS의 공급 제약이 지속되는 상황에서, GDDR7 기반 CPX는 엔비디아가 시장 수요에 더 빠르게 대응할 수 있는 전략적 카드입니다.