요약
구글이 7세대 TPU Ironwood를 공개하며 AI 가속기 시장에 본격 진입했습니다. 9,216개 칩 슈퍼팟에서 42.5 엑사플롭스 성능을 보여주는 Ironwood는 3D Torus 인터커넥트 구조로 예측 가능한 지연 시간과 선형 확장성을 무기로 엔비디아 GB300과 차별화된 접근을 시도합니다.
주요 내용
1. TPU V7 Ironwood의 핵심 성능 지표
- 연산 성능: FP8 기준 4.6 PFLOPS (칩당)
- 메모리: 192GB HBM3e (5세대 32GB → V6 95GB → V7 192GB로 증가)
- 메모리 대역폭: 7.4TB/s (이전 세대 대비 3배 증가)
- 슈퍼팟 구성: 9,216개 칩으로 42.5 엑사플롭스 달성
- HBM 총량: 슈퍼팟 기준 1.77 페타바이트
- 전력 효율: V5 대비 6배, V6 대비 2배 향상 (와트당 테라플롭스 기준)
- 칩간 인터커넥트: 양방향 1.2TB/s (7포트)
2. 3D Torus 인터커넥트 구조의 혁신
- 철학적 차별화: NVLink 스위치 패브릭과 정반대 접근
- 엔비디아: 중앙 집중형 스위치 기반 고속 연결
- 구글: 칩 간 직접 연결 기반 분산형 구조
- 3D Torus의 장점:
- 칩과 칩이 상하좌우 전후 6방향으로 직접 연결
- 스위치 없이 브로드캐스트 방식으로 통신
- 예측 가능한 지연 시간 (Predictable Latency)
- 선형적 확장성 (Linear Scalability)
- 균일한 열 분산으로 냉각 효율 향상
- 단점: 단일 노드 밀도와 절대 대역폭은 GPU 랙보다 낮음
- 확장성: 최대 9,216개 칩을 단일 팟으로 구성 가능 (V2 대비 3,600배 성능 향상)
3. 엔비디아 GB300과의 상세 비교
단일 칩 성능 비교:
- TPU V7: 4.6 PFLOPS (FP8)
- GB300 (Blackwell Ultra): 5 PFLOPS (FP8 Dense), 10 PFLOPS (FP8 Sparse)
- 메모리: TPU 192GB vs GB300 유사 수준
- 메모리 대역폭: 비슷한 수준
시스템 아키텍처 차이:
- 엔비디아 NVL72:
- 72개 GPU + 36개 Grace CPU 구성
- NVLink 칩당 양방향 1.8TB/s
- 랙 내 총 대역폭 130TB/s
- NVLink 스위치 중심의 중앙 집중형 관리
- 랙 간 연결은 InfiniBand 또는 이더넷 필요
- 고밀도 AI 훈련에 최적화
- 구글 TPU Superpod:
- 9,216개 칩 단일 팟 구성
- 칩당 양방향 1.2TB/s (7포트)
- 3D Torus 직접 연결
- 스위치 없는 분산형 구조
- 대규모 확장에 최적화
- MOE(Mixture of Experts), 분산 추론에 유리
확장성과 효율성:
- TPU: 42.5 엑사플롭스 (9,216칩 구성)
- GB300: 5 엑사플롭스 수준 (개별 시스템)
- TPU는 스케일 아웃 측면에서 비용, 전력, 스위칭 복잡도에서 유리
- 엔비디아는 절대 속도와 단일 노드 밀도에서 우위
4. Axion CPU와 시스템 통합 전략
- Axion CPU: ARM Neoverse V2 기반 커스텀 설계
- 클라우드 워크로드(웹 서버, 데이터 처리)에 최적화
- 전력 효율 관리에 집중
- Grace CPU처럼 AI 가속기 보조 역할이 아닌 독립적 클라우드 서비스용
- AI 하이퍼컴퓨터 개념:
- 하드웨어 (TPU V7 + Axion CPU)
- 소프트웨어 (오픈 프레임워크 라이브러리 제공)
- 인프라 (GKE, Compute Engine 통합)
- 수직 통합으로 전체 시스템 효율 극대화
5. AI 인프라 경쟁의 새로운 국면
- 구글의 전략: “균등 확장형 AI 팩토리”
- 추론 중심 워크로드에 특화
- 예측 가능한 성능과 선형 확장성
- 전력 효율과 비용 최적화
- 10년간의 TPU 개발 노하우 집약
- 엔비디아의 전략: “고밀도 초고속 AI 공장”
- 훈련과 추론 모두 고성능
- 절대 속도 중시
- CUDA 생태계 장악
- 시장 변화 신호:
- AI 가속기 전쟁이 GPU 중심에서 시스템 전체 경쟁으로 전환
- 커스텀 칩 설계가 추론뿐만 아니라 훈련까지 확대
- 클라우드 사업자의 자체 AI 인프라 구축 가속화
핵심 인사이트
- 구글의 Ironwood는 단순한 GPU 대체재가 아니라 완전히 다른 철학의 AI 인프라 접근법을 제시합니다. 3D Torus 구조는 테슬라가 시도했다가 포기한 방식을 10년간의 연구로 안정화시킨 결과물입니다.
- 엔비디아의 절대 속도 vs 구글의 예측 가능한 확장성이라는 대비는 향후 AI 인프라 시장이 단일 벤더 독점이 아닌 워크로드별 최적화 경쟁으로 분화될 것임을 시사합니다.
- HBM3e 수요 폭증으로 SK하이닉스 등 메모리 제조사의 수혜가 지속될 전망입니다. 단일 슈퍼팟에만 1.77 페타바이트의 HBM이 필요하다는 점은 메모리 시장의 구조적 성장을 보여줍니다.
- 구글의 Axion CPU와 TPU 통합 전략은 클라우드 시장 3위 사업자가 차별화된 가치 제안으로 시장 점유율을 높일 수 있는 기회를 만들어냅니다.
- AI 서비스 시대에는 훈련보다 추론 비용이 더 중요해지며, 전력 효율이 곧 경쟁력이 됩니다. Ironwood의 전성비 6배 향상은 이 관점에서 매우 전략적인 성과입니다.