GPU만 빠르면 뭐해? HBM과 CoWoS가 없어서 못 팔게된 이유 | AI 인프라 5가지 병목

요약

최근 OpenAI의 데이터센터 구축 선언과 SK하이닉스의 HBM 품귀 현상은 AI 인프라 전쟁이 단순한 GPU 칩 경쟁을 넘어 메모리, 패키징, 인터커넥트, 소프트웨어 전체 시스템으로 확산되었음을 보여줍니다. 이 영상에서는 AI 인프라를 구성하는 각 계층이 어떻게 서로의 발목을 잡으며 연쇄적인 병목 현상을 만들어내는지 5가지 핵심 병목 구간을 심층 분석합니다.

주요 내용

1. 병목의 출발점: GPU 연산 코어의 데이터 기아 현상

  • 연산 코어의 전문화: GPU 내부의 텐서코어(엔비디아), MXU(구글) 같은 연산 코어는 행렬 곱셈 누산(MAC) 연산만을 극단적으로 빠르게 처리하도록 설계됨
  • 산술 강도의 문제: 메모리에서 1바이트 데이터를 가져왔을 때 몇 번의 연산을 할 수 있는지를 나타내는 효율성 지표
  • 트랜스포머의 한계: 특히 어텐션 메커니즘은 산술 강도가 낮아 연산 코어가 데이터를 기다리며 대부분의 시간을 낭비하는 ‘데이터 기아’ 상태에 빠짐
  • 구조적 모순: 극도로 유능한 전문가(연산 코어)를 고용했지만, 정작 그에게 주어진 일은 끊임없이 데이터를 가져와야만 처리할 수 있는 단순 반복 작업

2. 첫 번째 해결책과 새로운 병목: HBM의 물리적 한계

  • HBM의 핵심 철학: 단순한 속도가 아닌 거대한 너비(대역폭)에 집중
    • DDR5: 모듈당 64비트, 듀얼 채널 128비트
    • HBM3e: 1024비트
    • HBM4(차세대): 2048비트 목표
  • 수직 적층 구조: DRAM 칩을 수직으로 쌓아올리고 TSV(Through-Silicon Via) 미세 전극으로 칩 간을 관통 연결
  • 2.5D 패키징의 필연성: 실리콘 인터포저를 통해 GPU와 HBM을 나란히 올려 미세하고 촘촘한 배선으로 연결
  • 여전히 부족한 대역폭: GPU 내부 SRAM 캐시가 초당 수십 테라바이트인 반면, HBM은 1.2TB 수준으로 폰 노이만 병목을 완화했을 뿐 완전히 해결하지 못함

3. 패키징 병목: CoWoS 공급망의 물리적 한계

  • 리티클 리밋 문제: 노광 장비가 한 번에 작업할 수 있는 면적(레티클 필드 사이즈)의 한계
  • 대형 인터포저의 딜레마: GPU와 HBM을 모두 담아야 하는 인터포저가 레티클 한 개 크기에 근접하면서 웨이퍼당 생산 가능한 인터포저 수가 급격히 감소
  • 공급망 집중화: AI 칩을 원하는 기업들이 TSMC 등 극소수 파운드리의 제한된 CoWoS 생산 능력에 의존
  • 스티칭 기술의 한계: 여러 레티클을 정밀하게 이어붙이는 기술이 대안으로 거론되지만 생산성, 정밀도, 비용면에서 아직 상용화 초기 단계
  • 열과 전력 문제: 수백억 개 트랜지스터가 1000W 육박하는 전력을 소비하며 뿜어내는 엄청난 열밀도로 인해 복잡한 액체 냉각이 필수화되고 데이터센터 운영 비용 상승

4. 스케일 아웃의 새로운 병목: 인터커넥트와 암달의 법칙

  • 암달의 법칙: 시스템 전체 성능 향상은 병렬화가 불가능한 순차적 부분에 의해 제한됨
  • 올-리듀스(All-Reduce)의 동기화 문제: 대규모 분산 학습에서 모든 GPU가 학습 결과를 공유하고 통합하는 과정은 클러스터의 모든 노드가 참여해야만 다음 단계로 진행 가능
  • 네트워크 지연의 증폭: 하나의 패킷이라도 지연되면 수만 개의 GPU가 모두 그 패킷을 기다려야 하는 상황 발생
  • 인터커넥트의 중요성: 단순한 데이터 전송률(대역폭)뿐만 아니라 지연 시간(레이턴시)과 네트워크 토폴로지가 전체 클러스터 효율을 좌우
  • 오케스트라 비유: 각 GPU는 신들린 듯 연주하는 거장이지만, 정확히 같은 타이밍에 동기화되지 않으면 전체 시스템이 불협화음이 됨

5. 소프트웨어 스택의 비효율성: 하드웨어 잠재력을 깎아먹는 추상화

  • 번역 과정의 손실: 개발자의 Python 코드 → 프레임워크 연산 그래프 → 컴파일러 → 하드웨어 저수준 코드로 변환되는 과정에서 비효율 발생
  • 컴파일러 최적화 실패 사례:
    • 연산자 융합 실패: 여러 작은 연산을 하나의 큰 커널로 융합하지 못하면 GPU가 메모리를 여러 번 불필요하게 오감
    • 타일링 실패: 데이터를 GPU의 빠른 캐시(SRAM)에 올려 효율적으로 재사용하는 메모리 계층 최적화 실패
  • 구조적 간극: AI 모델 개발자는 하드웨어의 물리적 구조를 완벽히 이해하지 못하고, 하드웨어는 소프트웨어가 어떤 작업을 시킬지 미리 알지 못함
  • 궁극적 병목: 컴파일러가 이 복잡성을 완벽하게 최적화할 수 없어, 하드웨어가 제 성능을 전혀 발휘하지 못하는 추상적 병목으로 귀결

핵심 인사이트

  • 연쇄적 병목 구조: 연산 코어의 데이터 기아 → HBM의 대역폭 한계 → 패키징 공급망 병목 → 인터커넥트 동기화 지연 → 소프트웨어 비효율로 이어지는 복잡한 인과관계의 사슬
  • 단일 부품 경쟁의 한계: GPU 성능이나 HBM 공급량 같은 개별 이슈가 아닌, 전체 시스템의 유기적 연결을 이해해야만 AI 시장의 판도를 제대로 읽을 수 있음
  • 시스템 레벨 코디자인의 중요성: 미래 AI 기술 발전은 알고리즘, 소프트웨어, 하드웨어, 아키텍처, 물리적 소재에 이르기까지 모든 계층을 함께 고려하고 설계하는 능력에 의해 좌우될 것
  • 산업계의 대응 전략:
    • 메모리: CXL 기술을 통해 서버 주 메모리(DRAM)를 GPU 메모리처럼 활용
    • 패키징: TSMC의 CoWoS-L/R, 삼성의 I-Cube, 인텔의 Foveros 등 다변화
    • 인터커넥트: UEC(Ultra Ethernet Consortium) 결성으로 엔비디아 독점에 대항하는 개방형 표준 추구
    • 소프트웨어-하드웨어 통합: 구글 TPU, 아마존 Trainium, 마이크로소프트 Maia 같은 맞춤형 실리콘 개발로 궁극적 효율 추구

Leave a Comment