샌디스크 특허 충격, HBM 다음은 HBF? DRAM이 아니라 NAND라서 쉽지 않습니다

개요

AI 반도체 메모리 경쟁에서 HBM의 뒤를 잇는 후보로 거론되는 HBF, 즉 하이 밴드위스 플래시를 다룬 영상입니다. 샌디스크가 프로세서를 낸드 위에 직접 붙이고 HBM을 주변으로 밀어내는 특허를 공개하면서 “HBM의 시대가 저무는가”라는 우려가 커졌는데, 이 영상은 그 질문을 따라가며 낸드의 동작 원리와 한계를 통해 HBF가 정말 HBM을 대체할 수 있을지 냉정하게 짚습니다.

이 영상은 반도체 전문 채널 패치가 제작한 콘텐츠로, 메모리 구조와 동작 원리를 일반 시청자도 이해할 수 있도록 풀어서 설명하는 데 강점이 있습니다.

핵심 내용

HBF의 등장과 표준화 움직임

요즘 AI 반도체 메모리 이야기는 거의 모든 관심이 HBM에 쏠려 있습니다. GPU 옆에 HBM을 얼마나 붙일 수 있는지, 대역폭이 얼마나 올라가는지가 화제인데, 최근 HBM의 다음은 HBM이 아니라 HBF일 수도 있다는 이야기가 나오기 시작했습니다.

실제로 샌디스크와 SK 하이닉스가 HBF의 표준화에 나섰고, 오픈 컴퓨터 프로젝트에 별도의 워크 스트림까지 만들었습니다. 흥미로운 점은 HBM 같은 메모리 표준은 재덱에서 나오는데 HBF는 OCP를 택했다는 것입니다. 영상에서는 OCP 워크 스트림이 목표 중심으로 움직여서 빠르게 바뀌는 AI 시장에 맞춰 사양을 실시간으로 고쳐 나가기 좋기 때문이라는 업계 설명을 전합니다. 또한 HBF는 HBM과 인터페이스 자체가 달라서 여러 회사가 함께 쓰려면 처음부터 표준을 맞춰야 합니다. 반면 삼성전자는 아직 구체적인 HBF 표준화 계획이나 제품 로드맵을 공개하지 않고 있습니다.

샌디스크가 제시한 1세대 HBF 목표는 낸드 다이 16개를 한 스택으로 쌓아 512GB 용량과 초당 1.6TB의 읽기 대역폭을 구현하는 것입니다. 여기서 그치지 않고 2세대는 초당 2TB 이상, 3세대는 초당 3.2TB까지, 스택당 용량도 1TB, 1.5TB로 키우는 로드맵을 내놓았습니다. 일정으로는 2026년 하반기 첫 샘플, 2027년 초 HBF를 탑재한 초기 AI 추론 시스템을 목표로 잡고 있습니다.

흥미로운 점은 샌디스크가 M램이나 R램 같은 다른 차세대 메모리 후보 대신 낸드를 골랐다는 것입니다. 밀도와 확장성, 비용에서 이미 검증된 기술이기 때문입니다. 또한 낸드는 비휘발성 메모리라 전원을 꺼도 데이터가 사라지지 않습니다. 디램 기반인 HBM은 데이터를 유지하려고 끊임없이 전기를 새로 넣어 주는 리프레시 동작이 필요하지만 낸드는 그럴 필요가 없어, 전력이 곧 비용인 추론 시대에 작지 않은 강점입니다.

느린 낸드가 높은 대역폭을 만드는 원리

낸드는 원래 디램보다 훨씬 느린데 어떻게 초당 테라바이트 단위 대역폭을 만들 수 있을까요? 핵심은 낸드 하나를 빠르게 만드는 것이 아니라 동시에 움직이는 낸드 수를 극단적으로 늘리는 데 있습니다.

SSD 안에서 컨트롤러는 여러 채널로 여러 낸드에 동시에 명령을 보내고, 그 안에는 다시 여러 개의 다이가 있으며, 다이 하나 안에서도 여러 플레인이 서로 다른 데이터를 동시에 처리합니다. 영상은 이를 한 차선의 차를 빠르게 만드는 게 아니라 차선을 수십 개로 늘려서 같은 시간에 더 많은 데이터를 보내는 방식이라고 비유합니다. 최근 마이크론이 6플레인 낸드를 강조하는 것도 같은 이유로, 플레인이 많을수록 읽기와 쓰기 명령을 더 많이 동시에 내릴 수 있어 셀 하나의 속도를 바꾸지 않고도 전체 처리량을 끌어올릴 수 있습니다. HBF는 여기에 다이 적층과 넓은 인터페이스를 더해, 로직 베이스 다이가 모든 동작을 동시에 조율하는 방식입니다.

여기에는 또 하나의 선택지가 있습니다. 낸드는 셀 하나에 몇 비트를 담을지 고를 수 있습니다. 셀 하나에 3비트를 담는 TLC, 4비트를 담는 QLC는 용량이 크지만 읽고 쓰는 과정이 복잡합니다. 반대로 1비트만 담는 SLC로 가면 용량은 줄지만 속도가 빨라지고 수명과 안정성에 여유가 생깁니다. 요즘 3D 낸드는 평소 TLC나 QLC로 쓰던 영역을 필요할 때만 SLC처럼 쓰는 pSLC 모드도 적용할 수 있는데, TLC를 SLC처럼 쓰면 용량은 1/3로, QLC는 1/4로 줄지만 셀 동작이 빨라지고 오류 여유가 커집니다.

낸드의 약점이 곧 HBF의 한계

낸드는 셀 안에 전자를 가둬서 데이터를 기억합니다. 가둔 전하의 양에 따라 셀이 전류를 흘리기 시작하는 지점, 즉 문턱 전압이 달라지고 컨트롤러는 이 차이를 읽어 0과 1을 구분합니다. 그런데 셀 하나에 더 많은 비트를 담을수록 구분해야 할 상태가 촘촘해집니다. SLC는 두 가지 상태만 나누면 되지만 TLC는 여덟 가지, QLC는 16가지 상태를 좁은 간격 안에서 갈라야 해서 작은 변화에도 값이 헷갈리기 쉬워집니다.

문제는 이 전하가 가만히 있지 않는다는 점입니다. 시간이 지나거나 열을 받으면 조금씩 새어나가면서 저장된 값이 흔들립니다. 데이터를 기록한 뒤 그 값을 얼마나 오래 유지하느냐가 바로 리텐션입니다. 게다가 쓰고 지우는 동작 자체도 셀을 갉아먹는데, 프로그램과 지우기(PE) 동작을 반복하면 미세한 손상이 쌓입니다. 셀이 이를 몇 번 견딜 수 있느냐가 바로 인듀어런스, 즉 쓰기 내구성입니다. 영상의 그래프에서도 PE 사이클을 반복할수록 에러 수가 점점 늘어나는 것을 볼 수 있습니다. 같은 곳을 너무 자주 읽기만 해도 주변 셀이 흔들리는 리드 디스터브도 생깁니다.

그래서 낸드는 혼자 동작하지 않습니다. 컨트롤러가 쓰기를 고루 분산하는 웨어 레벨링을 하고, 약해진 데이터를 다른 곳으로 옮겨 다시 쓰며, ECC라는 오류 정정 코드로 잘못 읽힌 비트를 끊임없이 고쳐냅니다. 요즘은 LDPC처럼 강력한 방식이 쓰여서 단순히 0인지 1인지만 판정하지 않고 어느 값일 가능성이 높은지를 따져 복원합니다. 다만 ECC도 만능은 아니어서, 정정 능력을 높이려면 그만큼 여분 공간과 연산, 전력이 더 들고, 한 번에 오류가 너무 많이 나면 끝내 복구하지 못하는 경우도 생깁니다.

이 부담은 KV캐시처럼 작은 데이터가 끊임없이 생겼다 지워졌다 하는 워크로드에서 특히 커집니다. 실제로 기록한 양보다 낸드 내부에서 훨씬 많은 쓰기가 일어나는 쓰기 증폭이 발생해 셀의 수명이 빨리 닳기 때문입니다. 그래서 HBF는 한 번 학습하면 잘 바뀌지 않는 읽기 중심의 모델 가중치부터 맡고, 쓰기가 잦은 KV캐시는 HBM이나 별도의 고성능 계층에 두는 쪽이 현실적입니다.

열이라는 변수와 패키징 과제

이 모든 문제를 더 빠르게 진행시키는 변수가 바로 열입니다. AI 서버의 전력 밀도는 계속 높아져 GPU 하나가 수백W를 쓰고 AI 랙 하나가 100kW를 넘어서면서, 이제는 공기만으로 열을 식히기 어려워졌습니다. 칩에 직접 붙이는 직접 액체 냉각을 넘어 서버 전체를 절연성 액체에 담그는 액침 냉각까지 거론됩니다. 다만 영상은 데이터 센터의 낸드가 실제로 100도가 넘는 액체 속에서 동작한다는 이해는 정확하지 않으며, 냉각용 액체의 운용 온도는 보통 그보다 훨씬 낮다고 짚습니다.

중요한 것은 GPU 옆에 놓인 HBF가 오랜 시간 어떤 국부 온도와 온도 변화를 겪느냐입니다. HBF를 샌디스크 개념도처럼 GPU와 HBM 옆 인터포저에 올리면 낸드는 수백W짜리 연산 칩과 아주 가까이 놓여, 부하가 바뀔 때마다 데워졌다 식었다를 반복합니다. 낸드 업계는 장기 보존 특성을 빨리 확인하려고 100도나 120도가 넘는 고온에서 데이터를 보관하는 가속 평가를 합니다. 아레니우스 방정식에서 보듯 높은 온도에서는 활성화 에너지 장벽을 넘기가 수월해지며, 그래프에서도 비트 에러 레이트가 상온보다 섭씨 70도에서 더 높게 올라가는 것을 볼 수 있습니다. 이는 제품을 실제로 그 온도에서 쓴다는 뜻이 아니라, 온도를 높여 열화를 빠르게 만들어 수년치 변화를 짧게 압축해 관찰하는 실험입니다.

게다가 HBF가 코아스 같은 고밀도 패키지 안에 들어가면 일반 SSD처럼 문제 생긴 드라이브만 뽑아 갈기 어려워집니다. 16개 다이 중 일부만 먼저 닳아도 패키지 전체의 신뢰성과 수명에 영향을 줄 수 있습니다. 해법으로는 GPU와 HBF의 열 경로를 분리해 각각 정밀하게 식히거나, 일부 다이를 여분으로 두고 오류가 늘어난 부분을 동적으로 격리하는 방법이 있습니다. pSLC를 쓰면 수명과 보존 여유는 커지지만 HBF가 내세우는 용량 이점은 줄어듭니다. 결국 HBF는 낸드를 쌓는 패키징 기술 하나로 완성되지 않고, 셀 구조와 병렬 인터페이스, 컨트롤러, 오류 정정, 열 설계, 소프트웨어가 모두 맞물려야 하는 시스템 기술입니다.

경쟁이 아닌 공존: HBF와 CMX, 그리고 삼성의 다른 길

SK 하이닉스는 AI용 낸드 전략을 AIN이라는 이름으로 정리하고 있습니다. 기업용 SSD 계열의 AIN과 대역폭을 확장하는 AINB가 있고, 이 중 AINB가 HBF를 적용한 제품군입니다. 역할 분담도 비교적 분명해서, 샌디스크는 낸드 셀과 CBA 웨이퍼 본딩, 컨트롤러 설계를 맡고, SK 하이닉스는 HBM에서 쌓은 TSV와 고단 적층, 고대역폭 패키징 경험을 더할 수 있습니다. 다만 실제 생산 분담과 첫 고객, 인터페이스 규격은 아직 공개되지 않았고, 표준화 협력이 곧 대규모 양산 계약을 뜻하는 것도 아닙니다.

삼성전자의 움직임은 다릅니다. 아직 OCP 표준화 참여나 HBF 제품 사양, 출시 일정을 공식 발표하지 않았지만, 표준도 고객 요구도 정해지지 않은 초기 기술인 만큼 내부 개발을 이어가며 시장을 지켜보고 있을 수도 있습니다. 공개된 전략만 보면 삼성은 낸드를 GPU 패키지 안에 넣기보다 PCIe 6.0 기반 고성능 기업용 SSD나 페타바이트급 스토리지처럼 랙과 데이터 센터에서 더 빠르고 크게 활용하는 방향을 강조합니다.

엔비디아의 움직임을 보면 이 방향도 설득력이 있습니다. 엔비디아의 베라루빈 시스템은 GPU 랙 하나만 뜻하지 않고, 연산 랙과 베라 CPU 랙, 별도의 스토리지 랙, 이를 잇는 네트워크 랙이 하나의 팟을 이룹니다. 여기서 블루필드 4 STX는 스토리지 아키텍처이고, 그 위에 올라가는 첫 구현이 CMX라는 컨텍스트 메모리 스토리지 계층입니다. CMX는 KV캐시처럼 크고 일시적이지만 반복해서 쓸 가치가 있는 데이터를 GPU의 HBM 밖에 보관하고, 스펙트럼 X의 고속 네트워크로 여러 GPU가 함께 나눠 쓰도록 설계됐습니다. 이는 낸드와 GPU 사이 거리를 줄이는 방법이 꼭 HBM 옆에 HBF를 붙이는 것 하나만은 아님을 보여줍니다.

흥미로운 점은 HBF와 CMX가 경쟁 관계처럼 보이지만 똑같은 데이터를 두고 싸우는 게 아니라는 것입니다. HBF가 노리는 것은 잘 바뀌지 않는 읽기 중심의 모델 가중치이고, CMX가 노리는 것은 끊임없이 생겼다 지워지는 쓰기 중심의 KV캐시입니다. 성격이 정반대인 데이터라, 한 팟 안에서도 HBF가 GPU 옆에서 가중치를 들고 CMX가 랙 차원에서 KV캐시를 나눠 갖는 식으로 공존할 가능성이 충분합니다.

실전 가이드

이 영상의 관점을 실제로 기술 동향 파악에 적용하려면 다음을 따라볼 수 있습니다.

먼저 HBF 관련 뉴스를 볼 때 화려한 용량과 대역폭 숫자에만 주목하지 말고, 그 수치가 회사의 내부 시뮬레이션인지 실제 양산 샘플의 검증된 값인지부터 구분합니다. 영상이 강조하듯 현재 공개된 성능에는 회사의 내부 시뮬레이션과 개발 목표가 섞여 있어, 실제 지연 시간과 전력, 수명, 신뢰성은 샘플이 나온 뒤에야 확인할 수 있습니다.

다음으로 HBF가 어떤 데이터를 위한 것인지 구분합니다. 읽기 중심의 모델 가중치인지 쓰기가 잦은 KV캐시인지에 따라 적합성이 크게 달라지므로, “어떤 워크로드인가”를 먼저 물어야 합니다.

마지막으로 표준화 행사나 발표를 추적합니다. 영상은 오는 8월 21일 서울 코엑스에서 열리는 OCP 코리아 테크 데이를 관전 포인트로 꼽으며, HBF와 GPU 사이 인터페이스, 오류 정정과 불량 다이 관리의 주체, 온도와 수명 기준, TLC·QLC·pSLC 중 무엇을 상정하는지, 인터포저에 고정할지 교체 가능한 모듈을 허용할지 같은 항목을 먼저 봐야 한다고 안내합니다.

비판적 검토

영상은 HBF를 둘러싼 과장을 차분하게 걷어내는 데 강점이 있습니다. 특히 낸드의 동작 원리(문턱 전압, 리텐션, 인듀어런스, ECC)부터 시작해 왜 HBF가 단순한 SSD 적층이 아닌지를 설명하는 흐름이 인상적입니다. 또한 샌디스크의 화제가 된 특허에 대해 “제품이 아니라 특허이며, 그 특허에서조차 HBM은 사라지지 않고, 사실 이것은 HBF도 아닌 더 급진적인 별개 개념”이라는 세 가지 포인트로 냉정하게 짚는 부분이 돋보입니다.

다만 영상이 강조하듯 현재 공개된 정보는 대부분 목표와 시뮬레이션에 머물러 있어, 실제 양산 제품에서의 검증은 아직 남아 있습니다. 실무 관점에서는 SK 하이닉스가 IEEE 논문에서 엔비디아 블랙웰 GPU 옆에 HBM 여덟 개와 HBF 여덟 개를 함께 붙인 하이브리드 구조를 시뮬레이션한 결과 HBM만 썼을 때보다 와트당 성능이 최대 2.69배 좋아졌다는 점처럼, 대체가 아니라 공존이 더 현실적인 그림임을 염두에 두는 것이 좋습니다.

핵심 요점

HBF는 HBM을 대체하는 기술이 아니라 HBM과 SSD 사이의 빈 공간을 채우는 새로운 계층입니다. HBM은 지연 시간이 중요한 즉각적 작업을, HBF는 더 큰 용량을 상대적으로 낮은 비용에 제공하는 역할로 재배치되는 중입니다.
느린 낸드가 높은 대역폭을 내는 비결은 셀 하나의 속도가 아니라 채널·다이·플레인을 극단적으로 병렬화하는 데 있습니다. 차선을 수십 개로 늘려 같은 시간에 더 많은 데이터를 보내는 방식입니다.
낸드는 오류가 전혀 없는 메모리가 아니라 어느 정도의 오류를 전제로 컨트롤러가 끊임없이 고쳐가며 쓰는 메모리입니다. 리텐션, 인듀어런스, 쓰기 증폭, 열이라는 약점이 곧 HBF의 한계를 결정합니다.
HBF는 읽기 중심의 모델 가중치에, 엔비디아의 CMX 같은 계층은 쓰기 중심의 KV캐시에 적합합니다. 성격이 정반대라 경쟁이 아니라 한 시스템 안에서 공존할 가능성이 큽니다.
화제가 된 샌디스크 특허는 제품이 아니라 권리 선점용 특허이며, 그 특허에서조차 HBM은 사라지지 않습니다. 앞으로는 2026년 하반기 첫 샘플의 실물 성능, 쓰기 워크로드에서의 수명, 고온 내구성, GPU·클라우드 기업의 실제 채택 여부를 지켜봐야 합니다.

참고자료

샌디스크의 HBF 로드맵 및 미국 특허청 공개 특허
SK 하이닉스의 AIN/AINB 전략 및 IEEE 논문(블랙웰 GPU + HBM·HBF 하이브리드 시뮬레이션)
OCP 코리아 테크 데이 (2026년 8월 21일, 서울 코엑스)

개요