AI 반도체 핵심 (GPU, HBM, 메모리 병목)

솔직히 저는 HBM이라는 단어를 수십 번 들으면서도 그게 정확히 뭔지 한 번도 제대로 찾아본 적이 없었습니다. 그냥 "반도체 종류 중 하나겠지" 하고 넘겼는데, 막상 그 원리를 들어보니 충격이었습니다. 오늘은 GPU가 왜 AI의 핵심이 됐는지, HBM이 왜 갑자기 모든 기업이 줄 서서 사려는 물건이 됐는지, 그리고 이 기술이 한계에 부딪히면 어떤 일이 벌어지는지를 직접 공부한 내용을 바탕으로 정리해 봤습니다.

GPU가 AI의 엔진이 된 이유

일반적으로 컴퓨터의 두뇌는 CPU라고 알려져 있습니다. 저도 그렇게만 알고 있었습니다. 그런데 AI를 실제로 돌려보면 CPU만으로는 한계가 명확합니다.

CPU(중앙처리장치)는 복잡한 작업을 순서대로 빠르게 처리하는 데 강합니다. 반면 GPU(그래픽처리장치)는 같은 계산을 수천 개 동시에 처리하는 구조입니다. AI의 핵심 연산이 바로 이 '동시 계산'에 해당하기 때문에 GPU가 폭발적으로 주목받게 된 것입니다.

AI가 문장을 이해하는 방식을 잠깐 살펴보면 이해가 쉽습니다. "I am a boy"라는 문장에서 'I'와 가장 연관이 높은 단어가 무엇인지 점수로 매기고, 단어 수백만 개 사이의 관계를 전부 수치로 표현하는 방식이 바로 행렬(Matrix) 연산입니다. 여기서 행렬이란 숫자를 표로 배열해 한꺼번에 계산하는 수학 구조입니다. GPU가 그래픽 처리를 위해 이 행렬 연산에 최적화돼 있었다는 사실이 AI와의 결정적 궁합을 만들어냈습니다.

이 조합을 처음 발견한 건 캐나다의 AI 연구자 제프리 힌튼이었습니다. 2012년 이미지 인식 대회에서 GPU를 활용한 팀이 경쟁자들을 압도적으로 누르면서 세상이 바뀌기 시작했습니다. 엔비디아가 그래픽 카드 회사에서 AI 반도체 시장의 독보적 강자가 된 것도 이때부터의 흐름입니다. 제가 직접 ChatGPT를 써보면서 "이게 이렇게 빠른 게 GPU 덕분이었구나"를 체감한 건 한참 뒤의 일이었지만요.

요약: GPU는 행렬 연산을 동시에 처리하는 구조 덕분에 AI 학습과 추론에 최적화된 핵심 반도체가 됐습니다.

HBM이 없으면 GPU도 멈춘다

GPU가 아무리 빠르게 계산해도 데이터를 제때 공급받지 못하면 소용이 없습니다. 이게 바로 메모리 병목 현상입니다. 병목이란 좁은 병목처럼 통로가 좁아서 데이터가 한꺼번에 흐르지 못하는 상태를 말합니다. GPU 성능이 100이라도 메모리 공급이 막히면 실제 성능은 30, 40 수준으로 떨어집니다.

이 문제를 해결하기 위해 등장한 것이 HBM(High Bandwidth Memory)입니다. HBM이란 D램 칩을 여러 층으로 쌓고, 각 층을 수직으로 관통하는 미세한 구멍(TSV, Through Silicon Via)으로 연결해 데이터 전송 속도와 용량을 동시에 끌어올린 메모리입니다. 일반 D램이 차선 8~16개짜리 도로라면, HBM은 차선이 1024개짜리 고속도로에 해당합니다.

솔직히 이건 예상 밖이었습니다. 단순히 칩을 쌓는다는 발상인데, 실제 구현이 얼마나 어려운지 알고 나니 가격이 왜 그렇게 비싼지 이해가 됐습니다. 실리콘 웨이퍼를 머리카락 두께의 10분의 1 수준으로 얇게 갈고, 수만 개의 미세 구멍을 뚫은 뒤 구리로 채워 전기가 통하도록 만드는 과정은 조금만 삐끗해도 전체가 폐기됩니다.

현재 전 세계 HBM 생산의 70~80%는 한국 기업이 담당하고 있습니다. 공급이 수요를 따라가지 못하는 상황이라 부르는 게 값인 시장이 형성됐고, 이것이 국내 반도체 기업 주가 상승의 직접적 원인입니다. GPU와 HBM이 결합된 AI 가속기 모듈 하나의 가격은 현재 5천만~6천만 원 수준이며, 곧 1억 원을 넘을 것이라는 전망도 나옵니다(출처: 전자신문).

주목할 점은 이 기술이 하루아침에 나온 게 아니라는 겁니다. 1990년대 말부터 D램의 물리적 한계를 연구하던 연구자들이 "쌓으면 어떨까"라는 질문에서 시작한 20년 이상의 기초 연구가 ChatGPT 시대를 만나 꽃을 피운 겁니다. 제가 공부나 업무에서 결과가 빨리 안 나온다고 조급해했던 기억이 있는데, 이 사례를 보고 나서는 생각이 달라졌습니다.

일반 D램: 단층 구조, 좁은 데이터 전송 통로, 상대적으로 낮은 단가
HBM: 다층 적층 구조, 1024개 이상의 병렬 통로, AI 전용 고성능·고단가
HBF(High Bandwidth Flash): 낸드 플래시 기반, D램 대비 약 10배 용량, 차세대 후보

요약: HBM은 D램을 수직으로 쌓아 데이터 병목을 해결한 핵심 메모리로, AI 성능을 결정하는 실질적 병목 구간입니다.

메모리 병목이 해소되면 AI는 더 똑똑해질까

AI가 아직 틀린 답을 내놓거나 맥락을 놓치는 경우를 보면서, 저는 솔직히 "기술의 한계 아닐까"라고 생각한 적이 있었습니다. 그런데 제 경험상 이건 좀 다릅니다. 현재 AI의 한계 중 상당 부분은 소프트웨어 문제가 아니라 메모리 용량과 속도의 문제라는 설명이 설득력 있게 들렸습니다.

현재 HBM의 용량은 약 200GB 수준입니다. 그런데 진정한 멀티모달 AI, 즉 텍스트·이미지·영상을 동시에 이해하고 생성하는 AI를 구현하려면 100TB급 메모리가 필요하다는 주장도 있습니다. 지금보다 500배 이상 많은 용량입니다. 이를 위해 연구자들은 낸드 플래시 메모리를 HBM 방식으로 적층하는 HBF(High Bandwidth Flash) 구조를 연구하고 있습니다.

더 나아가 GPU의 연산 기능 일부를 메모리 안으로 이식하는 방향도 거론됩니다. 지금은 데이터가 메모리에서 GPU까지 이동해야 계산이 이루어지는데, 메모리 안에 연산 기능을 넣으면 이동 거리 자체가 줄어들어 병목이 근본적으로 해소됩니다. 실제로 HBM 4세대 설계에서 이 아이디어가 반영되고 있다고 합니다.

물론 AI 시장이 무한정 성장한다고 보는 건 위험하다고 생각합니다. 데이터 센터 구축에 조 단위 비용이 들고, 전력 소비도 막대합니다. 이 투자가 실제 수익으로 연결되는 생태계가 3~5년 안에 만들어지지 않으면 성장세가 꺾일 수 있습니다. 반도체 시장이 공급자 우위인 지금도 언제까지 지속될지는 예단하기 어렵습니다. 실제로 반도체 산업의 경기 사이클 분석에서도 공급 과잉 전환 시 가격 급락 리스크가 반복적으로 지적됩니다(출처: 정보통신정책연구원).

반도체 제조 공정 자체도 한계에 가까워지고 있습니다. EUV(극자외선) 노광 공정, 즉 녹인 주석을 초당 5만 방울 떨어뜨리며 레이저를 두 번씩 때려 13나노 수준의 자외선을 만들어내는 방식은 인간이 구현 가능한 기술의 거의 끝에 와 있다는 평가입니다. 앞으로의 혁신은 새로운 재료, 예를 들어 그래핀이나 초전도 물질 쪽에서 나올 가능성이 있습니다.

요약: AI의 현재 한계는 메모리 용량과 속도 부족이 상당 부분 원인이며, HBF와 같은 차세대 메모리 기술이 이 문제를 푸는 열쇠로 떠오르고 있습니다.

자주 묻는 질문

Q. GPU랑 CPU 차이가 뭔가요? AI에는 왜 GPU를 써요?

A. CPU는 복잡한 작업을 빠르게 순서대로 처리하는 데 강하고, GPU는 단순한 계산을 수천 개 동시에 처리하는 데 특화돼 있습니다. AI 학습의 핵심인 행렬 연산은 동시 계산이 필수라서 GPU가 압도적으로 유리합니다. 일반적으로 CPU만으로도 충분하다고 알려져 있지만, 대규모 AI 모델에서는 GPU 없이는 사실상 불가능합니다.

Q. HBM이 왜 이렇게 비싸요?

A. 실리콘 웨이퍼를 머리카락 두께의 10분의 1로 얇게 갈고, 수만 개의 미세 구멍을 뚫어 구리로 채우는 공정이 극도로 까다롭습니다. 조금만 오차가 생겨도 전체 칩이 폐기되고, 한 장 완성에 한두 달이 걸립니다. 공급이 수요를 따라가지 못하는 구조라 가격이 높게 유지되고 있습니다.

Q. AI가 아직 틀린 답을 내놓는 게 반도체 문제인가요?

A. 전부 반도체 문제는 아니지만, 메모리 용량 부족이 정확도에 영향을 준다는 시각이 있습니다. 처리할 수 있는 문맥의 길이와 동시에 참조할 수 있는 데이터양이 메모리 크기에 직결되기 때문입니다. 다만 소프트웨어 알고리즘의 한계도 동시에 존재하기 때문에 어느 한쪽만의 문제라고 단정하기는 어렵습니다.

Q. 국내 반도체 기업 주가가 오르는 이유가 뭔가요?

A. 전 세계 HBM 생산의 70~80%를 한국 두 기업이 담당하고 있어, AI 수요 급증이 곧장 이익으로 연결되는 구조이기 때문입니다. 공급이 수요를 따라가지 못하는 공급자 우위 시장에서 가격 결정권을 가지고 있다는 점이 투자자들의 기대를 높이고 있습니다. 다만 경기 사이클 특성상 공급 과잉으로 전환되는 시점의 리스크도 함께 고려해야 합니다.

결론

반도체 뉴스를 볼 때마다 그냥 "오른다, 내린다"만 쫓던 제가 이번에 처음으로 "왜"를 제대로 이해했습니다. GPU가 행렬 연산에 강하고, 그 연산을 뒷받침하는 메모리가 HBM이고, 그 HBM을 만드는 기술이 수십 년의 기초 연구에서 나왔다는 흐름이 한 줄로 연결됐을 때 비로소 이 산업이 왜 지금 이 위치에 있는지 감이 잡혔습니다.

기술 발전이 빠른 만큼 기업 간 격차도 커지고 있습니다. AI를 단순히 도구로 쓰는 것에 그치지 않고, 이를 가능하게 하는 반도체 구조에 관심을 갖는 것이 앞으로의 경쟁력 차이를 만들 수 있다고 생각합니다. 당장 투자 판단보다는 기술의 맥락을 이해하는 것부터 시작해 보시길 권합니다.

참고: https://www.youtube.com/watch?v=mNef_eJ4qlk&list=PLkKcqR2KGxgzqeKZo1Rx93kJFokuVkpye&index=15

반도체·HBM… 뉴스에서 항상 듣던 반도체 용어 전격 해부 (feat. 김정호 교수) [취미는 과학/ 76화 확장판]

하일