현 시대 AI 하드웨어 최강자…엔비디아 블랙웰 GPU [고든 정의 TECH+]

▲ B200 블랙웰 GPU. 출처=엔비디아

엔비디아는 AI 시대에 가장 가치가 치솟은 기업입니다. 현재의 AI 기술 중 상당 부분이 이 회사가 만든 GPU에 의존하고 있기 때문입니다. 오래전부터 GPU의 병렬 연산을 위해 CUDA 코어와 소프트웨어를 공개했고 이를 AI 연산에 활용하는 생태계를 구축해 왔기 때문에 지금 와서 다른 회사의 하드웨어로 이를 대체하기 힘든 것이 현실입니다.

오랜 경쟁자인 AMD도 데이터 센터 GPU를 계속 공개하고 있고 인텔도 새로운 AI 시장 공략을 위해 GPU를 공개했지만, 시장을 먼저 선점한 엔비디아의 아성을 깨뜨리기는 쉽지 않습니다. 이런 상황에서 새로 공개한 블랙웰 GPU는 반도체 미세 공정의 한계를 극복하고 AI 연산 성능을 높여 누구도 따라잡기 쉽지 않은 경쟁력을 유지하려는 의도로 풀이됩니다.

블랙웰 GPU는 TSMC의 4nm 공정의 개량형인 4NP 공정으로 제조되었습니다. 3nm 공정을 적용하지 않은 이유는 확실치 않지만, 비용 및 공급 부족 등이 이유가 된 것으로 보입니다. 하지만 그런 만큼 트랜지스터 집적도를 전 세대인 호퍼 (Hopper)보다 더 높이기 힘든 상황입니다. 800억 개의 트랜지스터를 집적한 호퍼 H100 GPU는 4nm 공정에서 다이(die, 웨이퍼에서 잘라낸 반도체 칩) 면적이 814㎟에 달합니다. 이는 현재 반도체 제조 기술에서 이론적인 다이 크기의 한계치에 거의 근접한 것으로 더 크기를 늘리기 쉽지 않습니다. 따라서 블랙웰 B200은 두 개의 다이를 연결하는 방법으로 2080억 개의 트랜지스터를 집적했습니다.

이런 접근법은 최근 점점 일반적인 추세가 되고 있습니다. 공정 미세화의 한계에 부딪힌 반도체 제조사들은 하나의 큰 칩 대신 여러 개의 작은 칩인 칩렛을 연결해 거대한 크기의 프로세서를 만들고 있습니다. 인텔, AMD, 애플이 모두 이 방법을 사용했고 이번에는 엔비디아도 이 방식을 적용해 트랜지스터 집적도를 대폭 늘렸습니다.

블랙웰 B200은 AI 연산에서 전 세대인 H100과 비교해서 최대 5배인 20페타플롭스의 성능을 지니고 있습니다. 물론 칩을 두 개 붙인 점을 생각하면 실제 성능은 2.5배라고 할 수 있는데, 실은 FP 8 연산의 절반 정도의 자원을 소모하는 FP 4 연산에서 그렇다는 이야기로 FP 8 기준으로 보면 AI 연산 능력은 절반 수준인 10페타플롭스가 최대입니다. 결국 칩 하나의 성능은 사실 1.25배 정도로 트랜지스터 수 증가를 생각하면 딱 그 정도의 성능 증가인 셈입니다.

하지만 그렇다고 해서 블랙웰이 아무 의미 없는 꼼수에 지나지 않는 것은 아닙니다. FP 4 연산만 해도 충분한 경우 AI 연산 속도를 크게 높일 수 있고 심지어 FP 4와 FP 8 연산의 중간을 원하는 고객을 위해 FP 6까지 지원하는 기능을 갖춰 더 유연한 AI 연산이 가능합니다. 그보다 더 중요한 점은 AI 경쟁이 격화되면서 어떤 비용을 치르더라도 남들보다 앞서기를 원하는 고객을 위해 성능을 높일 수 있는 다양한 옵션을 제공하고 있다는 것입니다.

▲ GB 200. 출처=엔비디아

예를 들어 블랙웰은 기반 GB 200은 그레이스 슈퍼칩 CPU 한 개와 두 개의 B200 GPU를 하나로 묶어 최대 40페타플롭스의 AI 연산 능력을 갖고 있습니다. 물론 그만큼 비싸고 전력 소모도 엄청나지만, AI 개발에 사활을 걸고 있는 기업이 많아 오히려 수요 대비 공급이 부족할 것으로 예상됩니다. 그리고 이 경우 HBM의 수요가 크게 늘어 우리나라 메모리 업계에도 호재가 될 것입니다. B200 GPU는 24GB HBM3e를 8개나 탑재해 192GB의 메모리 용량을 갖고 있고 GB200는 그 두 배인 384GB의 HBM3e 메모리를 지니고 있기 때문입니다.

여기서 화룡점정을 찍는 것 같은 소식은 비용에 상관없이 최강의 성능이 요구하는 고객을 위한 서버 랙 시스템인 GB 200 NVL 72 노드입니다. 하나의 서버 랙에 두 개의 GB 200을 탑재한 서버 트레이 18 유닛을 쌓아서 총 72개의 B200 GPU를 장착한 시스템으로 강력한 대규모 AI 연산을 위한 슈퍼컴퓨터라고 할 수 있습니다. 다만 이 경우 엄청난 전력을 소모하기 때문에 공랭 쿨러 대신 수랭 쿨러를 사용해야 시스템 발열을 처리할 수 있습니다.

▲ 출처=엔비디아

그런데 이렇게 많은 프로세서를 사용해 대규모 연산 시스템을 구축하는 경우 데이터를 공유하고 작업을 분산하는 과정이 새로운 문제로 떠오르게 됩니다. 이 과정에서 병목현상이 생기면 전체 시스템의 성능이 크게 저하되는 것입니다. 이를 해결하기 위해 엔비디아는 아예 NVLINK 스위치라는 새로운 네트워크 전용 프로세서를 만들었습니다. 그리고 NVLINK 스위치 프로세서를 서버 트레이 하나에 두 개씩 넣어서 총 14.4TB/s의 대역폭을 확보했습니다.

이런 트레이가 9개가 있기 때문에 GB 200 NVL 72 노드 한 개가 130TB/s에 달하는 거대한 프로세서 간 대역폭을 확보할 수 있습니다. 덕분에 갈수록 커지고 있는 대규모 AI 학습 데이터를 더 효과적으로 처리하고 학습을 빨리할 수 있게 됐습니다. 마지막으로 GB 200 NVL 72 노드를 여러 대 연결하면 엑사플롭스급 AI 슈퍼컴퓨터 구축이 가능합니다. 물론 비용도 에너지 소모량도 엄청나지만, 역시 수요는 충분할 것으로 예상됩니다.

블랙웰 GPU를 보면 AI 하드웨어가 본격적인 산업화 시대에 도달했다는 것을 알 수 있습니다. 과거 GPU는 게임용으로 많이 사용되었고 초기 AI 연산용 GPU도 이것과 크게 다르지 않았으나 최근 나오는 데이터 센터 GPU는 산업용 및 연구용으로 특화되어 관련 분야에 종사하는 사람이 아니라면 직접 한 번 보거나 다뤄보기 어려운 물건이 됐습니다. 블랙웰 GPU는 대규모 데이터 처리와 AI 연산에 적합한 데이터 센터 GPU로 AI 혁명을 한 단계 앞당길 제품이 될 것으로 보입니다.

고든 정 과학 칼럼니스트 jjy0501@naver.com