고든 정의 TECH+

[고든 정의 TECH+] 인공지능 시장 정조준한 엔비디아의 인공지능 가속기 A100

폰트 확대 폰트 축소 프린트하기

▲ A100. 출처=엔비디아

엔비디아가 코로나19로 인해 사상 최초로 온라인으로 진행된 GTC 2020 컨퍼런스에서 차세대 아키텍처인 암페어(Ampere)와 이를 적용한 고성능 GPU인 A100을 공개했습니다. A100의 첫인상은 한마디로 ‘거대하다’입니다. 12nm 공정에서 더 미세한 7nm 공정으로 이전하면 트랜지스터 집적도가 증가하는 게 당연하지만, 전 세대의 2.5배가 넘는 542억 개는 예상을 뛰어넘는 수준입니다. GPU 다이 크기는 826㎟인데 이전 세대인 볼타(Volta) GV100이 815㎟ 크기의 다이에 211억 개의 트랜지스터를 집적한 것과 비교하면 정말 빽빽하게 트랜지스터를 담아 넣은 셈입니다.

하지만 이렇게 늘어난 크기에도 불구하고 A100의 배정밀도 연산 능력은 9.7 TFLOPs로 GV100의 7.8 TFLOPs과 비교해 큰 차이가 없습니다. 그 이유는 시대의 요구에 따라 고성능 컴퓨팅보다 인공지능에 관련 연산 유닛을 대거 집어넣었기 때문입니다. 사실 엔비디아는 2017년에 나온 볼타 GV100부터 GPU에 인공지능 기술을 대거 도입해 이 시장에서 승승장구했습니다. 암페어 A100은 아예 올인했다고 해도 좋을 정도로 인공 신경망 관련 신기술에 집중했습니다.

암페어 A100은 인공지능과 관련된 특수 연산인 텐서 연산을 가속하기 위해 3세대 텐서 코어를 탑재했습니다. 3세대 텐서 코어는 TensorFloat-32 (TF32) 텐서 연산 유닛을 새로 탑재해 FP32 데이터 연산과 입출력 속도를 10배 정도 끌어올렸습니다. 기존의 볼타에서도 지원했던 FP16 연산 속도도 2.5배 빨라졌습니다. 이것만으로도 인공지능 관련 연산 속도를 크게 높일 수 있지만, 엔비디아는 희소성 가속(Sparsity Acceleration)이라는 신기술을 도입해 인공 신경망 연산 속도를 다시 두 배 높였습니다. 따라서 실제 체감 속도는 최대 20배 빨라졌습니다.

엔비디아가 공개한 벤치마크 결과에 의하면 암페어 A100은 일반적으로 많이 사용되는 고성능 컴퓨팅 (HPC) 연산에서는 볼타 대비 1.5-2.1배 정도 빠르며 인공지능 연산은 방식에 따라 3-7배 정도 더 빠릅니다.(그래프 참조) 고성능 컴퓨팅 분야에서도 더 빨라지긴 했지만, 인공지능 관련 기능을 대폭 강화해 AI에 대한 요구가 많아지는 데이터 센터 및 기업 시장을 정조준한 것으로 풀이될 수 있습니다.

암페어 아키텍처의 또 다른 장점은 인공지능 연산에서도 학습(training)에 특화된 볼타 아키텍처와 추론(inference)에 특화된 튜링 아키텍처의 장점을 포괄해 학습과 추론 모두에 사용할 수 있다는 것입니다. 볼타 아키텍처에서는 FP16 텐서 연산만 지원했고 나중에 등장한 튜링 아키텍처에서는 추론 연산에 중요한 INT4/8을 지원해 두 가지 제품이 각각의 용도에 사용되었습니다.(후자는 T4 가속기) 기업 입장에서는 작업에 따라 두 가지 인공지능 가속기를 도입해야 하는 문제점이 있었습니다. 암페어 A100에서는 300억 개 이상 늘어난 트랜지스터에 이 기능을 집중적으로 할당해 통합 인공지능 가속기로 거듭났습니다.

엔비디아가 같이 공개한 A100의 재미있는 부가 기능 중 하나는 하나의 GPU를 7개의 가상 GPU로 활용할 수 있는 Multi-Instance GPU(MIG) 기술입니다. A100처럼 큰 자원을 지닌 GPU를 모두 사용하는 인공지능 작업도 있을 수 있지만, 사실 전체가 필요하지 않을 수도 있습니다. 이 경우 GPU의 자원을 쪼개 여러 사용자가 같이 쓰거나 한 사용자라도 여러 작업을 동시에 수행할 수 있다면 작업 효율을 높일 수 있습니다.

▲ DGX A100. 출처=엔비디아

A100은 공개와 더불어 이미 고객에서 첫 제품이 인도된 상태입니다. 8개의 A100이 사용된 DGX A100은 미국 아르곤 국립 연구소에서 설치가 시작되었습니다. 19만9000달러의 가격표를 달고 나온 DGX A100은 두 개의 64코어 AMD 에픽 CPU와 1TB 메모리, 15TB 스토리지를 탑재했습니다. 전 세대와 달리 인텔 제온 대신 AMD 에픽 CPU를 채택한 점이 눈에 띄는데, 그만큼 에픽 CPU의 성능이 좋아졌기 때문으로 풀이됩니다. 두 회사가 라이벌 관계라는 점을 생각하면 재미있지만, 에픽 CPU의 성능도 좋고 PCIe 4.0도 지원하니까 사실 합리적인 선택입니다.



본래 엔비디아는 게임용 그래픽 카드인 지포스 제조사로 시작해서 전문가용 그래픽 카드인 쿼드로와 고성능 컴퓨팅 GPU인 테슬라로 영역을 점점 넓혀왔습니다. 최근에는 GPU 기반 인공지능 가속기로 IT 업계를 선도한다는 평가를 받고 있습니다. 물론 그와 동시에 엔비디아가 공개하는 최신 기술과 고성능 GPU는 일반 소비자에게 점점 더 생소한 물건이 되고 있습니다. 본체 가격만 수억 원에 달하는 DGX A100 서버를 집에 구비할 개인 소비자는 극히 드물 것입니다. 그러나 점점 발전하는 인공지능 기술은 이미 우리 삶에 큰 영향을 주고 있고 앞으로는 그 영향력이 더 커질 것입니다.

역사상 가장 큰 프로세서로 등장한 A100은 더 강력한 인공지능에 대한 기업들의 수요가 얼마나 큰지 보여주는 증거입니다. 하지만 인공지능을 비즈니스에 접목한 기업이나 연구에 활용하는 과학자 모두 여기에 만족하지 않을 것입니다. 분명 몇 년 안에 이보다 더 강력한 인공지능 하드웨어가 탄생하게 될 것입니다. 이렇게 발전한 인공지능이 인간을 위협하지 않고 인간을 위해서만 사용되기를 기대합니다.

고든 정 칼럼니스트 jjy0501@naver.com

̽ Ʈ īī丮 α