AMD는 7nm 공정 CPU부터 아예 CPU 코어 부분을 별도의 작은 칩렛(Chiplet)으로 분리시키고 여기에 14nm 공정으로 만든 I/O 다이를 붙여 CPU를 제조했습니다. 이렇게 하면 패키징 방식이 복잡해지는 단점이 있지만, 대신 꼭 최신 미세 공정을 적용하지 않아도 되는 부분에 저렴한 공정을 사용하고 칩렛을 여러 개 붙이는 방식으로 코어 숫자를 늘릴 수 있다는 장점이 있습니다. 인텔 역시 AMD의 칩렛 방식에 대응해 타일 방식의 멀티 다이 패키징 방식을 개발했습니다. 인텔은 고성능 GPU에서 이 방식을 먼저 적용한 후 소비자용 CPU인 메테오 레이크에 적용할 계획입니다.
그런데 사실 여러 개의 작은 다이를 하나로 합쳐 큰 프로세서를 만드는 방식은 CPU보다 거대한 GPU에 더 적합한 방식입니다. AMD는 최근 발표한 인스팅트 (Instinct) IM200 시리즈에서 두 개의 다이를 고속 인터페이스로 연결해 하나의 GPU처럼 만드는 방식을 도입했습니다.
CPU와 마찬가지로 여러 개의 GPU를 사용해서 성능을 높이는 방식은 사실 오래전부터 사용되어 왔습니다. 엔비디아의 SLI, AMD 크로스파이어 기술이 대표적입니다. 하지만 이 방식은 두 개 이상의 GPU가 서로 데이터를 주고받는 과정에서 상당한 성능 손실이 발생합니다. 두 개의 그래픽 카드를 연결하면 성능이 두 배가 되는 것이 아니라 1.7배가 되는 식입니다. 이 단점을 극복하기 위해 그래픽 카드가 아니라 여러 개의 GPU 다이 사이를 직접 연결하는 방식이 필요했습니다.
AMD의 인스팅트 IM200 가속기는 290억 개의 트랜지스터를 집적한 GCD 다이 두 개를 고속 인터페이스로 연결해 580억 개의 트랜지스터를 지닌 하나의 거대한 GPU처럼 작동하게 만들었습니다. (참고로 제조 공정은 TSMC의 N6) 덕분에 47.9TFLOPS의 FP32/64 벡터 역산 성능과 95.7TFLOPS의 FP32/64 메트릭스 연산 능력을 지니고 있습니다. 일반 연산 능력에 있어서는 542억 개의 트랜지스터를 하나의 거대한 다이에 집적한 엔비디아의 A100 가속기를 최대 4.9배 넘어선 것입니다. AMD는 인공지능 연산에 중요한 INT8 메트릭스 연산능력도 383TOPS로 경쟁사보다 좀 더 빠르다고 주장했습니다.
IM200 시리즈는 8개의 HBM2E 메모리를 128GB를 탑재했으며 최대 3.2TB/s의 엄청난 대역폭을 자랑합니다. AMD는 OAM이라는 새로운 폼팩터를 도입해 4개에서 8개의 IM200 GPU를 1개 혹은 2개의 에픽 CPU와 조합해 사용할 수 있게 만들었습니다. 각각의 GPU는 560W의 전력을 소모하기 때문에 큰 벽돌 같은 대형 쿨러가 필요합니다.
IM200 시리즈는 주로 게임을 구동하기 위한 일반적인 GPU가 아니라 2022년 공개할 엑사스케일 슈퍼컴퓨터에 들어갈 고성능 연산용 GPU입니다. 하지만 여기서 개발한 멀티 다이 패키징 기술은 앞으로 차세대 GPU에도 적용될 수 있습니다. 다이 사이를 연결하는 기술의 발전으로 여러 개를 연결해도 하나처럼 사용할 수 있다면 큰 다이를 만들 이유가 줄어들기 때문입니다. 한 번에 큰 칩을 제조할 경우 실패할 가능성도 높아져 수율은 떨어지고 가격은 올라갑니다. 앞으로 여러 개의 다이를 연결한 CPU나 GPU를 보게 될 가능성이 높아지는 이유입니다.
AMD 인스팅트 IM 200 시리즈 자체는 일반 소비자가 사용할 일이 없는 서버, 슈퍼컴퓨터, 인공지능 연산 GPU이지만, 앞으로 소비자용 GPU의 발전 방향을 가늠하게 한다는 점에서 주목됩니다. 인텔과 AMD가 고성능 GPU에서 여러 개의 다이를 연결하는 방식을 이미 선보인 만큼 엔비디아의 대응 역시 주목됩니다.
고든 정 칼럼니스트 jjy0501@naver.com