따라서 인공지능 연구자들은 CPU의 한계를 극복하기 위해 대용량 그래픽 데이터의 병렬처리에 최적화된 GPU에 주목했습니다. GPU는 수백 개의 코어를 사용해서 한꺼번에 막대한 데이터를 연산하는데, 이는 CPU보다 인공지능 연산에 유리한 구조입니다.
인공지능 연구자들은 GPU 덕분에 과거에는 상상할 수 없었던 수준까지 인공지능 알고리즘의 성능을 끌어올렸습니다. 이제는 아예 최신 GPU도 인공지능 연산을 염두에 두고 개발될 정도로 인공지능 연산을 위한 GPU 수요가 커졌습니다.
그러나 GPU라고 해서 단점이 없는 완벽한 기계는 아닙니다. GPU 가장 큰 문제점은 혼자서 일을 할 수 없다는 것입니다. GPU는 기본적으로 컴퓨터의 그래픽 연산 프로세서이기 때문에 CPU, 메모리, 스토리지와 함께 작업해야 합니다. 따라서 CPU, 메모리와 끊임없이 데이터를 주고받아야 합니다. 데이터의 양이 커질수록 연산 능력이 아니라 데이터 병목현상 때문에 속도가 느려질 수밖에 없는 것입니다.
미국의 인공지능 관련 스타트업인 세레브라스 시스템스 (Cerebras Systems, 이하 세레브라스)는 이 문제를 극복할 수 있는 새로운 대안을 제시했습니다. 이들의 해결책은 300mm (12인치) 웨이퍼 하나를 통째로 하나의 통합 프로세서로 만들어 연산 코어와 메모리를 가득 채우고 가까운 거리에서 고속으로 연결하는 것입니다.
반도체는 웨이퍼라는 동그란 원판에서 한꺼번에 제작된 후 작게 조각내 CPU나 GPU 같은 개별 제품으로 판매됩니다. 컴퓨터에서 CPU와 GPU는 PCIe 같은 인터페이스로 연결되고 역시 CPU 밖에 위치한 메모리는 메모리 컨트롤러를 통해 제어됩니다. 대용량의 데이터를 주고받기 위해 서로 가까이 있어야 하지만, CPU, GPU, 메모리는 사실 서로 멀리 떨어진 셈입니다.
세레브라스의 웨이퍼 스케일 엔진 (Wafer Scale Engine, WSE)은 웨이퍼를 여러 개로 쪼갠 후 별도의 제품으로 만들어 서로 복잡한 과정으로 데이터를 주고받는 대신 작은 연산 코어와 메모리를 그냥 하나의 웨이퍼에 두고 데이터를 한꺼번에 처리하는 새로운 접근법을 택했습니다.
세레브라스의 1세대 웨이퍼 스케일 엔진은 TSMC의 16nm 공정으로 제조되었으며 거의 40만 개의 코어와 18GB의 온 보드 SDRAM을 장착해 고속 AI 연산에 최적화되어 있습니다.
하지만 현재 최신 미세 공정을 생각하면 16nm 공정 프로세서는 시대에 다소 뒤처진 감이 있습니다. 따라서 세레브라스는 최근 TSMC의 7nm 공정을 이용한 2세대 웨이퍼 스케일 엔진을 공개했습니다. 무려 85만 개의 AI 연산 코어와 40GB의 온보드 SDRAM을 탑재했으며 트랜지스터 집적도는 1세대의 1.2조 개에 두 배가 넘는 2.6조 개에 달합니다. 이론적 성능 역시 1세대의 두 배 이상입니다.
신생 스타트업이 기술적 난이도가 상당한 프로세서 개발에 성공한 이유는 인공지능 관련 스타트업에 유리한 미국 내 환경과 정부의 적극적인 지원이 있었기 때문입니다.
1세대 웨이퍼 스케일 엔진은 로렌스 리버모어 국립 연구소 (LLNL) 같은 국책 연구소의 슈퍼컴퓨터에 통합되었고 올해 3분기부터 출하될 2세대 웨이퍼 스케일 엔진은 아르곤 국립 연구소, 로렌스 리버모어 국립 연구소 같은 미국 내 연구소는 우선 도입될 예정입니다. 신개념 인공지능 기술을 국책 연구소에서 선도적으로 도입해서 성능을 검증하고 판로를 열어준 것입니다.
중국 등 다른 나라의 거센 추격을 받고 있긴 하지만, 아직 고성능 인공지능 프로세서 분야에서는 미국이 앞서 나가고 있습니다. 엔비디아, 인텔, AMD 등 미국 반도체 회사들이 이 분야에서 가장 선두를 달리고 있고 구글, 아마존, 마이크로소프트, 페이스북 같은 거대 IT 회사들이 탄탄한 수요를 뒷받침하고 있습니다.
그리고 세레브라스 같은 신생 스타트업도 혁신적인 아이디어만 있으면 민간과 정부에서 자금을 지원받아 새로운 인공지능 프로세서를 개발할 수 있는 길이 열려 있습니다. 세레브라스의 성공 여부와 상관없이 이 분야에서 한동안 미국이 앞서 나갈 것으로 보는 이유입니다.
고든 정 칼럼니스트 jjy0501@naver.com