테라바이트(TB)급 하드디스크가 널리 보급되면서 이제는 일반 사용자도 테라바이트급 자료를 지닌 경우가 드물지 않지만, 아직 테라바이트급 데이터는 기업이나 대형 데이터 센터가 아니라면 엄두를 내기 어려운 용량이다. 대규모 데이터를 생성하는 과학 분야에서도 테라바이트급 데이터는 그렇게 흔한 경우가 아니다. 1GB 파일을 100만 개 이상 (1PB=1,048,576GB) 담을 수 있는 거대한 규모이기 때문이다.
하지만 최근 유럽 원자핵 공동 연구소(CERN) 데이터 센터는 축적한 데이터가 200페타바이트(PB)를 넘어섰다고 발표했다. 물론 이는 대부분 대형 가입자 충돌기(LHC·Large Hadron Collider)에서 나온 데이터로 여기에는 우리를 이루는 입자의 가장 기초적인 질문을 풀 단서가 담겨있다. 흥미로운 부분은 이 데이터가 사실은 전체 데이터가 아닌 일부만 수집한 데이터라는 것이다.
대형 강입자 충돌기는 빛에 속도에 가깝게 입자를 가속한 후 서로 충돌시키는 데 당연히 거대한 가속기가 입자 두 개만 서로 충돌시키는 것은 아니다. 실제로는 초당 10억 번 이상의 충돌이 발생하는데, 여기에서 나오는 데이터양은 초당 1페타바이트에 달한다. 따라서 몇 분만 운용하면 200페타바이트 데이터가 나오는 셈이다.
현재 인류가 가진 가장 강력한 컴퓨터와 저장장치로도 이를 감당할 수 없으므로 CERN의 과학자들은 이 가운데 흥미로운 데이터만 일부 수집해서 저장한다. 하지만 이렇게 해도 데이터 양은 엄청나다. 2016년까지 총 500만 초의 실험 데이터가 수집되었고 이후 LHC 업그레이드 기간 동안 데이터 센터 업그레이드가 이뤄져 지금까지 750만 초 데이터가 수집되었는데, 그 결과 200페타바이트가 넘게 된 것이다. 업그레이드된 LHC는 이전보다 더 많은 데이터를 생성하고 있어서 머지않아 300페타바이트도 넘어설 가능성이 크다.
이렇게 엄청난 데이터를 백업하기 위해 CERN은 백업용 자기 테이프를 사용한다. 당연히 이 자기 테이프 저장 센터는 세계 최대 규모의 과학 라이브러리라고 할 수 있다.(사진) 자기 테이프는 현재는 일반 사용자용으로는 거의 사용되지 않고 있지만, 여전히 용량 대비 가격이 저렴해 대규모 데이터를 백업하는 데 널리 사용되고 있다. 물론 아무리 저렴해도 이 정도 규모면 저장 비용이 만만치 않을 것이다.
이렇게 수집된 자료는 시간은 걸리지만 필요하면 언제든 다시 불러내 사용할 수 있다. 이런 거대한 데이터 저장 장치 덕분에 미지의 소립자와 우주의 비밀을 탐구하려는 과학자의 노력도 가능한 것이다.
고든 정 칼럼니스트 jjy0501@naver.com