불과 20년 전까지만 해도 천문학자들은 별과 은하계 연구를 위해 추운 밤 산꼭대기에서 직접 망원경을 통해 밤새도록 관측을 수행했지만 최근에는 정보통신 기술의 발달로 대부분의 천문학자들은 연구실에서 산꼭대기나 사막에 위치한 망원경 또는 우주공간의 위성들을 통해 얻은 데이터들을 이용하여 연구를 수행할 수 있게 됐다. 이런 데이터들은 급속도로 팽창하고 있다.

세계 천문학계는 거대 망원경들을 운영하여 얻은 관측 데이터들을 일정시간이 지난 후 온라인으로 공개하여, 전 세계적으로 데이터 공유를 통한 표준화 활동을 지속적으로 수행해 왔다. 이러한 활동은 18세기 영국의 첫 천문학자인 플램스티드(John Flamsteed)가 약 3000개의 별의 위치와 밝기를 데이터화한 것으로부터 시작됐다.

사진을 최초로 천문학에 적용한 미국의 헨리 드레이퍼(Henry Draper)가 만든 기금으로 피커링(Edward Charles Pickering)이 체계적인 별의 분광분류작업을 시작했으며 그 결과 1890년에 1만 개의 별 스펙트럼이 수록된 헨리드레이퍼항성목록(HD)을 발간했고 그 후 슬리트 스펙트럼 관측방법으로 더 정밀한 분광분류를 수행해 1918년부터 1924년에 걸쳐 9등급의 어두운 별 22만 5300개의 스펙트럼이 수록된 9권의 '헨리드레이퍼항성목록'을 발간했다.

이것은 별의 절대등급을 세로축, 온도 또는 분광형, 색지수를 가로축에 잡고 그 관계를 나타낸 헤르츠스프룽-러셀도(Hertzsprung-Russell diagram)로 발전됐으며 이는 항성의 분류, 내부구조나 진화의 과정을 조사하는 데 지금도 활용되고 있다.

1950년대 미국 팔로마천문대에서는 3-30㎝ 파장 범위의 모든 전파로 하늘 전체를 샅샅이 수색하는 팔로마전천탐사(Palomar Sky Survey)가 실시됐으며 그 후로 관측 데이터 축적을 통해 발견된 결과로 린즈(Beverly T. Lynds) 성간의 분류, 아벨(George Abell)의 은하단 분류 등이 발표됐다.

현재 천문우주 분야 연구의 전산처리 환경은 1PB(페타바이트·petabyte) 용량의 데이터를 처리할 수 있으며 이 규모는 연간 0.5PB씩 성장하고 있다. 향후 관측 데이터의 크기와 예상 사용량은 LSST(Large Synoptic Survey Telescope), SKA(Square Kilometer Array) 등의 대형 프로젝트가 관측을 시작하면 기하급수적으로 증가할 것이다. 오는 2020년까지 저장되는 데이터를 감안하면 향후 60PB 이상의 데이터 처리능력이 필요할 것으로 추정된다. 전 세계적으로 가상천문대는 이러한 대용량 관측 데이터들을 빠르게 처리할 수 있도록 새로운 기술을 모색하고 있다.

이와 같이 천문학에서 관측 데이터의 활용은 과거부터 현재까지 새로운 발견을 이끌어내는 하나의 주요 원동력이었으며 현대에는 우주탐사비용의 경제적 효과와 급격히 증가하는 데이터 저장 및 처리기술의 발전으로 더 넓은 범위의 연구로 확장되고 있다. 천문우주 분야의 빅 데이터 활용은 연구범위의 확대뿐 아니라 빅 데이터 관련 기술에 대한 새로운 도전이며 새로운 데이터 간의 결합, 데이터 분석기술, 저장기술, 응용 프로그램의 한계를 실험하며 새로운 가치창출 및 기술혁신이 일어날 수 있는 테스트베드이다.

이제는 과학 데이터에 대한 다양한 활용 가치 측면에서의 고민이 필요한 시점이다. 대부분의 과학기술 관련 데이터들은 저장된 상태로만 보존되고 있는데, 과학 데이터 가치에 대한 이해를 높이고 부가가치를 창출할 수 있다면 적극적인 활용 방안을 마련해야 한다.

천문우주과학 분야의 빅 데이터를 효율적으로 활용하고 부가가치를 창출할 수 있는 표준 및 기술개발이 필요하다. 이를 위해서는 적합한 IT기술 확보 및 실시간 처리기술, 접근성 극대화를 위한 상업적 클라우드 활용을 위해 민간 협력 강화, 천문우주과학 분야의 특성을 이해하는 빅 데이터 분석·관리 전문 인력 양성 등을 위한 노력이 요구되고 있다.

홍정유 한국천문연구원 정책기획실장

<저작권자ⓒ대전일보사. 무단전재-재배포 금지>

오정연
저작권자 © 대전일보 무단전재 및 재배포 금지