대전일보 로고

[세평] 데이터 표준, 바벨탑의 저주 극복하기

2019-05-22기사 편집 2019-05-22 08:33:45

대전일보 > 오피니언 > 사외칼럼

  • 페이스북
  • 구글 플러스
  • 카카오스토리
  • 네이버블로그
  • 네이버밴드
  • 폴라로
  • 핀터레스트

첨부사진1

바벨탑은 구약 성서 창세기에 나오는 탑이다. 대홍수 후 노아의 후손들이 하늘에 닿는 탑을 쌓기 시작했으나, 그 무례함이 신의 노여움을 사게 돼 본래 하나였던 언어를 여럿으로 분리하는 저주를 내렸다. 바벨탑 건설은 결국 혼돈 속에 막을 내렸고, 탑을 세우고자 했던 인간들은 불신과 오해 속에 서로 다른 언어들과 함께 전 세계로 뿔뿔이 흩어지게 됐다.

데이터는 이제 그 자체가 언어이고 이를 통해 소통하고자 하고, 그 소통의 흔적들이 분석되고 있으며 의사결정에 쓰여지고 있다. 하지만 이미 데이터에도 바벨탑의 저주가 내려졌다. 데이터를 통한 인공지능의 발전은 인간을 넘어 신의 영역에 도전하고자 하고 있다. 이러한 시도는 인간의 삶의 질을 향상시키는 이면에 과연 그 끝은 어디까지 일까 상상을 해보면 묘한 공포감이 찾아온다. 아마도 신은 이러한 무례한 도전에 분노해 데이터를 통한 소통을 어렵게 하고자 서로 다르게 쌓고 관리되도록 저주를 내린 듯 하다는 것이 바벨탑의 그것과 너무도 닮아있다.

이미 바벨탑의 저주에 의해 언어가 달라진 인간들은 각자의 문명을 만들어내고 그 문화에 익숙해 지면서 민족이 탄생하고 자유롭게 소통하며 굳이 지금처럼 국가적인 교류가 자유롭지 않을 때는 어떠한 불편함도 없이 삶을 유지했다. 하지만 이젠 서로 다른 언어를 쓰는 국가끼리 경제·문화·사회 활동을 공유해야 하기 때문에 각자의 언어를 이해하기 위한 노력은 반드시 이뤄져야 하는 것이 일반화 된 것은 오래된 사실이다. 그럼 우리는 모든 언어를 하나의 언어로 만들어서 통일하는 노력을 해야 하는 것인가? 현실적으로 불가능하기 때문에 차라리 각자의 언어를 유지하면서 소통할 수 있는 방법을 선택했고, 그 노력이 일반화돼 지금은 특별한 불편함 없이 전 세계의 국가들이 충분한 소통을 하고 있다.

그렇다면 데이터는 어떠한가? 데이터 표준화를 소리 높여 외치고 그 필요성을 강조하면서 수 많은 노력을 기울이고 있지만 사실 이런 노력은 긴 시간 소통하면서 쓰여진 데이터 언어의 문화적 습성을 잃어버릴 수도 있는 시도일 수 있다. 그렇다고 원활한 소통이 중요하지 않은 것은 아니다. 필자가 바벨탑의 저주로 국가의 언어가 달라진 이야기를 서두에 거론하고 각 국가가 결국 소통하게 되는 과정을 언급한 것은 데이터의 그 것과 너무도 닮아 있기 때문이다. 결국 데이터 자체의 표준에만 집중 하는 것 보다는 같은 뜻이지만 다른 표현으로 쓰여지는 데이터들의 호환성을 정보 형태로 집대성 해서 각자 도메인에서 쓰여지는 형태는 그대로 존재하되, 다른 소통의 채널이 필요할 때는 충분히 해석된 변환 로직을 구현하는 것이 현명한 선택일 것이다.

최근 빅데이터 플랫폼 사업이 활기를 띠고 있다. 어느 데이터를 누가 더 의미 있게 모으고 공유시킬 수 있을까를 구현하기 위한 시험의 장이 본격적으로 열리고 있는 것이다. 하지만 이 또한 모으는데 급급한 데이터 창고가 아니라 데이터가 언어처럼 활용될 수 있는 문법을 정의하고 상호 연관성을 정의하는데 있어서 호환성을 확보할 수 있는 구조적인 설계가 필요하다. 여기서도 마찬가지로 데이터 표준화 이슈가 대두될 것이다. 다만 표준화의 방향성이 데이터 통일화로 전개되어서는 안되고 표현은 다르지만 같은 해석을 할 수 있는 사전적 정의가 유기적으로 지속되어야 할 것이다.

영화 '말모이'는 조선 팔도의 사투리를 모으고 우리 말의 용례와 뜻을 명확하게 정리해 표준어를 규정하며 최초의 우리말 사전을 편찬하기 위해 목숨을 걸었던 조선어학회 분들의 이야기다. 하나의 사물인 '가위'를 '가애', '가새', '가우', '강애' 등 어떤 말을 표준어로 정의해야 서로 소통할 수 있을까 고민을 하고 지역별로 말이 다른 전국의 사투리를 모아 분류해 사전을 만들게 된다. 여기서 간과하지 말아야 할 것은 사투리를 모두 없애고 표준어로 모두 통일하자는 게 아니라, 지역적 정서를 담고 있는 사투리는 그대로 살려야 하지만, 소통을 위해 각 지역의 단어가 어떤 의미를 나타내는지를 표준어를 통해 정의한다는 것이다.

데이터도 마찬가지로 통일화가 아니라 표준을 정해서 어떤 데이터 포맷이 생기더라도 표준 데이터로 해석될 수 있는 구조를 만들어 나가야 할 것이다.

안동욱 ㈜미소정보기술 대표이사



<저작권자ⓒ대전일보사. 무단전재-재배포 금지>