[대덕포럼] 인공지능 사업은 빅데이터 확보에서부터

우리나라 사교육시장은 빅데이터를 잘 활용하고 있는 분야 중 하나이다. 학원이나 전문 강사들은 수많은 학교의 시험문제와 기출 문제를 가지고 자신만의 교육 콘텐츠를 개발함으로써 경쟁력을 확보한다. 영어 학원들은 수년간 영어인증 시험 문제를 방대하게 모아 소위 족집게 강의를 하고 있다. 시험에 대한 빅데이터를 확보하고 이를 제공하는 교육 사업을 하고 있는 것이다.

인공지능은 인간과 마찬가지로 학습과 훈련으로 우수성이 결정되곤 한다. 아무리 머리가 좋은 사람이라도 가지고 있는 책이 딱 한권뿐이라면 더 이상 발전할 수 없듯 인공지능도 어떤 데이터를 얼마나 공급 받는가에 따라 성능과 기능이 결정된다.

얼마 전 한 학회에서 인공지능에 대한 방대한 발표를 들었다. 자동차는 물론이고 빌딩, 가전제품, 스마트폰, 심지어는 학습도구나 장난감에서도 인공지능이 적용되고 있음을 알 수 있었다. 하지만 인공지능을 위한 학습 빅데이터의 공급 측면에서 비용이나 기술적 문제가 명확하지 않은 비즈니스 모델이 많아 아쉬웠다.

알파고의 바둑 실력은 우리를 충격으로 몰아넣은 바 있다. 이런 실력은 엄청난 양의 학습을 통해 얻어진 결과이다. 오랜 바둑의 역사만큼이나 수많은 경우의 수에 대한 정보, 즉 기보가 쌓여있었고, 인공지능의 학습에 이용돼 빠른 진화가 가능했다. 이처럼 방대한 기보 자료가 없었다면 알파고 개발자들은 초기 알파고의 학습을 위한 데이터를 만드는 데 엄청난 시간을 써야만 했을 것이다.

인공지능이 가장 활발하게 활용되는 분야로 영상의학 분야가 있다. 심지어 이미 사람보다 뛰어난 진단 능력을 보이고 있는 분야인데, 이 분야에서 인공지능이 빠르게 성장할 수 있었던 이유는 학습을 위한 양질의 빅데이터에서 찾을 수 있다. 영상의료정보는 오래전부터 상당히 체계적으로 기록돼 왔고, 이미 디지털화돼 인공지능 시스템에 학습정보로 제공하기 적당한 상태였다. 그리고 매일 한 병원에서만도 수백 건 넘는 새로운 사례가 누적되고 있어 신속하고 지속적으로 학습을 수행시킬 수 있다. 만일 병원별로 인공지능 영상의학시스템을 동시 구축할 때 어느 병원이 유리할까를 가정해 보면 답변은 간단하다. 환자수가 많은 큰 병원일수록 데이터를 수집하는 데 유리하기 때문이다.

자율주행 자동차에 인공지능을 탑재하는 연구가 진행되고 있지만 학습에서 어려움을 겪고 있다고 한다. 바둑이나 영상의학은 학습데이터가 디지털화 돼 있어 순식간에 방대한 양의 학습이 가능한 반면 자동차 운전은 실제 도로에서 행해지기 때문에 느리고 지루한 작업이 될 수밖에 없다. 최근에는 가상 시뮬레이터를 통해 자율주행을 학습시키고 있으나 내용이 제한적인 탓에 알파고와 같은 학습속도를 내지 못 하는 것이다.

빅데이터의 품질 또한 학습에 중요한 영향을 끼친다. 2016년 마이크로소프트사는 인공지능 채팅로봇 `테이`(Tay)를 개발해 트위터 사용자들과 대화를 나누게 하며 인공지능을 학습시켰다. 그런데 이를 악용한 일부 사용자들이 고의적으로 욕설과 인종차별적 발언을 하게끔 학습시켜 물의를 일으킨 적도 있었다.

이처럼 바둑, 영상의학 등 빅데이터 구축이 잘된 분야부터 인공지능이 자리 잡을 것으로 전망된다. 따라서 인공지능의 학습에 얼마나 적합한지에 따라 빅데이터의 가치가 평가받고 경제적 이익을 창출 할 수 있다. 당연히 학습정보를 수집·추출·제공할 수 있는 네트워크를 가진 기업들이 인공지능을 위한 빅데이터 공급자로 성장하는 데 유리하다. 인공지능이 발전할수록 다양한 빅데이터가 요구될 것이고, 이것을 가지고 있는 기업들의 이익은 더 커질 것이다.

인공지능을 통한 사업을 준비하려면 먼저 인공지능 학습을 위한 빅데이터를 어떻게 확보할 것인지 구상하는 것부터 시작해야 한다. 사람을 위한 교육사업 시장을 보면 인공지능을 위한 학습 빅데이터의 시장을 예측할 수 있다. 최현석 한국생산기술연구원 청정생산시스템전략기획단장

상단영역

본문영역

[대덕포럼] 인공지능 사업은 빅데이터 확보에서부터

개의 댓글

댓글 정렬

내 댓글 모음