인공지능의 발전을 보며 날마다 감탄하고 있는 와중에, 어떤 기사를 보고 엉뚱한 고민을 해본 적이 있다. 기사에서는 CT 영상으로 코로나19 확진 여부를 진단하는 인공지능 알고리즘을 개발한 두 기관이 소개됐다. R 기관에서는 98% 정확도를, D 기관에서는 96%의 정확도를 보였다고 했다. 만약 두 알고리즘 중 하나를 병원에서 구매해야 한다면 어느 것을 사는 것이 좋을까? 단순히 생각하면 정확도가 더 높은 R 기관의 알고리즘을 고르면 되겠지만 필자가 병원장이라면 그러지 못할 것 같다. 수학 점수로 비유를 해보면 R 학생은 A 고등학교 시험에서 98점을 맞았고, D 학생은 B 고등학교 시험에서 96점을 맞은 것이다. 이때 R 학생이 D 학생보다 수학을 더 잘한다고 단정하기는 어렵다. A 고등학교 문제가 더 쉬웠고 B 고등학교 문제는 어려웠을 수도 있다. 누가 더 수학을 잘하는지 확인하기 위해서는 수능시험 같은 동일한 문제를 풀게 하여 그 점수를 비교하는 것이 합리적일 것이다.
R 기관과 D 기관은 각자 데이터를 수집한 뒤 일부는 학습에 사용하고 다른 일부는 테스트에 사용하여 알고리즘의 정확도를 평가했을 것이다. 만약 각자 수집한 데이터를 서로 바꿔보면 어떨까? 발표했던 정확도가 다시 나올지는 확신할 수 없다. 알고리즘의 정확도를 객관적으로 평가하고 비교하기 위한 수능시험이 필요한 것이다. 다행스럽게도 인공지능 분야에서는 이미 나름대로의 수능시험을 통해 알고리즘의 정확도를 서로 비교하고 있다. 예를 들면 `MNIST`, `CIFAR-100` 등 이른바 벤치마크 데이터셋이라 불리는 기준 데이터를 이용해 자신들이 개발한 분류 알고리즘의 정확도를 평가하고 논문이나 학회에 발표한다. 하지만 이 벤치마크 데이터셋을 다양한 목적으로 만들어진 알고리즘에 모두 사용할 수는 없다. 손글씨로 이루어진 `MNIST` 데이터셋을 코로나19 진단 알고리즘 정확도 평가용으로 쓸 수는 없지 않은가? 아쉽게도 R, D 기관의 알고리즘 정확도 평가를 위한 벤치마크 데이터셋은 아직 없는 것 같다.
다양한 산업에서 인공지능 알고리즘이 적용된 제품들이 벌써 출시되고 있다. 제품을 출시하는 곳은 각자 수집한 데이터를 기반으로 정확도를 평가하여 보고하고 있을 것이다. 소비자의 합리적인 선택을 위해 객관적으로 정확도를 평가하고 비교할 수 있는 체계가 마련되면 좋을 것 같다. 그 체계의 핵심은 다양한 벤치마크 데이터셋을 개발하는 일이 될 것이다. 쉬운 일은 아니겠지만 관련 정부기관과 산업체가 벤치마크 데이터셋의 필요성에 대해 공감대를 형성하기를 기대해 본다. 심형석 한국표준과학연구원 국가참조표준센터 선임연구원
<저작권자ⓒ대전일보사. 무단전재-재배포 금지>