[과학이야기] 벤치마크 데이터셋의 필요성

올해도 벌써 1달밖에 안 남았다. 아직 올해가 끝나진 않았지만, 과학기술과 산업에서 올해를 대표하는 키워드를 생각해본다면 `인공지능`을 빼놓을 수 없다. 일주일에 한 번은 인공지능과 관련된 성과들이 언론을 통해 보도된 것 같다. 자동차, 로봇, 의료, 교육 등 분야도 다양했다. 그만큼 인공지능은 산업의 종류나 학문의 분야를 막론하고 빠르게 발전하고 있으며 이미 일상생활에 가까워지고 있다.

인공지능의 발전을 보며 날마다 감탄하고 있는 와중에, 어떤 기사를 보고 엉뚱한 고민을 해본 적이 있다. 기사에서는 CT 영상으로 코로나19 확진 여부를 진단하는 인공지능 알고리즘을 개발한 두 기관이 소개됐다. R 기관에서는 98% 정확도를, D 기관에서는 96%의 정확도를 보였다고 했다. 만약 두 알고리즘 중 하나를 병원에서 구매해야 한다면 어느 것을 사는 것이 좋을까? 단순히 생각하면 정확도가 더 높은 R 기관의 알고리즘을 고르면 되겠지만 필자가 병원장이라면 그러지 못할 것 같다. 수학 점수로 비유를 해보면 R 학생은 A 고등학교 시험에서 98점을 맞았고, D 학생은 B 고등학교 시험에서 96점을 맞은 것이다. 이때 R 학생이 D 학생보다 수학을 더 잘한다고 단정하기는 어렵다. A 고등학교 문제가 더 쉬웠고 B 고등학교 문제는 어려웠을 수도 있다. 누가 더 수학을 잘하는지 확인하기 위해서는 수능시험 같은 동일한 문제를 풀게 하여 그 점수를 비교하는 것이 합리적일 것이다.

R 기관과 D 기관은 각자 데이터를 수집한 뒤 일부는 학습에 사용하고 다른 일부는 테스트에 사용하여 알고리즘의 정확도를 평가했을 것이다. 만약 각자 수집한 데이터를 서로 바꿔보면 어떨까? 발표했던 정확도가 다시 나올지는 확신할 수 없다. 알고리즘의 정확도를 객관적으로 평가하고 비교하기 위한 수능시험이 필요한 것이다. 다행스럽게도 인공지능 분야에서는 이미 나름대로의 수능시험을 통해 알고리즘의 정확도를 서로 비교하고 있다. 예를 들면 `MNIST`, `CIFAR-100` 등 이른바 벤치마크 데이터셋이라 불리는 기준 데이터를 이용해 자신들이 개발한 분류 알고리즘의 정확도를 평가하고 논문이나 학회에 발표한다. 하지만 이 벤치마크 데이터셋을 다양한 목적으로 만들어진 알고리즘에 모두 사용할 수는 없다. 손글씨로 이루어진 `MNIST` 데이터셋을 코로나19 진단 알고리즘 정확도 평가용으로 쓸 수는 없지 않은가? 아쉽게도 R, D 기관의 알고리즘 정확도 평가를 위한 벤치마크 데이터셋은 아직 없는 것 같다.

다양한 산업에서 인공지능 알고리즘이 적용된 제품들이 벌써 출시되고 있다. 제품을 출시하는 곳은 각자 수집한 데이터를 기반으로 정확도를 평가하여 보고하고 있을 것이다. 소비자의 합리적인 선택을 위해 객관적으로 정확도를 평가하고 비교할 수 있는 체계가 마련되면 좋을 것 같다. 그 체계의 핵심은 다양한 벤치마크 데이터셋을 개발하는 일이 될 것이다. 쉬운 일은 아니겠지만 관련 정부기관과 산업체가 벤치마크 데이터셋의 필요성에 대해 공감대를 형성하기를 기대해 본다. 심형석 한국표준과학연구원 국가참조표준센터 선임연구원

상단영역

본문영역

[과학이야기] 벤치마크 데이터셋의 필요성

개의 댓글

댓글 정렬

내 댓글 모음