[KISTI과학향기]인공지능에게 필요한 데이터는 특별하다!

알파고 등장 이후 우리나라에서는 인공지능(AI) 관심이 매우 높아졌다. 그러나 AI 쓰임새가 아직은 매우 단순한 응용에 불과하다고 여겨져 관심이 식은 편이다. 꽤 시간이 흐른 지금 AI가 다시 주목을 받는 것은 컴퓨터 기술의 비약적 발전으로 아주 전문적인 영역의 문제를 풀 수 있게 되었을 뿐만 아니라, 인간 생활의 다양한 영역에서 실질적 기여를 할 수 있는 가능성이 보이기 때문으로 보인다.

Photo Image

◇AI를 가능하게 하는 기반은 하드웨어와 데이터

AI가 다시 주목을 받게 된 것은 AI 알고리즘의 발전도 있었지만, 컴퓨터 핵심 부품인 데이터 저장장치와 처리장치가 과거에 비해서 비약적으로 발전했을 뿐만 아니라 인터넷 속도도 크게 빨라졌기 때문이다. 데이터 저장장치 발전은 방대한 학습 데이터를 적은 비용으로도 저장할 수 있게 하고, 데이터 처리장치와 인터넷 속도 발전은 실시간에 가까운 응답을 가능하게 한다.

그런데 사실은 데이터가 있어야 이 모든 것이 의미가 있다. 데이터가 없다면 아무리 대용량 저장장치와 초고속 처리장치, 인터넷이 있어도 무용지물일 뿐이다. 지금 시대는 빅데이터 시대가 되어 데이터가 곳곳에서 차고 넘쳐 데이터 저장장치와 처리장치, 그리고 인터넷이 그 어느 때보다 바쁘게 움직이고 있다. 하지만 모든 데이터가 유효하지는 않다. 데이터는 디지털화되어야 하고, 신뢰할만해야 하며, 충분한 양이 있어야 한다.

Photo Image
데이터 저장장치 같은 하드웨어의 비약적 발전은 인공지능을 가능케 했다. 이제 필요한 것은 어떤 데이터를 처리하느냐이다. (출처: pixabay)

◇AI를 뒷받침하는 데이터의 특별한 속성

먼저 데이터가 디지털화되어야 하는 이유는 그래야만 컴퓨터가 읽을 수 있기 때문이다. 종이 매체에 기록된 데이터는 컴퓨터로 입력해야 하기 때문에 많은 비용이 든다. 요즘은 신문 기사나 학술 논문도 아예 처음부터 디지털화하기 때문에 이러한 측면에서 큰 도움이 된다. 또한 사물인터넷(IoT)이 확산되면, 수많은 디지털 데이터를 손쉽게 모을 수 있게 된다.

그렇지만 이러한 데이터는 신뢰할 수 있어야 한다. AI에 활용되는 데이터에 오류 데이터, 가짜 데이터, 위험 데이터가 들어가게 되면 그 결과는 많은 문제를 야기할 수 있기 때문이다. 마치 수돗물을 사람이 먹을 수 있도록 품질관리를 하듯이 데이터도 AI가 오답을 내지 않도록 품질 관리가 꼭 필요하다. 더 나아가 원유가 정제될수록 고급 제품으로 비싸게 팔리듯, 데이터도 적절한 큐레이션을 통해서 그 가치를 배가할 수 있다.

Photo Image
인공지능이 제대로 된 기능을 발휘하려면, 그 기반이 되는 데이터는 디지털화되어야 하고, 신뢰성과 충분한 양을 확보해야 한다.

마지막으로 AI가 정확한 답을 내기 위해 필요한 충분한 양의 데이터가 필요하다. 그러기 위해서는 필요한 데이터가 모두 공개돼야 한다. 그런데, 여러 가지 이유로 데이터 공개가 안 되고 있다. 저작권 있는 데이터, 민감한 데이터, 보안 데이터 등이 있는데, 이러한 데이터를 AI에 활용할 수 있는 방안 마련이 시급하다. 이를 위해서 정부에서는 오픈 데이터 정책을 제도화하고, 데이터 공개를 위한 다양한 사업을 시행하고 있다.

글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터장


브랜드 뉴스룸