[ET단상]빅데이터와 디지털기록 아카이빙

우리는 자신의 의지와 상관없이 빅데이터 시대를 살아가고 있다. 내가 만든 블로그와 사회관계망서비스(SNS)에 남긴 글, 온라인 쇼핑몰 검색 이력, 폰으로 찍어 올린 사진까지 나 자신도 모르는 사이에 내 기록이 빅데이터 속으로 계속 축적되고 있다. 기업은 수많은 데이터 속에서 자신에게 유익이 되는 정보를 찾기 위해 분류하고 정제하고 분석해 이익을 창출한다.

Photo Image

`빅데이터` 개념에 대해서는 정보기술(IT) 발전에 따라 정보 범위가 확대된 개념 또는 인터넷을 통해 실시간으로 생성되는 정보에서 디지털 세상에서 필연으로 나타날 수밖에 없는 하나의 사회 현상이라는 것까지 다양한 의견을 내놓고 있다. 필자는 빅데이터가 어떤 목적에 의해 의도해서 만들어졌다기보다 디지털 시대 흐름에 따라 자연스럽게 형성되는 데이터의 바다이며, 온갖 종류의 비정형 및 불확실한 데이터를 이용해 신뢰할 만하고 예측 가능한 비즈니스 논리를 만들어 내는 패러다임이라고 정의하고 싶다.

`빅데이터`는 어느 순간 갑작스럽게 만들어지지 않으며, 장기간 축적을 통해 생성된다. 문제는 디지털 축적, 즉 디지털 아카이빙이 간단치 않다는 것이다. 아이러니하게도 IT의 급속한 발전은 디지털 데이터 축적을 어렵게 하는 요소다. 그렇다면 디지털 기록 보존 측면에서 다음과 같은 빅데이터의 특성을 고려해 볼 필요가 있다.

첫째 빅데이터는 대체로 방대한 양의 비정형 데이터 집합이다. 데이터의 양과 관리 비용은 비례한다. 게다가 모바일과 SNS, 센서 네트워크 발전은 빅데이터 크기와 형식을 비약 증가시킬 것이다. 이에 따라서 빅데이터의 효용성을 높이기 위해서는 저장되는 데이터 형태, 수집 프로세스, 분류, 가공, 처리를 위한 비용과 전문성이 요구된다.

둘째 빅데이터에 축적되는 데이터의 신뢰성과 무결성을 보장하기 어려우며, 빅데이터에 대해 디지털 기록 같은 신뢰성 유지나 무결성 보장 메커니즘을 적용하는 것은 무의미할 수 있다는 점을 염두에 둬야 한다. 빅데이터를 형성하는 데이터는 라이프 타임이 매우 짧고, 특정 목적에 따라 의도해서 생성됐거나 거짓 데이터가 얼마든지 유입될 수도 있기 때문이다. 이에 따라 빅데이터에서는 개별 데이터보다 데이터 집합에 의거한 통계 처리를 통해 유의미한 정보를 얻을 수 있다.

셋째 빅데이터를 구성하는 데이터가 로그파일, 센서데이터, 클릭스트림, 스마트 기기에서 자동으로 유입되는 경우 데이터 작성자나 소유자가 없고 소유권도 분명하지 않고 맥락 정보가 없어 빅데이터용 메타 데이터를 형성하기 매우 어렵다는 점을 감안해야 한다.

빅데이터는 일반 디지털 기록과 다른 방식으로 관리 또는 보존돼야 한다. 첫째로 빅데이터의 데이터 항목은 장기간 보존될 필요가 없거나 분석을 위해 일시 필요한 것이 대부분이다. 이에 따라서 비즈니스 목적을 위해 충분한 분석이 끝나고 더 이상의 추가 분석이 없을 것으로 예상되는 빅데이터는 굳이 보존할 필요가 없다. 보존이 필요하다면 빅데이터로부터 추출된 분석 자료나 특정 목적 아래 요약된 정보만 보존하면 될 것이다.

둘째로 분석 가치가 있고 연관이나 통합 분석 관점에서 보존할 가치가 있는 빅데이터는 보존하되 기존의 신뢰성이나 무결성 보장을 위한 보존 포맷은 적용할 필요가 없다. 오히려 미래 분석을 위해서는 빅데이터 로딩 타임을 최소화할 수 있는 새롭고 가벼운 형태의 보존 방안이 필요할 것으로 보인다. 또 빅데이터를 위한 보안이나 프라이버시 같은 메커니즘은 최소한의 선에서 유지해도 무방할 것으로 본다.

셋째로 빅데이터는 사이즈가 커질수록 더 정확한 분석 결과를 제공한다. 이에 따라서 기업 간 합의에 의해 서로의 빅데이터를 공유할 수 있을 때 개방과 공유에 참여한 기업은 좀 더 큰 가치를 얻을 수 있을 것이다. 빅데이터의 개방과 공유를 위해서는 클라우드 플랫폼이 가장 적합하다.

축적은 조직의 경쟁력이다. 특히 디지털 데이터의 체계화한 축적은 조직이 일관된 정책과 인력 및 시스템에 대한 투자와 노력이 지속될 때 가능하다.

다음 달 5~10일 국가기록원이 주관하는 세계기록총회가 서울 코엑스에서 개최된다. 세계 각국 전문가들이 모여 빅데이터와 디지털 아카이빙에 대한 경험과 발전 방향을 논의한다. 이를 계기로 우리나라 디지털 아카이빙 기술과 산업 발전의 계기가 되기를 희망한다.

한국산업기술대 이영곤 교수(yklee2002@gmail.com)


브랜드 뉴스룸