뉴스젤리“말랑말랑한 데이터 저널리즘 비결은”

[테크홀릭] “빅데이터의 대중화가 목표입니다.”

Photo Image

뉴스젤리(http://newsjel.ly/)는 데이터 저널리즘을 추구하는 회사다. 구글 에릭 슈미트 회장은 “인류가 시작된 이후 2003년까지 모든 데이터양은 최근 이틀치 데이터양과 같다”고 말할 만큼 엄청난 데이터가 쏟아지고 있다. 데이터 저널리즘이 뜨는 이유도 여기에 있다.

Photo Image

빅데이터나 데이터를 활용한 저널리즘에 대한 관심은 이미 몇 년 전부터 높아진 상태다. 하지만 뉴스젤리는 이런 딱딱한 데이터를 “젤리처럼 말랑말랑한 뉴스로 제공하겠다”는 컨셉트를 내걸었다.

Photo Image

이 회사 정병준 공동 대표는 같은 한양대 인공지능연구실 출신 개발자인 임준원 씨와 지난해 12월 말랑말랑한 아이디어를 담은 뉴스젤리 베타 서비스를 오픈한 데 이어 올해 3월 30일 법인화를 하면서 본격적인 사업을 시작했다. 데이터 분석과 인포그래픽으로 대표되는 시각화를 더한 서비스를 목표로 삼았다.

◇ “죄다 공개SW 쓴다고 생각하시면 되요”=뉴스젤리는 공공 데이터를 비롯해 주요 포털과 카페, 커뮤니티, 블로그 등 일반 인터넷 데이터까지 다양한 데이터마이닝을 통해 데이터간 상호 연관성과 패턴 등을 찾아 이를 태그 클라우드나 인터랙티브 차트, 인포그래픽 등 다양한 데이터 시각화 형태로 보여준다. 당연히 핵심은 데이터 분석 과정이다.

뉴스젤리는 이를 위해 공개소프트웨어를 적극적으로 사용하고 있다. 정 대표는 “시스템 내에서 쓰는 건 모두 공개소프트웨어라고 보면 된다”고 말할 정도다. 서버 같은 물리적인 형태를 빼곤 구축 비용은 제로인 셈이다. 시스템은 개발자 출신인 정 대표와 직원 2명이 달려들어 직접 구축했다.

이런 말랑말랑한 데이터 분석 처리를 위한 시스템 구축에 이용한 프로그래밍 언어는 파이썬(Phthon)이다. 파이썬은 지난 1991년 네덜란드 프로그래머인 귀도 반 로섬(Guido van Rossum)이 만든 동적 타이핑 프로그래밍 언어다. 구글이 만든 소프트웨어 가운데 50% 이상은 파이썬으로 만들었다고 한다. 유명 클라우드 서비스인 드롭박스도 마찬가지다.

물론 프로그래밍 언어의 선택 자체만 놓고 말하면 직접 비용 자체가 크게 달라지는 부분은 없지만 장점이 더 많다. “흔히 말하는 것처럼 공동 작업이나 유지 보수가 쉽고 문법도 간결해 가독성이 좋아요.” 정 대표는 이런 파이썬의 장점이 사람이 보기 쉬운 스크립트 방식 언어인 덕에 대응이 수월할 뿐 아니라 개발자가 배우거나 적응하기도 쉽다는 장점이 있다는 설명이다. 정 대표의 말처럼 실제로 파이썬은 인간다운 언어라고 불린다.

“C언어는 교육 기간이 길죠. 하지만 파이썬의 경우에는 새로 배우는 데 그리 오랜 시간이 걸리지 않아요.” 정 대표는 또 공개소프트웨어 라이브러리도 파이썬으로 되어 있는 게 많고 프레임 워크가 잘 되어 있다는 점 등이 파이썬을 채택한 이유라고 덧붙였다.

뉴스젤리가 이용 중인 파이썬 버전은 2.x다. 3.x 버전도 나오긴 했지만 보통 잘 안 쓴다고 한다. 기존 라이브러리가 2.x 버전과 호환성이 좋기 때문이라는 설명. “예를 들자면 데이터를 처리하려다 보니 분산 네트워킹을 위해서 파이썬 라이브러리인 셀러리(Celery)를 이용 중인데요. 이것도 2.x 버전과의 호환성이 좋아요.”

정 대표는 시스템을 구성하면서 뉴스젤리를 구성하는 다른 요소도 모두 공개소프트웨어로 개발했다. “죄다 공개소프트웨어, 오픈 라이브러리를 쓴다고 생각하면 됩니다.” DB만 해도 SQL라이트나 MySQL, Mongo DB 등 다양한 걸 활용 중이다. DB 성능이나 효용성이 다르기 때문이라는 설명이다.

“DB가 관리하는 데이터에 따라 달라져요. DB 성능이라는 게 조금씩 다르죠. 어떤 건 데이터 입력이 빠르고 어떤 건 데이터 획득이 빠르죠. 툴 제공이나 다양한 성격에 따라서 DB를 선택해서 쓰고 있어요.” 정 대표는 “이렇게 시스템에 들어가는 모든 게 공개소프트웨어인 만큼 엄청난 비용 절감 효과가 있다”고 말한다. “기능적인 건 물론이고 비용적인 장점이 정말 크죠. 상용 소프트웨어를 쓴다는 건 스타트업 입장에선 상당한 부담이기도 하고요.”

뉴스젤리는 시스템 구축 뿐 아니라 프로젝트 개발이나 콘텐츠 기획을 할 때에도 공개소프트웨어 기반 협업 툴을 적극적으로 활용하고 있다.

구글독스 외에 프로젝트 관리에는 아사나(Asana), 콘텐츠 기획과 운영 관리에는 트렐로(Trello), 버전 관리에는 깃(Git)과 비트버킷(Bitbucket) 등을 이용하고 있다. 공개소프트웨어 기반 온라인 협업 툴을 적극적으로 쓰는 이유는 간단하다. “뉴스젤리 성격상 콘텐츠를 제작하려면 기획이 필요해요. 그런데 데이터와 시각화 2가지가 다 필요하니 디자이너나 기획팀 모두 협업이 필요하죠. 이럴 때 온라인 협업 툴을 이용하는 거죠.” 적극적인 온라인 협업 툴 활용은 서로 다른 업무를 하는 직원끼리 진행 상황을 확인할 수 있는 등 작업 효율성을 끌어올려주는 역할을 한다.

◇ “누구나 쓸 수 있는 데이터 시각화 솔루션 만들 것”=뉴스젤리는 데이터 저널리즘에서 중요한 요소 가운데 하나인 공공 데이터 활용에도 열심이다. 지난 4월에는 서울시와 공공 데이터 관련 MOU를 맺고 공공 데이터를 주제로 그 안에서 볼 수 있는 인사이트를 콘텐츠화해서 제공 중이다. 정부도 정부 3.0이 되면서 열린 정부를 강조하는 등 공공 데이터를 제공하는 데 열성적이라는 설명이다.

물론 몇 가지 아쉬운 것도 있다. “아직 정리가 안 되어 있거나 오픈이 안 된 것도 여전히 있다”는 것. 공공 데이터에 있는 정보를 실제로 찍어보니 실제값과 다른 것도 있었다고 한다. “실제 데이터를 정리하는 공무원도 자주 자리를 옮기게 되면 그때마다 교육을 반복하는 상황도 있는 것 같다”고 말한다. 정 대표는 공공 데이터도 오픈API가 있는 만큼 오픈API를 통해 제공되는 공공 데이터는 표준화해서 제공하는 것이라 활용하기도 좋다고 말한다. 다만 일부는 여전히 파일 형태로 제공하기도 한다. 이럴 때에는 활용하는 쪽에선 일일이 파일을 열어서 옮기는 수작업을 반복해야 하는 번거로움이 있다는 설명이다.

▲ 뉴스젤리가 제작한 인포그래픽 예. 뉴스젤리는 누구나 쓸 수 있는 데이터 시각화 솔루션을 만들 계획이다.

뉴스젤리는 공개SW와 공개 라이브러리를 활용해 구축한 시스템을 더 확장할 계획이다. 올 연말까지 데이터 시각화 솔루션을 선보일 예정인 것. 사이트 내에 있는 젤리랩을 통해 일단 6월에는 트위터 데이터를 수집해서 원하는 걸 추출할 수 있는 기능을 추가한다. 순차적으로 몇 개 오픈하면 데이터 시각화 솔루션이 된다.

“누구나 원하는 키워드로 데이터를 크롤링하고 간단한 분석기를 돌려서 그 안에서 분석 결과를 얻을 수 있게 하는 거죠.” 분석 결과는 보고 싶은 시각화 도구를 이용해 볼 수 있게 해주는 것까지 진행할 계획이다.

분석 방법에도 차별화를 꾀한다. “예를 들어 긍정·부정을 판별해주는 기능이라면 이런 판단은 텍스트 기반 데이터를 키워드 분석해서 빈도수나 단어 의미 등으로 판단하는 텍스트 기반”이라면서 뉴스젤리는 단순히 텍스트 기반 뿐 아니라 수치화된 데이터 분석까지 가능한 기술을 개발 중이라고 밝혔다. “데이터 마이닝 기법이나 통계적 방법도 도입하고 있어요. 음성 신호를 통계적 모델로 표현하는 마코프 모델(Markov Model) 같은 것도 활용해서 상황 예측 등이 가능한 모듈을 만드는 식이죠.”

정 대표가 빅데이터의 대중화를 강조한다. “보통 외산 시각화 솔루션은 비싸거나 사용하기 어렵지만 뉴스젤리는 더 저렴하게 많은 사람이 빅데이터를 이용할 수 있게 하겠다”는 것이다. 차별화 포인트 가운데 하나는 시각화 자체를 더 다양하게 가져가는 것이다. “지금 나온 시각화 솔루션이라는 게 차트를 좀더 예쁘게 보여주거나 아니면 연결 관계를 잘 보여준다든지 데이터 자체를 단순히 시각화하는 수준”이라는 것. 뉴스젤리는 콘텐츠를 제작하는 입장에서 콘텐츠 템플릿으로도 제공이 가능하다고 생각하고 있다. 사람들이 관심 가는 대상을 검색하고 결과물을 다양한 시각화를 통해 자신의 블로그나 홈페이지 등에 올릴 수 있게 콘텐츠 템플릿을 제공하겠다는 것이다.

이런 기능 자체를 한데 묶게 될 데이터 시각화 솔루션은 고도화된 일부는 유료로 지불하는 형태지만 기본 기능 자체는 모두 무료로 제공할 계획이다. “최대한 아무런 배경 지식이 없는 사람도 쉽게 쓸 수 있게 만드는 것. 누구나 빅데이터를 쉽고 저렴하게 사용할 수 있게 하는 걸 목표로 삼을 생각입니다.”

※ 이번 공개SW 활용 성공사례는 테크홀릭과 정보통신산업진흥원 공개SW 역량프라자가 공동으로 발굴한 기사(http://www.oss.kr/oss_repository10/537715)다.

전자신문인터넷 테크홀릭팀


이석원 기자 techholic@etnews.com