[총선 키워드 빅데이터분석]주요 뉴스·유튜브 댓글 기반으로 100만건 분석

Photo Image

'정치권·총선 관련 뉴스 및 유튜브 댓글 분석'은 정치·국회·총선 등 키워드를 포함한 주요 뉴스와 유튜브 댓글 데이터를 기반으로 이뤄졌다.

데이터 수집 기간은 올해 1월 1일부터 3월 31일까지다. 키워드는 정치권, 국회(정치·국회), 총선, 국회의원 선거(총선), 비례대표, 비례위성정당, 비례연합(비례대표 또는 비례정당), 투표, 투표장(투표), 법안(법안), 자유한국당, 미래통합당, 더불어민주당, 바른미래당, 민생당, 정의당, 안철수, 국민의당(정당)이다. '코로나19'는 정치권뿐 아니라 모든 분야에서 광범위하게 다뤄진 것이어서 키워드 대상에서 뺐다. 키워드를 각각 수집한 뒤 전체 수집 데이터를 하나로 병합했다.

뉴스 데이터는 주요 종합 일간지·방송사(조선일보, 동아일보, 중앙일보, 경향신문, 한겨레, 한국일보, KBS, MBC, SBS)가 보도한 기사 제목과 본문, 일자 등이 분석 대상이다. 본지 기사는 분석 대상에서 제외했다.

유튜브 댓글 데이터는 수집키워드를 포함하는 동영상(조회수 높은 순)과 그 댓글에서 댓글 내용과 작성자, 작성일시, 댓글의 원 이용 아이디(ID) 등을 사용했다.

수집된 데이터는 정제 과정을 거쳤다. 3만6758건 뉴스 데이터 가운데 중복기사를 제외했다. 제목과 본문, 언론사가 동일한 경우 중복기사로 처리했다. 연관성이 적은 뉴스도 제외했다. 연예, 스포츠, 문화, 부고면 기사를 제거했다. 본문이 없는 기사도 제외했다. 2만5747이 최종 분석 대상이 됐다.

유튜브 댓글은 98만9424건이 최초 수집됐다. 외국어만 적혀있거나, 기호만 있는 경우는 제외했다. 서바이벌 프로그램 투표 등 연관성이 적은 댓글도 다루지 않았다. 이를 거쳐 82만7385건을 분석했다.

Photo Image

단어도 정제했다.

'대한민국' '한국' '우리나라' 등 의미가 유사하거나 같은 단어들(동의어 또는 유의어)을 하나의 대표 단어로 통일해 추출되도록 했다. '더불어민주당' 등 복합명사 또는 고유어가 지정한 대로 추출되도록 단어를 지정했다.

'오늘' '그동안' 등 분석적 의미가 없거나 분석 목적과는 연관성이 낮다고 판단되는 단어와 '100' 'cloud' 등 외국어 또는 숫자로만 표기된 단어도 제외했다.

다만 인물명은 최대한 유의어 처리했으나 '성' 자체는 유의어로 등록하지는 않았다. 안철수의 '안'이라는 단어를 유의어로 처리하면 '안 된다'에서의 '안'도 '안철수'로 처리될 수 있기 때문이다.

단어간 연관 관계를 구성해 분석했다.

단어가 가깝게 사용된 경우에 '관계'를 구성해 키워드 네트워크를 구성했다. 단어 간 인접성에 기반해 가깝게 등장한 단어끼리 링크를 형성했다. 단어 간 거리도 네트워크에 반영됐다.

'지금보다 더 나은 나라를 만들고, 더 나은 사회를 만들겠습니다'라는 문장에선 '지금' '더' '낫다' '사회' '만들다'라는 단어를 추출, 전후 2단계로 위치한 단어끼리 관계를 구성하고 동시 등장 횟수를 관계의 강도로 설정했다. 이를 통해 '더 낫다'는 동시 등장 횟수가 다른 단어 간 관계보다 높다고 분석했다.


안영국기자 ang@etnews.com


브랜드 뉴스룸