케세라세라: 대선 토론 키워드 분석

2017년 4월 23일 일요일

대선 토론 키워드 분석

대선이 20여 일도 채 남지 않았다. 항상 추울 때 했었는데 장미 대선이라니, 왠지 묘함. 당연히 요즘 이슈는 대선 후보 토론회. 지난 19일 2차 토론회가 끝났는데, 안 본 사람(나?)이 승자라는 우스개가 난무하길래 토론회 전문을 찾아봤다.

전문을 보고 있자니 호기심 발동. 텍스트 관계망을 분석해봤다. 재미로 했으니 재미로 봐주시라. 다음은 후보자별로 타 후보자를 언급한 빈도를 통해 살펴본 상호 관계망. ('문 후보' 등의 호칭은 이름으로 변환 후 작업) 1차 토론회는 '문재인-안철수' 양 강 구도로 시작.

1차 토론회

2차 토론회는 양상이 조금 바뀌었다. 하지만 '문재인 청문회'였다던 평과는 달리 안철수 후보도 만만치 않은 타겟이 됐던 모양. 그런데 왜 부각되지 않았을까?

2차 토론회

다음은 2차 토론회에서 언급된 (내 맘대로 선별한) 문재인 후보의 키워드. '북한', '남북관계', '국방' 순으로 언급 비중이 높다.

다음은 문재인 후보의 TOP1 키워드인 '북한'에 대한 타 후보들의 비중. 누구와 설전을 주고 받았는지 대충 느낌이 온다.

다음은 안철수 후보의 키워드. '국민', '교육', '외교' 순의 비중이다.

안철수 후보의 TOP1 키워드인 '국민'에 대한 타 후보의 비중은 다음과 같다. 유승민 후보 바빴을 듯.

다음은 심상정 후보의 키워드 언급 비중. '사드', '국민', '노동(또는 안보?)' 순.

TOP1 키워드인 '사드'에 대한 타 후보의 비중.

다음은 유승민 후보의 TOP3 키워드. '교육', '북한', '국민' 순.

숨 고르기 중인 문재인, 심상정 후보.

마지막으로 홍준표 후보의 TOP3 키워드. '북한', '국가', '기업' 순.

TOP2 키워드인 '국가'의 타 후보 비중.

텍스트 관계망을 이용해서 토론회 분위기를 살펴봤다. 하지만 단순 텍스트의 나열 관계만으로 섣부른 추측은 곤란. 원본 데이터와의 맥락 비교가 필요하다는 뜻이다. 내가 '북한'을 키워드로 한 문재인, 유승민 후보의 설전을 추측할 수 있었던 이유는 전문을 이미 봤기 때문. -_-

두 시간의 공방전, 첫 스탠딩 토론 분석해보니

보통 정확한 데이터 모델링 전에 데이터에 대한 이해도를 높이기 위해 이런 분석(탐색적 데이터 분석)을 많이 하는데, 데이터 발생량이나 관계 등의 정보를 통계나 도식화 등을 통해 시각화하는 방법을 많이 사용한다.

이왕 살펴본 김에 토론 전문의 가독성도 살펴보자. 영어권에서 글의 가독성을 측정하는 거닝 포그 지수(Gunning Fog Index)라는 게 있다. 문장을 읽고 이해하는 데 필요한 교육 수준을 나타낸다고. (그런데 한글 가독성 측정에도 적합한가?)

트럼프와 클린턴의 대선 토론 GFI가 6~8(초6~중2) 수준이었는데, 우리 후보들의 토론은 전문 학술지 이상의 수준을 보인다. 물론 실제 그럴 리는 없고, 복잡한 단어를 길이 조건으로만 선별한 결과. ~~본격 발 분석~~

정확하게 하려면 익숙한 용어 및 복합어 등의 배제 과정이 필요하다고. 실제 GFI 수준은 절반 정도로 보면 될 듯하다. 초6~중1 수준? 이게 나쁘다는 뜻은 아니다. 다양한 계층의 대중을 대상으로 하는 연설문 등은 이해도를 높이기 위해 일부러 쉽고 친근한 표현을 사용하는 게 일반적.