2017년 5월 11일 목요일

대통령의 취임사

문재인 대통령의 취임사를 역대 대통령들의 것과 비교 분석한 연합뉴스 기사. 역대 어느 대통령보다 '대통령'이란 단어를 많이 사용했다고 한다. 멀쩡한 대통령에 대한 국민들의 바람을 안다면 당연한 결과 아닐까?

문재인 대통령 취임사 키워드

이제는 살짝 한물간 느낌이지만 그래도 한때 데이터 시각화 유행의 선봉이었던 워드 클라우드로 분석 결과를 보여준다. 데이터 분석이 유행은 유행인 모양. 만드는 과정은 아래 슬라이드 참고.


연합뉴스가 선별한 30개의 키워드를 그대로 사용했다. 내친김에 단어들의 연결 관계도 살펴보자.

문재인 대통령 키워드 관계망

키워드 발생 Top5

박근혜 대통령 취임사 키워드

박근혜 대통령 키워드 관계망

키워드 발생 Top5

Gephi에서 연결이 많은 그룹끼리 구분해주는 'Modularity Class' 옵션으로 노드별 색상 구분을 했는데, 양이 많지 않은 데이터에서는 큰 의미가 없지 않나 싶다. 할 때마다 그룹 구성이 달라진다. 연결 비중의 차이가 크지 않다는 뜻. 그래도 뭔가 있어 보이게 해준다는 장점 때문에 자꾸 사용하게 됨(..)

(연합뉴스 키워드를 썼으니 당연하겠지만) 단어들의 연결 관계를 보여준다는 차이가 있을 뿐, 결과는 연합뉴스와 대충 비슷하다. 이런 작업을 할 때마다 느끼는 거지만, 데이터 시각화는 그저 분석을 도와주는 역할을 할 뿐이다. 분석 종료가 아니라 이제 겨우 시작이라는 얘기.

결국 분석 정확도를 높이는 방법은 다양한 시각화 결과물들을 참고하면서 데이터를 곱씹고, 또 곱씹는 방법뿐이다.


그런데 텍스트를 분석할 때 주요 단어들의 빈도 및 관계를 살피는 방법만 있는 것은 아니다. 문장을 사용하는 사람의 내면을 들여다볼 수 있게 해준다는 품사 분석을 해보자.



박근혜 전 대통령의 1인칭 단수 비중은 전체 1인칭 대명사의 41%, 문재인 대통령은 64%. 문 대통령 취임사의 발언 주체가 더 뚜렷하다는 뜻이다. 동사 비중 역시 박 전 대통령은 전체 글자 수의 2%, 문 대통령은 4%. 동사나 양수사의 비중이 높을수록 목표 의식이 더 뚜렷하다는 의미라고.



탄탄한 논리 확보를 위해 필수로 갖춰야 하는 육하원칙 중 두 가지 요소(누가, 무엇을)가 상대적으로 문 대통령의 취임사에서 더 선명함을 알 수 있다. 의지를 실현하고자 하는 소망이 반영된 결과이리라.

그런데 연합뉴스가 사용한 취임사 데이터가 나랑 다른 것 같다. 연합뉴스는 박근혜, 문재인 대통령 취임사의 글자 수가 각각 5,567, 3,144개라고 하는데, 내가 수집한 데이터는 3,598, 2,358개. 수집 출처가 대통령 기록관인 연합뉴스 발표가 맞겠지? ㅡㅡ^

대통령 탄핵에 이어 치뤄진 장미대선, 그리고 19대 대통령 문재인. 역사의 한복판에 서 있음을 실감하는 요즘이다. 어렸을 때 종종 듣던 라디오 드라마 '격동 50년'을 눈으로 보고 있는 듯한 기분.

고 노무현 대통령의 친구 문재인 대통령, 취임사처럼 불행한 대통령의 역사를 끝낼 수 있기를 기원한다.

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스