2017년 4월 25일 화요일

대선 토론 키워드 분석 - 2nd

지난 일요일 대선 후보 3차 토론회가 열렸다.

다음은 후보자별로 언급한 타 후보 비중. 2차 토론 이후로 피아 식별 끝난 듯?


2017년 4월 23일 일요일

대선 토론 키워드 분석

대선이 20여 일도 채 남지 않았다. 항상 추울 때 했었는데 장미 대선이라니, 왠지 묘함. 당연히 요즘 이슈는 대선 후보 토론회. 지난 19일 2차 토론회가 끝났는데, 안 본 사람(나?)이 승자라는 우스개가 난무하길래 토론회 전문을 찾아봤다.

전문을 보고 있자니 호기심 발동. 텍스트 관계망을 분석해봤다. 재미로 했으니 재미로 봐주시라. 다음은 후보자별로 타 후보자를 언급한 빈도를 통해 살펴본 상호 관계망.  ('문 후보' 등의 호칭은 이름으로 변환 후 작업) 1차 토론회는 '문재인-안철수' 양 강 구도로 시작.

1차 토론회

2017년 4월 16일 일요일

데이터 분석(이라 쓰고 노가다라 읽는다)

우아한 백조의 물밑 노가다는 눈에 잘 띄지 않는다. 그래서인지 데이터 분석, 데이터 시각화라는 용어가 꽤 흔해졌음에도 데이터 노가다의 현실 역시 잘 알려지지 않는 듯하다.

infographicslab203.com/how/

2017년 4월 11일 화요일

VIM 정규표현식과 한글

한글은 시스템 운영이나 보안 관점에서 분석할 필요가 없다. 시스템에 영향을 미치지 않기 때문. 하지만 메시지가 포함하고 있는 의미 파악 관점에서는 분석이 필요한데, VIM 정규표현식을 이용해서 한글을 검사할 때는 살짝 주의가 필요하다. 다음은 정규표현식 '[가-힣]'의 검사 결과.


2017년 4월 8일 토요일

데이터 분석이 쉬워지는 정규표현식

두 번째 책을 출간했다. 물론 두 번째라 쉬울 줄 알았던 예상은 완전 계산 착오. 작년 10월 탈고 후, 6개월간 6년은 더 늙은 듯. ㅜㅜ

주제는 정규표현식이다. IDS처럼 너무 오래된, 그래서 인기 없는 그런 기술. 알면 좋지만, 몰라도 크게 불편하지 않다는 인식이 많은 편?

"개발자에게 정말 좋은데, 참 좋은데..."

'처음 시작하는 정규표현식' 표지 뒷면을 장식하고 있는 문구. 이 좋은 걸 왜 안 쓰냐는 저자(?)의 안타까운 심정을 느낄 수 있다.

집필 내내 비슷한 심정이었다.

"개발자에게만 좋은 게 아닌데..."

R이나 파이썬을 포함한 많은 프로그래밍 언어들, 그리고 다양한 데이터 분석 환경에서 정규표현식을 지원한다.

2017년 4월 2일 일요일

Gephi는 얼마나 정확할까?

요즘 로그 분석에 Gephi 활용을 궁리중인데, 사실 정확도가 좀 미심쩍다. 특히 거리 계산을 통해 가까운 개체끼리 그룹을 합쳐 나간다는 '결합형 군집화'가 얼마나 정확한지 궁금하다. 한 번 알아보자.


크리에이티브 커먼즈 라이선스