2017년 4월 25일 화요일

대선 토론 키워드 분석 - 2nd

지난 일요일 대선 후보 3차 토론회가 열렸다.

다음은 후보자별로 언급한 타 후보 비중. 2차 토론 이후로 피아 식별 끝난 듯?


2017년 4월 23일 일요일

대선 토론 키워드 분석

대선이 20여 일도 채 남지 않았다. 항상 추울 때 했었는데 장미 대선이라니, 왠지 묘함. 당연히 요즘 이슈는 대선 후보 토론회. 지난 19일 2차 토론회가 끝났는데, 안 본 사람(나?)이 승자라는 우스개가 난무하길래 토론회 전문을 찾아봤다.

전문을 보고 있자니 호기심 발동. 텍스트 관계망을 분석해봤다. 재미로 했으니 재미로 봐주시라. 다음은 후보자별로 타 후보자를 언급한 빈도를 통해 살펴본 상호 관계망.  ('문 후보' 등의 호칭은 이름으로 변환 후 작업) 1차 토론회는 '문재인-안철수' 양 강 구도로 시작.

1차 토론회

2017년 4월 16일 일요일

데이터 분석(이라 쓰고 노가다라 읽는다)

우아한 백조의 물밑 노가다는 눈에 잘 띄지 않는다. 그래서인지 데이터 분석, 데이터 시각화라는 용어가 꽤 흔해졌음에도 데이터 노가다의 현실은 잘 알려지지 않는 듯하다.

infographicslab203.com/how/

2017년 4월 11일 화요일

VIM 정규표현식과 한글

한글은 시스템 운영이나 보안 관점에서 분석할 필요가 없다. 시스템에 영향을 미치지 않기 때문. 하지만 의미 파악 관점에서는 분석이 필요할 수 있는데, VIM 정규표현식을 이용해서 한글을 검사할 때는 살짝 주의가 필요하다. 다음은 정규표현식 '[가-힣]'의 검사 결과.


2017년 4월 8일 토요일

데이터 분석이 쉬워지는 정규표현식

두 번째 책을 출간했다. 물론 두 번째라 쉬울 줄 알았던 예상은 완전 계산 착오. 작년 10월 탈고 후, 6개월간 6년은 더 늙은 듯. ㅜㅜ

주제는 정규표현식이다. IDS처럼 너무 오래된, 그래서 인기 없는 그런 기술. 알면 좋지만, 몰라도 크게 불편하지 않다는 인식이 많은 편?

"개발자에게 정말 좋은데, 참 좋은데..."

'처음 시작하는 정규표현식' 표지 뒷면을 장식하고 있는 문구. 이 좋은 걸 왜 안 쓰냐는 저자(?)의 안타까운 심정을 느낄 수 있다.

집필 내내 비슷한 심정이었다.

"개발자에게만 좋은 게 아닌데..."

R이나 파이썬을 포함한 많은 프로그래밍 언어들, 그리고 다양한 데이터 분석 환경에서 정규표현식을 지원한다.

2017년 4월 2일 일요일

Gephi는 얼마나 정확할까?

요즘 로그 분석에 Gephi 활용을 궁리중인데, 사실 정확도가 좀 미심쩍다. 특히 거리 계산을 통해 가까운 개체끼리 그룹을 합쳐 나간다는 '결합형 군집화'가 얼마나 정확한지 궁금하다. 한 번 알아보자.


크리에이티브 커먼즈 라이선스