케세라세라: Gephi는 얼마나 정확할까?

2017년 4월 2일 일요일

요즘 로그 분석에 Gephi 활용을 궁리중인데, 사실 정확도가 좀 미심쩍다. 특히 거리 계산을 통해 가까운 개체끼리 그룹을 합쳐 나간다는 '결합형 군집화'가 얼마나 정확한지 궁금하다. 한 번 알아보자.

그림과 표를 제외한 2천여 줄의 텍스트에서 그룹별 단어의 발생 빈도를 비교해봤다. 먼저 녹색 그룹에 속한 'VIM'과 'PCRE'. 발생 분포가 상당히 유사하다.

다음은 보라색 그룹에 속한 '정규표현식'과 '문자열'. 오~^O^

다음은 파란색 그룹에 속한 '백트래킹'과 '소유형'. 제법이군.

다음은 주황색 그룹에 속한 '로그'와 '데이터'. 제법이야.

마지막은 녹색 그룹의 '수정자'와 보라색 그룹의 '수량자'. 발생 분포의 차이가 눈에 보인다. Gephi가 상당히 똑똑하구나.

몇 개 단어의 발생 빈도를 비교해본 결과, 단어 개체들의 군집화가 상당히 정확하다는 사실을 알 수 있다. 믿고 써도 될 듯. 의심해서 미안(..) 텍스트에서 특정 단어의 개수를 구하는 엑셀 계산식은 다음과 같다.

관련 글

Easy to analyze -- if you're curious about data