그림과 표를 제외한 2천여 줄의 텍스트에서 그룹별 단어의 발생 빈도를 비교해봤다. 먼저 녹색 그룹에 속한 'VIM'과 'PCRE'. 발생 분포가 상당히 유사하다.
다음은 보라색 그룹에 속한 '정규표현식'과 '문자열'. 오~^O^
다음은 파란색 그룹에 속한 '백트래킹'과 '소유형'. 제법이군.
다음은 주황색 그룹에 속한 '로그'와 '데이터'. 제법이야.
마지막은 녹색 그룹의 '수정자'와 보라색 그룹의 '수량자'. 발생 분포의 차이가 눈에 보인다. Gephi가 상당히 똑똑하구나.
몇 개 단어의 발생 빈도를 비교해본 결과, 단어 개체들의 군집화가 상당히 정확하다는 사실을 알 수 있다. 믿고 써도 될 듯. 의심해서 미안(..) 텍스트에서 특정 단어의 개수를 구하는 엑셀 계산식은 다음과 같다.
관련 글
댓글 없음:
댓글 쓰기