2017년 3월 30일 목요일

Gephi를 이용한 Web Log 분석

간만에 웹로그 분석. 작년에 이상징후 분석 관점의 웹로그 발생 현황 파악 과정을 살펴봤었다. (그게 벌써 1년 전) 그때 강조했던 게 먼저 '숲을 그린 후, 나무를 파악하자'였는데, 큰 그림을 그린다는 게 사실 쉬운 일은 아니다.

그런데 'Gehpi'를 이용하면 조금은 쉬워지는 듯. 사례를 보자. 다음은 웹 문서 확장자별 응답코드 발생 현황 조회 화면.


select CASE to_lowercase(extract_extension(cs-uri-stem))
             WHEN '' THEN 'default'
             ELSE to_lowercase(extract_extension(cs-uri-stem))
             END as ext, sc-status
from d:\ex.log

URL 영역에서 웹 문서의 확장자만을 추출하는 'to_lowercase(extract_extension(cs-uri-stem))' 구문을 사용했는데, 웹 문서가 지정되지 않은 경로 접속은 웹 문서 기록을 남기지 않기 때문에 'CASE' 구문을 이용해서 빈 값은 'default'로 치환했다. 조회 결과를 CSV로 저장.


다음은 해당 CSV 파일을 Gephi에서 불러온 결과. (Gephi 사용법은 '텍스트 의미망 분석'편 참고)


다음은 엑셀을 이용한 전체 발생 현황 파악 결과.


차트로 바꾸면 이렇다.


직관성을 조금이라도 높여볼려고 3D 차트까지 이용했지만 Gephi를 따라오지는 못한다. 확실히 (대략적인) 전체 현황 파악에는 Gephi가 나은 듯.

404 응답코드 기준 웹 문서 연결 현황

200 응답코드 기준 웹 문서 연결 현황

둘의 궁합이 좋다. Gephi로 숲을 그리고, 엑셀로 나무를 파악하면 분석이 수월해질 것 같은 느낌. 세상 참 좋아졌다.

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스