2021년 3월 4일 목요일

Splunk의 데이터 전처리 자동화

다음은 Filebeat의 아파치 모듈을 이용한 웹로그 연동 결과. URL과 변수가 포함된 URI 필드(url_original)가 보인다.


URL과 변수라는 서로 다른 성격의 상태를 분리하면 데이터 활용도가 좀 더 높아지겠지만, Filebeat는 지원하지 않는다. 추가 전처리가 필요한 사용자는 별도 설정을 해야 한다는 얘기.

스플렁크는 어떨까?

당연히 스플렁크도 데이터 유형별 전처리를 지원한다. 아파치의 경우 props.conf에서 데이터 전처리 소스타입을 지정하고,


trsnsfroms.conf에서 소스타입별 세부 처리 방식을 정의하는 식.


다음은 아파치 웹로그 연동 과정. 소스타입을 지정해주면 알아서 전처리가 진행된다.


다음은 연동 결과. 놀랍게도 핵심 필드인 URI를 URL(uri_path)과 변수(uri_query)로 분리해준다. 상태를 쪼개면 쪼갤수록 그 상태의 고유성이 증가하는 통계 분석의 특징과 웹로그에서 변수 데이터의 중요성을 잘 이해하고 있는 느낌. (URL 경로와 파일도 분리해줌)


심지어 변수는 key, value를 구분해서 별도 필드로 분리해준다. 괜히 비싼 게 아니구나(..)

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스