2019년 6월 29일 토요일

Logstash 필터 성능 테스트 - 2nd

방화벽처럼 key-value 구조가 반복되는 로그의 필드 분류에는 kv 필터가 딱이다.
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 action = permit
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 action = permit
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 attack = 10.10.10.10
sip = 1.1.1.1 dip = 2.2.2.2 attack = 10.10.10.10
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 action = permit
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 attack = 10.10.10.10
sip = 1.1.1.1 dip = 2.2.2.2 attack = 10.10.10.10
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 action = permit
sip = 1.1.1.1 dip = 2.2.2.2 sport = 100 dport = 200 attack = 10.10.10.10
sip = 1.1.1.1 dip = 2.2.2.2 attack = 10.10.10.10

문제는 kv 필터가 내부적으로 정규표현식을 사용한다는 것. 성능 저하가 발생할 수 있다는 얘기. 이때 dissect 필터가 대안이 될 수 있다.

2019년 6월 26일 수요일

2019년 6월 16일 일요일

어떻게 하는 게 상관분석일까요?

다음은 'failed password' 키워드 검색을 통한 원격 로그인 실패 발생 추이. 'failed password' 키워드와 로그인 실패는 서로 정비례하는 양의 상관관계를 갖는다.


2019년 6월 2일 일요일

데이터 노가다 실수담 - 3rd

이번엔 응답코드별 접속 페이지 발생 추이. 그런데 200 응답코드 상태일 때 접속 페이지 유형이 너무 많다. 확장자 수준으로 범위를 좁혔는데도 301개?


크리에이티브 커먼즈 라이선스