2026년 6월 13일 토요일

데이터 노가다 실수담 - 18th

+and+ 패턴을 검사하는 정규표현식.


그런데 필드 추출 결과가 이상하다. 실제 검사 결과에 포함되지 않는 패턴이 추가됨.


원본 데이터를 보면 두 패턴은 연결되어 있지도 않다. 뭐지?


원본과 정규표현식 검사 과정을 비교해보니 원본 데이터에서는 보이지 않는 U+0085라는 문자 코드가 정규표현식 검사 과정에서는 표시되고 있다.


해당 로그는 수집 장비 오동작으로 패킷이 불완전하게 저장된 결과인데, 깨진 데이터 일부가 스플렁크에서 줄바꿈문자로 인식됐나 보다. 스플렁크가 하나의 이벤트를 둘로 인식하면서 각각 실행된 추출값을 합쳐서 보여주고 있다는 얘기.

분석 정확도를 높이고, 정규표현식도 쉽게 사용하는 방법은 목적에 맞게 범위를 축소하는 것. URI 구간에서 작업해야 했는데 깜박했네(..)


댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스