2024년 12월 25일 수요일

데이터 노가다 실수담 - 8th

ta-linux_secure 앱의 유저 정보 추출 결과.


커스텀 유저 추출 결과.


교집합을 구해보면 거의 동일.


그런데 합집합은 왜 이래? 분명 있는데 없다고?


확인해보니 키워드가 Invalid user일 때만 차이 발생 중.


ta-linux_secure 앱의 해당 유저 정보 추출 설정. 대소문자 구분을 하고 있구나(..)


대소문자 구분 해제 설정 추가하면 거의 동일.


정규표현식 수정이 좀 필요해보이긴 하는데, 1%도 안 되는 데이터 품질을 위해 안 그래도 복잡한 정규표현식을 더 복잡하게 만들 필요가 있을까?


관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스