2021년 2월 22일 월요일

데이터 분석이 쉬워지는 비법 - 2nd

종종 데이터 전처리를 쉽게 또는 자동으로 해주는 기능 없냐는 질문을 받을 때가 있다. 그런 기능(Machine Learning > Data Visualizaer > Import data) 비슷한 게 있긴 있다. 


엘라스틱은 CSV, JSON 등 데이터 전체에 대해 일관된 필드 구분이 가능한 데이터의 임포트 기능을 제공한다. 물론 일반 텍스트 데이터도 가능. 윈도우 웹로그를 하나 임포트해봤다.


데이터 구조를 인식할 수 없단다. 뭐가 문제지?


주석문이 많아서 그런가? 필드 설명 하나만 남기고 #으로 시작하는 메타 데이터 모두 삭제.


이제야 해당 데이터를 인식한다. 데이터 구조를 어떤 식으로 분석했는지는 모르겠지만, 필드 구분을 위한 정규표현식도 만들어준다. 


다음은 해당 정규표현식 테스트 결과. 


해당 결과가 마음에 들면 그대로 사용하면 되고, 아니면 원하는 필드 구조가 나오도록 정규표현식을 수정하면 된다. 데이터로 뭔가 하고 싶은 게 있고, 그걸 하려면 어떤 구조가 필요한지 알고 있다면 어렵지 않은 판단. 그런데 데이터를 모르면 내가 뭘 하고 싶은지부터 막힌다.

제품이 알아서 최적의 데이터 구조를 만들어 준다고 해도 사용자가 데이터를 모른다면 문제는 사라지지 않는다. 제품이 코가 없는 코끼리를 발견했는데, 정작 사용자는 코끼리를 한번도 본 적이 없으면 어떻게 될까?


데이터 이해도가 높아질수록 목적이 뚜렷해진다. 목적이 뚜렷하면 툴은 쉽다.

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스