2026년 7월 5일 일요일

데이터 분석이 쉬워지는 비법 - 5th

서로 다른 변수 20만 개가 발생한 웹로그.


그런데 이런 유형의 변수를 서로 다르다고 인정해줄 필요가 있을까?


나는 변수값의 변화가 아닌, 변수라는 큰 틀의 변화가 보고 싶다. 숫자 변수값 삭제.


숫자 변수값을 삭제하지 않은 필드 분석.


숫자 변수값을 삭제한 필드 분석.


데이터 분석 분야에는 데이터 정체성을 유지하면서 분석 범위를 좁히고자 할 때 사용하는 차원 축소라는 개념이 있다.


내가 보고 싶은 게 무엇인지, 지금 보고 있는 게 진짜 보고 싶었던 것인지를 고민하면서 해왔던 작업들이 알고 보니 생전 듣도 보도 못한 데이터 차원 축소 작업이었던 것. 본질에 집중하면 결국 다 통하는 모양.
빅데이터/인공지능이 유행하기 전부터 로그를 한 줄, 한 줄 읽어보고 싶은 욕구를 느꼈다면, VIM/grep 등을 이용해서 더 읽기 쉬운 형태로, 계산이 가능한 형태로 정제를 시도해봤다면, 친숙한 오피스 툴(엑셀?)이나 더 전문적인 데이터 계산툴(SQL?)을 사용해봤다면 충분히 잘 할 수 있다. 데이터 분석의 기본 원리는 그대로인 채 툴만 바뀌었으니까 - 엘라스틱서치로 알아보는 이상징후 분석4th

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스