2024년 10월 13일 일요일

시리즈 완결 후기

elastic
  1. Data Anomaly Detection (20.01.09)
  2. Deep dive into web log (21.01.07)
  3. Deep dive into system log (21.04.20)
  4. Deep dive into windows event (22.08.20)

splunk
  1. Data Anomaly Detection (21.08.30)
  2. Deep dive into web log (23.07.26)
  3. Deep dive into secure log (23.10.09)
  4. Deep dive into windows event (24.10.07)

이상징후 분석 시리즈를 완결했다. 총 8권이니 많아 보이지만 합치면 500여 페이지 2권 분량. 권당 2년 반쯤 걸린 셈. 처음 엘라스틱으로 시작할 땐 강의 예제를 총망라해야겠다 생각했었는데, 그랬다면 더 오래 걸리지 않았을까?

체력 문제인지, 갈수록 집중이 힘들어서 100여 페이지 쓰는 것도 힘에 부침을 느꼈다. 다행히 초기에 가볍게 접근할 수 있는 입문서를 써보라는 지인의 조언 덕에 아이템도 아끼고 힘 조절을 할 수 있었고, 완결도 가능하지 않았나 싶다.

계기

일단 코로나 사태로 시간이 남아 돌았고 강의를 할수록 10여 년 경험을 단 며칠로 압축 전달해야 하는 상황이 아쉬웠다. 로그 분석에서 데이터 분석으로 관점을 바꾸면서 경험했던 재미를 느끼게 해주고 싶었다. 재미있으면 쉽게 지치지 않으니까.


데이터 분석의 동의어는 데이터 계산. 사람만이 읽을 수 있는 데이터를 컴퓨터가 계산할 수 있는 테이블 구조로 바꾸면 분석이 쉬워진다. 데이터에 대한 호기심을 풀 수 있는 환경이 마련되니 재미있을 수밖에 없다.

그러나 유행하는 툴을 써보고 싶다는 마음가짐으로는 이런 재미를 느끼기 힘들다. 내가 아닌 툴이 해주는 거라 생각하니 제가요?란 의문이, 궁금하지 않은 데이터를 내가 왜 힘들게 분석해야 하나란 의문이 해소되지 않는 것.


데이터가 궁금하면?

스스로 해결하고 싶은 문제를 정의하고, 스스로 해결하려는 의지를 가지니 의문 자체가 생길 수 없다. 궁금증을 해결하는 과정, 조금씩 정답에 가까워지는 과정 자체가 재미있다. 그런 경험을 전달하고 싶었다.

강의는 데이터 전처리와 이상징후 지표 개발 중 전처리 비중이 높다면, 시리즈는 강의 수강을 전제로 (데이터 전처리가 성공해야 가능한) 지표 개발과 활용에 비중을 뒀다. 수강 경험이 없다면 불친절하다 느낄 수 있음. Deep dive 시리즈를 판매하지 않는 첫 번째 이유.

반복적으로 사용되는 기능은 이전 시리즈의 해설을 참고하는, 시리즈가 진행되면서 툴 숙련도가 높아지는 구성을 취했기 때문에 순서대로 보지 않으면 이해가 어려울 수 있다. 그래서 반드시 순서대로만 제공한다.

무엇보다 강의나 1권을 통해 데이터 분석이 툴 딸깍만으로 이루어지지 않음을, EDA(전처리) 과정을 통한 데이터 이해가 필수임을 깨닫지 못한 상태에서는 전체 시리즈에서 얻을 수 있는 성취가 많지 않을 거라 장담한다.

감히 장담하는 이유는 실제 많은 이가 수강 후 1권을 신청하지만 2권 신청률은 그에 훨씬 못 미치기 때문. 3권은 더 그만큼 이상(데이터 분석)과 현실(데이터 노가다) 간의 괴리를 크게 느끼는 이가 많다는 방증 아닐까? 물론 그냥 바빠서일 수도 있고(..)

결과적으로 시리즈가 모두에게 도움 되는 구성이 되지 않았나 싶다. 1권을 읽어본 후 전개 방식에 공감하지 않는 이는 자연스럽게 흥미를 잃으면서 시간과 에너지를 아낄 수 있고, 나는 내 취지에 공감하는 이들에게 도움을 줄 수 있으니까. Deep dive 시리즈를 판매하지 않는 두 번째 이유.
데이터 분석이 또는 스플렁크 같은 툴이 그저 멋져보여서 시작했다면 지금 이 글을 읽고 있지 않을 것이다. 많은 부분을 데이터 전처리 자동화 기능에 의지했음에도 전혀 멋져 보이지 않은 노가다 of 노가다에 지쳐버렸을테니까 - 스플렁크로 알아보는 이상징후 분석4th

그래서 가장 반가울 때는 수강 경험이 없음에도 1권을 접한 후, 2권 구매 의사를 보여주는 이를 만날 때. 시리즈에 대한 정보가 없음에도 스스로 찾아 왔다는 얘기는 그만큼 데이터에 대한 궁금증이 크다는 얘기. 데이터가 궁금해서 뭐라도 해보려던 과거의 내가 떠올라 안 도와줄 수 없다.

새로운 목표

목표했던 시리즈를 끝냈으니 좀 늘어지고 싶지만, 윈도우 이벤트를 다루면 다룰수록 종류도 다양하고, 구조도 복잡해서 내가 알던 게 새발의 피였다는 생각이 든다. 강의할 때 윈도우 이벤트를 찍먹만 하는 이유(..)

사실 이벤트 하나하나가 별도의 로그나 마찬가지여서 범위가 너무 넓다. 윈도우 이벤트만으로도 5일 채울 수 있을 듯. 게다가 아무래도 운영체제 동작과 관련이 많아서 윈도우에 대한 깊은 이해도를 요구한다. 그래도 범위를 좀 넓혀봐야지. 일단 4656부터 찍먹해볼까 싶다.

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스