2024년 6월 2일 일요일

데이터 분석이 쉬워지는 비법 - 4th

미국은 이미 2000년대 중반부터 머신러닝까지 동원해가며 이상징후 분석을 시도했다. 그 결과는? 미국에서 성공한, 그래서 유명한 기술은 반드시 한국에서도 유행한다.
이제 모든 웹 로그 이상징후 분석에 이 분석 흐름도를 적용하면 될까? 개인적으로는 제법 잘 동작할 것이라 생각한다. 웹 로그의 각 상태를 잘 분류한 후, 요청과 응답 간의 관계를 고려한 통계 분석을 실시하면 충분히 유의미한 결과를 뽑아낼 수 있을 것이다. 하지만 세상에 완벽은 없다. 만약 저 분석 흐름도가 100% 완벽하다면 이미 미국에서 유행했을테고, 전 세계는 앞다퉈 그 유행을 받아들이지 않았을까? - 엘라스틱서치로 알아보는 이상징후 분석

이상징후 분석은 왜 어려울까? 모든 상황과 환경에 적용되는 만능 '비법'은 없으니까. 좋은 건 누구나 알아본다. 그렇게 좋은 비법이 있었다면 진즉에 누군가 사업화했겠지. 

결국 목적과 환경에 맞는 커스터마이징에 성공한 이는 이상징후 분석의 효과를 경험하고, 그렇지 못한 이는 구체적 실체가 없는 빅데이터니, AI니 하는 키워드에 매달린다.

커스터마이징?

보고 싶은 상태의 변화를 보여주는 지표를 개발해야 한다는 얘기. 다행히 보고 싶은 상태가 있어 지표를 개발했고, 그 지표의 효과를 봤다면 그 다음은 해당 지표와 다른 관점의 지표 개발. 왜?

주식 시장은 수십, 수백의 지표를 개발해 주식의 상태 변화를 분석한다. 실물도 모자라 심리지표까지 만들어 참고한다. 세상에 100% 믿을 수 있는 지표는 없으니까.

돈이 걸리면 이렇게 된다

보안 분야도 마찬가지. URI 변수 길이를 재고, IP 주소를 숫자로 바꾸는 이유는 눈에 익어버린 데이터에 대한 관점을 바꿔, 혹시 숨어 있을지도 모르는 데이터의 특징을 찾아내기 위해서.

미생 84수

데이터 형태를 바꿔 새로운 관점을 제공하는 작업은 당연하게도 데이터에 대한 풍부한 상상력을 요구한다. 그리고 이런 상상력은 하늘에서 뚝 떨어지지 않고 데이터에 대한 기존의 지식과 인식을 토대로 발휘된다. 기초가 있어야 응용이 가능하다는 얘기.
시간 해상도를 바꾸고, 데이터 해상도를 바꾸는 이유는 모두 데이터에 익숙해지지 않기 위해, 데이터와 낯설어지기 위해서이다. 그런데 역설적으로 데이터를 잘 알면 알수록 더 창의적(인 상상력)으로 데이터와 낯설어질 수 있다. 결국 상상력은 딱 데이터 이해도만큼만 발휘된다는 애기. 이해도가 자연스럽게 높아질 수 있도록 데이터와 자주 어울리면서 친해지길 바라는 이유 - 스플렁크로 알아보는 이상징후 분석

강의 중 당황스러울 때

스플렁크 같은 거 쓰면 데이터 몰라도 (도메인 지식 없어도) 알아서 다 될 거라는 기대를 품은 교육생을 만날 때가 있는데, 데이터 노가다 강의가 끝난 후 이들의 반응은 크게 세 가지로 갈린다. 감이 온다와 내 길이 아니다, 그리고 저 강사 실력 없네(..) 

이제는 면역이 좀 생긴줄 알았는데 아직 아닌 모양. 석박급 교육생들이라 내심 뭐 하나 배워갈 수 있을까 기대하며 갔는데 모두 한목소리로 '비법'을 요구하는 상황 발생. 기대감에 찬 눈빛들을 상대로 그런 거 없다는 말을 하려니 좀 민망했다. 


실토하자면 나 역시 꽤 오랫동안 그런 비법을 찾아 헤맸다. 그런데 데이터 좀 친다는 분들의 조언은 한결같이 데이터만을 강조하더라.
'돈 버는 비법'을 알려준다는 유튜버들에 대한 가장 큰 의문은 '그런 비법을 왜 공유하냐?'일 것이다. 내 심정이 그렇다. 딸깍 한방으로 모든 문제가 해결되는 비법 있으면 그걸로 사업하지, 보따리 장사나 하고 있을까(..) 

연애 고수의 픽업 노하우나 페로몬(?) 같은 연애 비법만으로 연애에 성공하기는 쉽지 않다. 현실의 연애는 결국 이성을 만나야 한다. 횟수가 늘수록, 상대에 대한 이해도가 높을수록 성공률도 높아진다. 용불용설. 데이터 분석과 연애의 공통점.

조직과 목적

똑똑한 인재들이 왜 비법에 매달리는 걸까? 안타까운 마음에 이것저것 캐묻다 교육 배경을 알게 됐다. 윗선의 '스플렁크 역량 강화' 지시. 유능할수록, 특히 실무 경험이 풍부한 리더일수록 구체적 지침을 내려주는 경향이 있다. 그럴 수 있다. 중요한 건 최종 목적.

망치나 톱 같은 연장 숙련도 향상을 최종 목적으로 설정해놓고 좋은 집이 지어지길 바랄 수 있을까? 좋은 집을 지으려면 너무 당연하게도 좋은 집이 목적이 되어야 한다. 연장 숙련도는 그 과정에서 자연히 따라오는 부산물 같은 것.  

전략보다 전술에 집착하면 수행 역량이 특정 전술에 갖히는 상황이 발생할 수 있다. 흰 고양이로 쥐를 잡으라고 하는 순간 티타늄 화이트냐, 실버 화이트냐로 혼란이 생길 수 있다는 얘기. 하지만 전년보다 쥐를 50% 더 잡으라는 목표를 제시하면 흑묘백묘가 아닌, 쥐잡기라는 본질에만 집중할 수 있다.
1980년대에 미군은 군사계획 절차를 수정하고 (바람직한 최종 상태를 의미하는) '지휘관의 의도 '라는 신개념을 도입했다... 지휘관의 의도는 직속 상사로부터 상세한 지시가 없다 하더라도 모든 계급의 병사들이 행동을 취할 수 있도록 해준다. 최종 목적지를 알고 있다면 어떤 수단을 취하든 거기 닿기만 하면 될 일 - 스틱

물론 스플렁크는 좋은 제품이고, 스플렁크 사주는 회사 = 좋은 회사라고 떠들고 다니는 편이지만, 데이터에 집중하다 보면 자연스럽게 익숙해지는, 스플렁크는 그런 툴일 뿐이다. 스플렁크를 잘 아니까 데이터 분석이 되는 게 아니라, 데이터를 잘 아니까 스플렁크가 쉬운 것.

업무 분장에도 문제가 있어 보였다. 분석팀이 보고 싶은 화면을 요구하면, 그 화면을 보여주는 쿼리를 짜주는 팀이 따로 있다고.

쿼리를 잘 짜려면 데이터 구조를 잘 알아야 한다. 구조를 잘 안다는 얘기는 데이터를 잘 안다는 얘기. 쿼리를 짜는 과정에서 (특히 실수를 깨닫는 과정에서) 데이터의 새로운 특징이나 데이터를 바라보는 새로운 시각을 얻을 수도 있다. 누가 데이터 분석을 잘 할 수 있을까?

뚜렷한 목적을 정해주고, 그 목적을 향해 굴러갈 수 있는 체계를 만들어주는 것. 쉬운 듯 쉽지 않은 리더의 역할. 데이터 조직의 목적은 결국 데이터가 되어야 한다.
  1. 데이터에 대한 호기심을 갖는 것에서 데이터 분석은 시작된다.
  2. '탐색적 데이터 분석 > 시행착오 발생'의 반복(데이터와 친해지는 과정)에 익숙해지자.
  3. 도구를 사랑하면 목적을 잃게 된다.

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스