케세라세라: 2024년에 있었던 일

2024년이 끝나가는구나? 아니다. 그냥 화요일이다. 일출 보러가자는 친구넘에게 해준 말. 니들 체력은 부럽다(..)

그래도 결산은 해야지. 아무래도 올해는 10월, 마지막 스플렁크 시리즈 완성 후 홀가분해하던 중 닥친 구글북 계정 중지 건이 가장 기억에 남는다.

니가 이런저런 정책을 위반했는데 인정 못하겠으면 소명해라가 아니라, 니가 정책을 위반했는데 뭘 위반했는지는 안 알려줄꺼니까 알아서 소명하라는 프로세스에 할 말을 잃음.

영어 존칭 문구까지 검색해가면서 시종일관 저자세로 도움을 요청한 끝에야 간신히 해결책을 얻을 수 있었지만, 빅테크 기업에 찍히면 순식간에 사회적 사망 선고를 당할 수도 있겠다 싶으니 무섭더라.

덕분에 해당 문제를 해결하는 동안 진행했던 강의 수강생들에게는 책을 배포하지 못했다. 혹시라도 이 글 보시면 연락주세요(..)

출간

시작한지 5년만에 엘라스틱과 스플렁크 시리즈를 완결했다. 올해 가장 잘한 일.

elastic

Data Anomaly Detection (20.01.09)
Deep dive into web log (21.01.07)
Deep dive into system log (21.04.20)
Deep dive into windows event (22.08.20)

splunk

Data Anomaly Detection (21.08.30)
Deep dive into web log (23.07.26)
Deep dive into secure log (23.10.09)
Deep dive into windows event (24.10.07)

작년 회고 보니 시리즈 완결되면 beat나 esql 활용편 써보고 싶다고 해놨던데(..) 책은 잠시 덮고 당분간은 이벤트 로그에 집중할 생각이다.

이유는 역시 강의

강의 중 (약속된 커리큘럼을 진행함에도) 정보유출, 악성코드 관련 사례가 없다는 불만이 제기될 때가 있다. 그럴 땐 데이터를 공유해주면 사례 연구를 해주겠다 답변하는데, 실제 데이터 공유로 이어지진 않더라. 보안 업계는 정보 공유를 정보 유출로 인식하니 이해는 함.

관련 커리큘럼을 준비하지 않은 이유는 일단 유용한 사례 제시가 가능한 데이터가 없고, 해킹 사고 대부분은 웹해킹이니까. ~~웹해킹 데이터는 구하기 쉬울까?~~ 수요가 제일 많다는 얘기.

강의가 생계수단인지라 장기 운영 가능 여부를 가장 먼저 따진다. 1년에 한 두 번 운영으로 먹고 살 수 있다면 모를까, 소수를 만족시키는 강의는 불가. 왜 먹는 장사가 만만하고, IT 서적은 왜 입문자 타겟이 많을까?

그럼에도 현장의 (수십억 솔루션으로도 해결 못하는) 문제를 자문이 아닌, 교육으로 해결하고 싶다면 기초를 익혀서 응용해야겠다는 마음가짐이 필요하다. 아니면 필요한 교육을 직접 기획/발주하던지.

그래도 피드백은 없는 것 보다 있는 게 낫다. 실제 사례가 없어서 고민했었는데 제로트러스트 유행으로 관심도 높아지는 것 같고, 이벤트 로그로 비인가접근/정보유출/악성코드 등의 사례 시뮬레이션도 가능하니 신규 과정으로 진행해볼 생각.

머신러닝

올해는 엘라스틱보다 스플렁크 강의가 더 많았다. 비싸기로는 어디 가서 꿀리지 않는 제품이라 그런지 수강생들 소속이 쟁쟁함. 그런데 사람과 머신러닝 기능의 분석 결과를 비교하고, 머신러닝의 한계를 보여주는 과정을 진행할 때 회사별로 미묘한 차이가 보이더라.

회사 성격과 관계없이 수강생들은 모두 IT 종사자임에도 금융이나 제조업 분야는 머신러닝의 한계를 그나마 인정하는 편이라면, IT 관련 분야(하드웨어)는 인정하기 싫어하는 분위기라고 해야 할까?

일단 해당 과정을 진행하는 이유는 데이터 이해도가 부족한 상태에서는 머신러닝 기능도 제대로 활용할 수 없음을 보여주기 위해서. 그런데 부정확하고 비효율적인 ML 기능의 한계를 보여줘도 과정이 부실해보인다, 노하우를 알려주지 않는 것 같다는 반응이 나온다.

ML 별로라하니 기분 나빠하는 듯한 느낌이라 대략 난감. 전에도 얘기했지만 ML 딸깍 한 방으로 다 해결되는 노하우나 비법 있으면 내가 강사나 하고 있겠나, 내 사업하지. 시스코의 스플렁크 인수도 반대가 됐을테고.

엘라스틱이나 스플렁크의 머신러닝 기능은 범용적이다. 누구나 써야 하기에 특정 목적에 최적화된 툴이 아니라는 얘기. 특수 목적(정오탐 구분?)용 AI 개발을 위해 이백억 가까운 돈을 쏟아붓고도 현장 적용을 못하는 현실에서 범용툴을 잘 쓸 수 있는 방법은 결국 기계의 결과물을 판단할 수 있는 능력을 기르는 것. 데이터를 모르는 상태에서 그런 능력을 기를 수 있을까?

기초가 탄탄한 인간들만이 AI세상에서 살아남는다... 기초가 중요한 이유는 바로 AI가 만든 결과물을 판단할 수 있는 능력을 기를 수 있기 때문

일반화는 곤란하지만 커리큘럼 불만부터 머신러닝 집착까지 모두 같은 소속 그룹이라 흥미로웠다. 어디서 차이가 생기는 걸까? 결국 리더가 추구하는 방향 차이 아닐까? 어떻게 하면 환상에서 벗어나게 할 수 있을까? 사례를 보여줘도, 서울대 귄위에 호소해도 쉽지 않네.

내가 다루는 데이터가 어떤 의미를 지니며 어떠한 성질과 특성을 갖는지 모르는 채 기계적인 데이터 분석법, 계산식을 돌리는 것은 눈을 감은 채 코드를 짜는 것과 같다

첨단 기법을 구사하는 것도 중요하지만 그 이전에 데이터를 대하는 습관 형성이 필요하다. 무얼 궁금해해야 하는지를 아는 것은 쉬워 보이지만 많은 엔지니어들에게 가장 결여된 것 중의 하나다. 데이터에 대한 제대로 된 관찰이 선행되지 않으면 불필요한 곳에 첨단 기법을 써서 오히려 품질을 떨어뜨리기도 한다

회고 쓰면 항상 마무리가 우울해지는 느낌이야(..) 몇 시간 후면 2025년이다. 한 해 동안 방문해주신 분들 모두 해피뉴이어~

관련 글

2023년에 있었던 일

Easy to analyze if you are really curious about data

페이지

2024년 12월 31일 화요일

2024년에 있었던 일

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스