빅데이터가 대세 키워드였던 몇 년 전만 해도 하둡 등의 인프라가 모든 것을 해결해줄 듯한 분위기였다면 알파고 이후엔 수학 및 통계학, 그리고 그런 지식에 기반한 모델링 능력이 필수 자질로 꼽히는 세상이 되었다.
돈을 벌기 위해서는 사람의 심리나 행동을 예측해야 한다. 절대 쉽지 않은 작업. 아마 작두 타는 수준의 분석 능력이 필요할 것이다. 복잡한 수학/통계 지식의 필요성에 수긍이 가는 대목.
불행히도 돈 버는 데 큰 도움이 안 되는
컴퓨터의 상태를 보안 관점에서 분석하는 분야에서 수학/통계 지식은 별로 필요 없다. 컴퓨터에 기록된 데이터 개수를 세는 정도의 산수 수준으로도 분석이 됨. 불행 중 다행?
이 날 무슨 일 생긴 것 같은데? |
이런 분야에서는 그저 좋은 데이터를 얻으려는 노력, 그 데이터를 이해하려는 노력이면 충분하다. 그때 필요한 게 데이터에 대한 호기심과 도전 정신.
상대에 대한 호기심이 결여된 연애는 성공하기 어려우며, 나아가 상대를 귀찮아하거나 두려워한다면 그 연애는 아예 시작조차 할 수 없다.
데이터도 마찬가지
궁금하지도 않고 심지어 귀찮거나 마주하기 두려운 데이터를 잘 분석할 수 있는 방법은 없다. 강의 현장에서 수강생이 데이터에 대한 근본적 호기심이나 도전 정신을 지녔는지 짐작해볼 수 있는 방법이 하나 있다. 바로 에러 로그를 바라보는 태도.
대부분의 에러 로그는 에러 발생 원인을 알려준다. 로그를 읽으면 에러를 해결할 수 있다는 얘기. 읽어봐도 모르겠으면 구글신에게 물어봐도 된다. 그런데 아예 읽어보려는 시도를 하지 않는다면?
에러 로그 역시 컴퓨터에서 발생한 데이터. 평소 주변의 데이터에 관심을 준 적은 없지만, 어느 날 갑자기 데이터 분석을 잘 하게 되는 매직이 일어날 수 있을까?
나 역시 에러 로그는 외면하고 싶다. 모든 에러가 해결된 시스템과 데이터로 작업하고 싶다. 하지만 (내 밑에 아무도 없음) 데이터가 궁금하기 때문에 꾸역꾸역 에러를 읽고 해결 방법을 찾는다. 그리고 그 과정은 데이터 노가다에 익숙해지는 훈련이 되어준다.
나가며
전문가처럼 보이는 가장 쉬운 방법은 새로운 용어를 쓰는 것이라고 한다. 과거 어느 보안 전문 출판사 임원은 IDS가 주제인 내 책에 DPI나 UTM 등의 용어가 등장하지 않아 전문성이 떨어진다는 평을 하더라.
이상과 현실은 다를 수 있다는 얘기. SQL보다 텐서플로우, 데이터보다 모델링의 보상이 더 나은 이유는 새(로워 보이는) 기술이기 때문.
컴퓨팅 비용이 얼마가 증가하든 나쁜 룰을 방치한 채 IDS를 흉내내는 AI나 도메인 지식이 반영된 구체적 상태 정의 등의 전처리 과정이 빠진 이상징후 분석에 문제를 제기하기도 어렵다.
개인적으로는 '닭 잡는 데 소 잡는 칼을 쓴다'는 느낌을 지우기 힘들지만, 뭘 잡아도 돈이 안 된다면 칼춤이라도 춰야 돈 쓰는 사람이 만족할테니까.
이런 상황에서도 좋은 데이터를 얻고 싶다면, 그 과정에서 발생하는 온갖 실패 과정을 즐겁게 버텨내고 싶다면 방법은 결국 궁금한 데이터를 만나는 것뿐 아닐까?
댓글 없음:
댓글 쓰기