2019년 4월 28일 일요일

수학의 아름다움

구글 및 텐센트에서 자연어 처리 및 검색 전문가로 일했던 우쥔의 2014년 저서. (살다 살다 내가 내 돈 주고 이런 책을 사보는 날이 오는구나)

중국 IT 스타는 앤드류 응밖에 몰랐는데, 중국의 IT 파워를 새삼 느끼게 해준 책. 그래봐야 미국 손바닥

'기계학습과 침입탐지: 문법 추론 결과'를 보다 멘붕에 빠진 후, 해당 논문을 이해하려면 자연어 처리 분야에 대한 이해가 먼저인 것 같아 보게 됐다.

총 31장에 걸쳐서 검색, 광고 등의 예제를 보여주고, 문제를 해결하는 데 사용된 알고리즘과 수학 이론을 설명하는 구조.

살짝 쫄았지만 각 장의 연관성이 적어서 크게 부담도 안 되고, 설명도 그리 딱딱하지 않아서 수식 무시하고 읽었음에도 이해하는 데 별로 어렵지 않다?

2019년 4월 25일 목요일

알고 보면 쉬운 이상징후 분석 - 2nd

'알고 보면 쉽다'의 반대말은 '모르면 어렵다'이다. 다음은 웹로그의 여러 상태 중 변수 길이의 변화 추이. 이게 중요하냐는 질문을 받은 적이 있다. 변수 조작 해킹 시연할 때 딴 생각했죠?


2019년 4월 22일 월요일

강의하다 보면 생기는 어려움

14년부터 강의를 시작했다. 처음엔 IDS 로그 분석 과정만 진행하다가, 16년에 이상징후 분석 과정을 추가했고, 작년부터 과정 통합. 두 과정을 통합하면서 엘라스틱을 분석 도구로 추가한 걸 빼면 6년째 거의 같은 내용으로 우려먹는 중(..)

대부분의 내용은 블로그에 공개되어 있다. 최소한 가장 중요하다고 생각하는 데이터 전처리 과정은 거의 같음. 딱히 의도한 건 아니고, 개인 학습 > 블로그 정리 > 강의 연결 과정이 어쩌다 굳어졌다.

강의 아이템 노출 같은 걱정은 전혀 안 된다. 보안 분야는 전통적으로 해킹이 대세고, 로그 분석은 워낙 비인기종목이라(..) 많이 퍼져서 관심이나 좀 높아졌으면 좋겠음.

2019년 4월 14일 일요일

Packetbeat 활용 - 4th

t 옵션과 함께 pcap 파일을 연동하면 flow 데이터의 경우, 시간대가 너무 압축돼서 시계열 분석은 불가능. transaction 데이터는 실제 시계열 인터벌을 갖지만, 지원하는 애플리케이션이 많지 않아서(..)

t 옵션 없이 연동해봤다. 24시간 동안 기록된 pcap 파일 연동하는 데 26시간 소요? 연동 중에 렉 걸렸나? 일단 flow와 transaction 데이터 모두 같은 시간대에 기록된다.


2019년 4월 7일 일요일

Packetbeat 활용 - 3rd

Packetbeat로 pcap 파일을 연동하면 연동 시점의 시간대를 갖는다. 실제 패킷 발생 시간대가 아닌, 연동 시간대를 갖는 인덱스에 저장된다는 얘기. 마음에 안 듬

게다가 패킷 딜레이 시간까지 반영돼서 속도마저 느림. 이때 t 옵션을 주면 딜레이 시간을 무시할 수 있다. 훠얼씬 빠른 연동 가능.


크리에이티브 커먼즈 라이선스