2018년 7월 1일 일요일

벌거벗은 통계학

저자 찰스 윌런(Charles Wheelan). 사람들이 통계의 거짓과 진실을 잘 구분할 수 있게 되기를 희망한다고.

가끔 복잡해보이는 수식이 등장하기도 하지만, 크게 신경쓰지 않아도 무리없이 술술 잘 읽힌다. 다음은 저자가 주의를 당부하는 통계 함정들 중 인상깊었던 몇 가지.

분석 단위의 함정

한마디로 최대한 자신에게 유리한 방향으로 통계를 이용하는 행위.

"기업법인세 실효세율에 대해 이재명 성남시장은 12%라고 주장했고 전원책 변호사는 16%가 넘는다고 반박... 한 사람은 국내 10대 기업의 실효세율을 기준으로 했고 다른 사람은 전체 기업을 기준으로 잡았기 때문"

2018년 6월 24일 일요일

URL, HEX, BASE64 디코딩

트래픽을 분석하다 보면 종종 URL, HEX, BASE64 디코딩이 필요할 때가 있는데, 인터넷에는 관련 서비스를 제공해주는 고마운 분들이 정말 많다.

문자열 인디코딩 온라인 서비스

2018년 6월 17일 일요일

기계학습과 침입탐지: 문법 추론 결과

"네트워크를 통해 전달되는 데이터는 최종적으로 인간이 식별 가능한 문자나 숫자 등의 기호로 표현되는 정보를 송수신하면서 상호간에 서로 의도했던 의미를 수립한다. 데이터 발생 주체가 인간인만큼 너무나 당연하게도 인간의 의사소통과 수단은 다를지언정 그 성격은 똑같다" - IDS와 보안관제의 완성(29페이지)

'IDS와 보안관제의 완성' 집필 당시, 같은 문자열 패턴에 의해 공격과 정상이 갈리는 문제에 대한 근본적인 해결책을 고민하면서 '현대 기호학의 발전'이란 책을 읽어본 적이 있다.  의사소통에 사용되는 문자 체계의 기본 원리에 해답이 있지 않을까 싶어 시도한 독서. 그런데 언어학이란 분야가 너무 낯설더라(..)

황새 따라가다 가랑이 찢어지는 경험을 한 후, '송충이는 역시 솔잎' 마인드를 고수해왔는데, 최근 침입탐지 분야에 대한 기계학습 적용 가능성을 타진하는 논문을 접하게 됐다. 다들 어떻게든 기계학습 갖다 붙여보려는 상황에서 비관적인 결론이 특이.


2018년 6월 10일 일요일

VIM 꼼수의 발견 - 2nd

로그 분석이 아닌, 데이터 분석을 하려면 컴퓨터가 읽기 좋게 로그 구조를 바꿀 필요가 있다. 다음은 Snort 데이터베이스에서 특정 로그를 조회할 때, replace 함수를 이용해서 줄바꿈문자(0D0A)를 공백(20)으로 치환한 결과.


2018년 6월 7일 목요일

인공지능 VS 보안

사실관계가 그대로 기록된 웹로그 등에 대한 이상징후 분석 분야에 인공지능을 도입해야 한다는 얘기를 했었다. 효과가 가장 잘 나올 거라 생각하기 때문. 다음은 엘라스틱서치의 인공지능. 분명 Machine Learning이라 박혀있는데 난 왜 인공지능으로 읽고 있을까?


크리에이티브 커먼즈 라이선스