2014년 1월 12일 일요일

빅데이터는 과연 보안 분야에도 통찰력을 선사해줄까?

여기저기서 빅데이터를 표방한 보안솔루션들을 구축하고 로그를 수집한다고 아우성이다. 이해관계가 얽힌 조직들이 서로 먼저 로그를 가져가겠다고 소유권(?) 다툼을 벌이는 모습들도 심심찮게 보이고(..)

작년부터 이슈였던 빅데이터가 올해는 본격적으로 보안 분야에 접목이 되는 듯 하다. 과연 빅데이터는 보안 분야에 도움이 될까? 일단 빅데이터를 표방한 보안솔루션 벤더들의 주장은, 다 모아서 보니까 정확하다?이다.
  • 보안시스템 및 일반시스템 로그의 연관 분석 
  • 또는 일반시스템 로그만 수집해도 빅데이터 분석으로 보안 수준이 향상된다고. 과연?

빅데이터 성공 사례

1. 구글 독감 트렌드
-> 검색어 통계를 분석하기 위해서 사용자가 입력한 검색어 데이터 사용

2. 구글 번역기
-> 기존 번역 데이터를 분석하여 빈도가 높은 순서대로 번역

3. SNS를 이용한 '이슈' 분석
-> 사용자가 입력한 '이슈' 관련 텍스트 분석

이들의 공통점은? 수집한 데이터를 유형에 따라 줄세우기만 하면 된다는 점. 즉 검증이 필요없는 데이터, 믿을 수 있는 데이터를 사용했다는 점.

믿을 수 있는, 정확한 데이터를 분석한다는 가정하에서 데이터가 많으면 많을수록 빅데이터를 통해 통찰력을 얻을 가능성은 높아진다고 할 수 있다.

보안시스템 로그, 보안 데이터는? 

IDS, IPS, 웹방화벽, 서버보안 등등. 이런 보안시스템에서 발생하는 로그들은 얼마나 정확할까? 먼저 이 부분에 대한 검증과 일정 수준 이상의 정확도를 보장하는 작업이 이루어져야 하지 않을까? 쓰레기를 모아봐야 더 큰 쓰레기, 빅쓰레기가 될 뿐이지 않은가?

그러나 룰 튜닝으로 로그의 정확도를 높여야 할 책임이 있는 솔루션 벤더들은 모르쇠로 일관하고 있고(또는 정말 문제를 모르고 있을 수도 있고), IDS/IPS 등 로그를 발생시키는 원천에서 노력해야 되는 부분이라는 이유로 해당 로그를 가져다 쓰는 기존 ESM 벤더들은 물론, 빅데이터(사실은 성능이 좀 나아진 ESM) 벤더들 역시 내 알바 아니라는 듯(아니면 역시 몰라서) 굳게 입을 다물고 있는 상태.

결국 보안시스템 로그의 정확도가 보장되지 않은 상태에서의 빅데이터는 빅쓰레기가 될 가능성이 매우 높다. 어떤 이들은 보안로그와 일반로그를 연관 분석하면 정확도를 높일 수 있다고도 얘기한다. 주로 '보안로그 + 일반시스템 에러로그'의 조합일 경우 공격일 가능성이 높다는 주장이 많은데 과연?

물론 에러로그는 공격에 의해 발생 가능하다. 하지만 공격이 아닐 때도 발생하며, 공격이지만 정상 로그가 발생하는 경우도 허다하다. 빅데이터로 고작 '장님 문고리 잡기'를 해야 할까?

이상 행위 분석을 통해 보안 수준을 향상시킬 수 있다는 주장도 많다. 방화벽 로그(Well-Known이 아닌 외부 포트와 통신하는 내부IP 등)나 DNS 로그(URL 요청 빈도 및 추세 등)를 분석하면 APT를 방어할 수 있다는 등. 그럴 듯 하다.

그런데 마치 APT 분석만 하면 

모든 보안 위협이 사라질 듯이 얘기하는 사람들이 너무 많다. 백번 양보해서 APT가 전체 보안 위협의 극히 일부일 뿐이라는 사실을 잠시 제쳐둔다 해도, 누가 할 것인가? 이른 새벽에 양복입고 산에서 내려오는 거동 수상자를 찾아내기 위해서 휴전선 감시 인력을 빼야 할까?

휴전선이 뚫린 상태에서 양복입고 산 타는 거동 수상자를 찾아내는 게 무슨 의미가 있을까? 빅데이터가 기존 보안 체계를 완벽히 수용할 수 있다는 보장이 되지 않는 한 병행만이 정답이다. 그리고 병행하려면 당연히 더 많은 '인력'이 필요하다. 

그런데 많은 현장에서는 빅데이터가 더 많은 로그를, 더 빨리 분석할 수 있으니 인력 감축이 가능하다는 주장을 서슴없이 하고 있는 것이 현실이다. 솔루션이 늘어나면 제대로 운영할 사람도 늘어나야 한다는 인식은 언제쯤 자리잡게 될까?

결국 빅데이터가 문제인데, 빅데이터라는 기술이 과연 필수일까? 많은 이들이 분석하지 못하는 대량의 로그를 얘기하면서 IP/Port 기준의 단순한 로그를 남기는 방화벽과 웹서버의 모든 동작을 기록하는 웹로그를 가리킨다.

더 적은 양의 로그를 남기는 IDS/IPS도 다 분석하지 못하는 상황에서 왜 양을 더 늘리려는 것일까? 양만 많으면 빅데이터가 되는 것일까? 혹시 빅데이터 구축의 당위성을 확보하기 위해 데이터의 양을 늘리려는 의도는 아닐까?

네트워크 보안 얘기를 해보자

적과 국경을 정의할 수 없는 사이버보안에서 네트워크 보안은 일종의 휴전선 역할을 하게 된다. 한마디로 기본 중의 기본이라 할 수 있는 것. 이렇게 사이버보안의 기본인 네트워크 보안 분야에서 가장 중요한 로그는 뭘까?

나름 많은 보안관제 현장을 돌아다녀 봤지만 모두 IDS 로그 분석이 핵심이었다. 문제는 IDS 로그조차 다 분석하지 못한다는 것. 왜? 너무 많아서(..)

IDS 로그가 백만 개쯤 발생할 경우, 10기가 정도? 빅데이터에 비하면 스몰 데이터일 뿐이지만, 사람이 분석하기엔 여전히 많은 양이다. 하지만 분석할 마음만 있다면 RDB로도 제법 쓸만한 성능을 뽑아낼 수 있는 양이기도 하다. 하지만 현실은 제대로 손을 못대고 있다.

그렇다면 이쯤에서 발상을 전환할 필요가 있지 않을까? 방화벽, 웹서버보다 적은 양에도 불구하고 왜  IDS/IPS의 로그를 다 분석하지 못하는 것일까? 이미 우리는 처리 역량을 초과하는 빅데이터에 파묻혀 있는 것은 아닐까?

IDS 로그는 왜 이렇게 많을까? 

IDS는 문맥 기반, 즉 트래픽 데이터의 문맥을 검사해서 알려진 공격 '패턴'을 찾아낸다. 그런데 이 패턴매칭 방식은 7음계의 한계때문에 끊임없이 표절 시비가 발생하는 음악계를 보면 알 수 있듯이 전체 맥락이 다름에도 우연히 일치하는 패턴에 의해 끊임없이 공격 표절 로그, 즉 오탐을 만들어낸다.

패턴매칭은 치명적인 약점을 갖고 있었던 것이다. 그런데 이렇게 치명적인 약점에도 불구하고 IDS 이후 등장한 대부분의 보안솔루션들은 여전히 패턴매칭을 사용하고 있다.

IPS, 웹방화벽..심지어 접근 주체와 객체의 권한 관리가 주목적인 서버보안조차 현실에서는 패턴매칭 위주로 운영하고 있는 것이 현실..

패턴매칭은 사람이 패턴의 전체 맥락을 파악해서 공격 진위 여부를 판단해줘야하는 매우 불편한 기술이다. 그런데 왜 대부분의 보안솔루션들이 이렇게 불편하고 불완전한 방식을 여전히 사용하고 있을까?

그나마 가장 효율적이고 효과적이기 때문. 더 나은 방식이 나오지 않고 있는 것이다. 즉 패턴매칭은 그 치명적인 약점에도 불구하고 방화벽이나 웹로그를 전수 검사하는 것 보다는 그나마 더 효율적이다.

그렇기 때문에 컴퓨터가 사람처럼 문맥을 파악하는 수준으로 인공지능 기술이 발전하기 전까지는, 사람이 더 정교하게 패턴 검사를 할 수 있도록 패턴매칭 룰을 튜닝해줘야 한다. 그리고 이런 분야가 발전한다면 패턴매칭을 사용하는 모든 보안솔루션의 정확도가 높아지게 될 것이다.

그런데 방화벽이나 웹로그보다 더 적은 양의 IDS 로그도 제대로 분석하지 못하면서, 더 많은 방화벽, 웹로그를 굳이 분석해야 할까? 순서가 뒤바뀌어도 너무 뒤바뀌었다는 생각이다.

우린 이미 알고 있다 

로그를 발생시키는 원천의 문제를 해결하지 않고 있다는 사실을, 오염된 상류를 방치한 채 하류에서만 정수를 하려 한다는 사실을, 쓰레기를 많이 모아봐야 빅쓰레기일 뿐이라는 사실을, 빅데이터가 강조되고 있지만 우린 사실 스몰 데이터도 제대로 분석해본 적이 없다는 사실을(..)

그렇다고 우울해할 필요는 없다. 종주국 미국도 사정은 비슷하니까. 결국 많은 분야에서 새로운 통찰력을 안겨주는 빅데이터지만, 보안 분야에서는 빅쓰레기가 될 가능성이 높다는 게 내 생각이다. 몇 년 후 또 어떤 트렌드가 빅데이터를 뒤따를지 사뭇 궁금해진다.

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스