최근 미국 정부의 대국민
사찰 프로젝트 ‘프리즘‘이 이슈가 되면서 ‘빅데이터’에 대한 우려도 함께 커지고 있다. 빅데이터에
의해 조지 오웰의 소설 ’1984′에 등장하는 ‘빅브라더’가 현실화되는 것 아니냐는 목소리가 높아지고
있는 것이다.
산업계 전반에서 빅데이터 열풍이 거세지고 있는 현 시점에서 이는 시기적절한 이슈다. 원자폭탄이 핵의 안전한 사용을 위해 다양한 조치를 시도하게된 계기가 됐던 것처럼, 열풍에서 한 걸음 물러서 차분히 빅데이터를 바라볼 수 있는 계기가 되기를 바라기 때문이다.
산업계 전반에서 빅데이터 열풍이 거세지고 있는 현 시점에서 이는 시기적절한 이슈다. 원자폭탄이 핵의 안전한 사용을 위해 다양한 조치를 시도하게된 계기가 됐던 것처럼, 열풍에서 한 걸음 물러서 차분히 빅데이터를 바라볼 수 있는 계기가 되기를 바라기 때문이다.
빅데이터가 2012년에 갑자기 튀어나온 것 같지만, 사실 데이터는 늘상 있어
왔다. 현재 빅데이터 논의의 대부분이 수집, 저장, 처리 기술에 치중해 있지만 빅데이터의 핵심은 데이터를 ‘새롭게 바라볼 때 새로운 가치가 나타난다’는 것이다.
‘새롭게 바라본다’는 것의 의미
기존 데이터 분석은 샘플링, 즉 ‘표본 검사’에 의존해 왔다. 표본 검사는 검사 비용을 줄일 수 있는 반면, 표본의 범위나 품질에 따라 결과가 좌우된다는 단점을 가지고 있다.
그런데 ‘전수 검사’가 가능해진다면 어떻게 될까? 정확한 결과을 얻을 수 있게 되는 것은 물론, 구글이 검색 키워드를 분석하는 과정에서 독감의 확산을 예측한 것처럼, 데이터의 2차 가치를 찾아낼 수 있게 된다.
‘새롭게 바라본다’는 것의 의미
기존 데이터 분석은 샘플링, 즉 ‘표본 검사’에 의존해 왔다. 표본 검사는 검사 비용을 줄일 수 있는 반면, 표본의 범위나 품질에 따라 결과가 좌우된다는 단점을 가지고 있다.
그런데 ‘전수 검사’가 가능해진다면 어떻게 될까? 정확한 결과을 얻을 수 있게 되는 것은 물론, 구글이 검색 키워드를 분석하는 과정에서 독감의 확산을 예측한 것처럼, 데이터의 2차 가치를 찾아낼 수 있게 된다.
그러나 이처럼 많은 분야에서
더 나은 가치를 창출할 것으로 여겨지는 빅데이터는 여전히 빅브라더의 가능성을 가지고 있으며, 그렇기
때문에 적절한 통제가 반드시 뒤따라야 한다.
세상을 바꾼 스마트폰을 보자. 스마트폰 사용자들은 스마트폰의 혜택과 자신들의 데이터가 스마트폰의 기능을 위해서만 사용될 것을(최소한 악용되지 않을 것을) 예상하면서, 스마트폰의 사용자 데이터 접근을 허용하고 있다.
허용했으니 이로 인한 데이터의 악용이나 2차적 남용에 대한 책임은 사용자가 짊어져야 할까? 사용자의 동의를 구한 데이터 이용자들은 면죄부를 받아도 될까?
세상을 바꾼 스마트폰을 보자. 스마트폰 사용자들은 스마트폰의 혜택과 자신들의 데이터가 스마트폰의 기능을 위해서만 사용될 것을(최소한 악용되지 않을 것을) 예상하면서, 스마트폰의 사용자 데이터 접근을 허용하고 있다.
허용했으니 이로 인한 데이터의 악용이나 2차적 남용에 대한 책임은 사용자가 짊어져야 할까? 사용자의 동의를 구한 데이터 이용자들은 면죄부를 받아도 될까?
‘빅데이터가 만드는 세상’의
저자 ‘빅토르 마이어 쇤버거’는 데이터 이용자의 책임성을 강조한다.
그는 데이터의 악용과 남용에 의한 결과를, 데이터를 수집하고 가공해서 혜택을 본 데이터 이용자가 책임지는 법·제도와 문화가 정착할 때 빅브라더가 나타날 가능성은 줄어들 것이라고 얘기한다.
결국 빅브라더의 가능성을 줄이기 위해서는 데이터 접근에 대한 보안 요소를 고려해야 한다. 신중한 접근이 필요하다는 얘기.
그런데 보안 관점에서 빅데이터는 신속한 접근이 필요하다. 빅데이터를 위한 보안과, 빅데이터에 의한 보안은 어떤 관계를 가지고 있을까? 한국은 2008년부터 해킹에 의한 굵직굵직한 개인정보 유출 사고를 지속적으로 경험해 왔다.
사고가 발생할 때마다 재발 방지를 위해 각계에서 목소리를 높여왔지만 별 효과가 없었던 것이다. 그 이유는 무엇일까? 2011년경 대량의 개인정보가 유출된 어느 해킹 사고와 관련해 다음과 같은 기사가 나간 적이 있다.
그는 데이터의 악용과 남용에 의한 결과를, 데이터를 수집하고 가공해서 혜택을 본 데이터 이용자가 책임지는 법·제도와 문화가 정착할 때 빅브라더가 나타날 가능성은 줄어들 것이라고 얘기한다.
결국 빅브라더의 가능성을 줄이기 위해서는 데이터 접근에 대한 보안 요소를 고려해야 한다. 신중한 접근이 필요하다는 얘기.
그런데 보안 관점에서 빅데이터는 신속한 접근이 필요하다. 빅데이터를 위한 보안과, 빅데이터에 의한 보안은 어떤 관계를 가지고 있을까? 한국은 2008년부터 해킹에 의한 굵직굵직한 개인정보 유출 사고를 지속적으로 경험해 왔다.
사고가 발생할 때마다 재발 방지를 위해 각계에서 목소리를 높여왔지만 별 효과가 없었던 것이다. 그 이유는 무엇일까? 2011년경 대량의 개인정보가 유출된 어느 해킹 사고와 관련해 다음과 같은 기사가 나간 적이 있다.
보안관제 업무가 인바운드, 즉 들어오는 데이터만 감시하면서 아웃바운드, 즉
나가는 데이터를 소홀이 한 결과 적시에 사고 대응을 하지 못했으며, 들어오고 나가는 데이터를 모두 감시해서
사고 재발을 막아야 한다는 것이 주된 내용이다.
여기서 의문점
왜 나가는 데이터는 감시에 소홀할까? 결론부터 얘기하면 데이터가 너무 많기 때문이다. 너무 많아서 어차피 다 볼 수 없으니 전통적으로 우선 순위가 앞서는, 들어오는 데이터의 감시에 치중했던 것.
실제 해당 사고 현장의 보안관제를 담당했던 업체 관계자는 “통상 보안관제 대상은 들어오는 이상 트래픽일뿐 기업에서 나가는 트래픽은 관제 대상이 아니다 ”라고 얘기했다. 여기서 다시 의문이 생긴다. 그렇다면 들어오는 데이터는 다 보고 있을까?
여기서 의문점
왜 나가는 데이터는 감시에 소홀할까? 결론부터 얘기하면 데이터가 너무 많기 때문이다. 너무 많아서 어차피 다 볼 수 없으니 전통적으로 우선 순위가 앞서는, 들어오는 데이터의 감시에 치중했던 것.
실제 해당 사고 현장의 보안관제를 담당했던 업체 관계자는 “통상 보안관제 대상은 들어오는 이상 트래픽일뿐 기업에서 나가는 트래픽은 관제 대상이 아니다 ”라고 얘기했다. 여기서 다시 의문이 생긴다. 그렇다면 들어오는 데이터는 다 보고 있을까?
그 의문에 대한 답을 찾기
전에 먼저 ‘보안관제’의 정확한 정의에 대해서 알 필요가 있다. 정보에 대한 공격과 방어에 관한 모든
분야를 통틀어서 정보보안이라고 한다. 공격과 방어 중 굳이 우선순위를 정한다면 어떤 분야가 우선할까?
‘공격은 최선의 방어’라는 말도 있지만 그건 적이 명확히 규정됐을 경우에만 적용 가능하다. ‘누가’, ‘언제’, ‘어디서’, ‘무엇을’, ‘어떻게’, ‘왜’ 공격하는지 모르는 정보보안의 특성상 방어가 공격보다 우선한다는 뜻.
방어를 다시 세분화하면 감시·대응·예방 분야로 나눌 수 있다. 이 중 우선순위가 가장 앞서는 분야는 무엇일까?
‘공격은 최선의 방어’라는 말도 있지만 그건 적이 명확히 규정됐을 경우에만 적용 가능하다. ‘누가’, ‘언제’, ‘어디서’, ‘무엇을’, ‘어떻게’, ‘왜’ 공격하는지 모르는 정보보안의 특성상 방어가 공격보다 우선한다는 뜻.
방어를 다시 세분화하면 감시·대응·예방 분야로 나눌 수 있다. 이 중 우선순위가 가장 앞서는 분야는 무엇일까?
감시는 다른 말로 ‘경계’라고도
한다. 휴전선의 경계를 소홀히 하면서 국가안보를 논할 수 없는 것처럼,
악의적 해커의 공격 시도를 빠르게 감지하는 활동, 즉 감시가 제대로 이루어져야 그 결과에
따라 대응과 예방 역시 제대로 이뤄진다.
바꿔 말하면 감시가 실패한 상태에서의 대응과 예방은 ‘소 잃고 외양간 고치는’ 수준을 벗어날 수 없다는 얘기이다. 이런 이유로 감시는 방어에서 가장 우선순위가 앞서는 분야라고 할 수 있다.
그리고 집집마다 뒤져서 간첩을 찾는 것보다 휴전선을 감시하는 것이 더 효율적인 것처럼, 모든 보호대상 정보자산을 검사해서 침해 흔적을 찾기란 현실적으로 어렵기에 IDS, IPS, 웹방화벽 등의 보안솔루션을 사용하여 보호대상 정보자산을 감시하는 것이 일반적이다.
바꿔 말하면 감시가 실패한 상태에서의 대응과 예방은 ‘소 잃고 외양간 고치는’ 수준을 벗어날 수 없다는 얘기이다. 이런 이유로 감시는 방어에서 가장 우선순위가 앞서는 분야라고 할 수 있다.
그리고 집집마다 뒤져서 간첩을 찾는 것보다 휴전선을 감시하는 것이 더 효율적인 것처럼, 모든 보호대상 정보자산을 검사해서 침해 흔적을 찾기란 현실적으로 어렵기에 IDS, IPS, 웹방화벽 등의 보안솔루션을 사용하여 보호대상 정보자산을 감시하는 것이 일반적이다.
즉 네트워크로 연결된 길목에서 정보자산을 향해 오고가는 데이터를 감시하는 것이 ‘보안관제’의 핵심인 것이다.
빅데이터에 파묻힌 보안
이제 앞서 제기한 의문의
답을 찾아보자. 보안관제 현장에서 들어오는 데이터는 모두 감시하고 있을까? 어느 보안 업체는 2011년 기준으로 하루에 70GB의 보안로그가 발생한다고 발표한 바 있다.
실제 보안관제 현장에서는 하루에 수백, 수천만 단위로 발생하는 보안로그를 쉽게 목격할 수 있다. 결국 보안 사고가 끊이지 않는 이유는 보안로그를 다 보지 못하기 때문이며, 그 이유는 보안로그, 즉 데이터가 너무 많기 때문이다.
최근에야 빅데이터의 열풍이 일고 있지만 사실 보안 분야는 오래전부터 빅데이터에 파묻혀 있었던 것. 여기서 또 다시 의문이 생긴다. 그렇다면 하루에 발생하는 수백, 수천만의 보안 데이터는 모두 해킹 시도를 의미하는가? 정말 그렇다면 당장 네트워크 케이블을 뽑아야 하지 않을까?
실제 보안관제 현장에서는 하루에 수백, 수천만 단위로 발생하는 보안로그를 쉽게 목격할 수 있다. 결국 보안 사고가 끊이지 않는 이유는 보안로그를 다 보지 못하기 때문이며, 그 이유는 보안로그, 즉 데이터가 너무 많기 때문이다.
최근에야 빅데이터의 열풍이 일고 있지만 사실 보안 분야는 오래전부터 빅데이터에 파묻혀 있었던 것. 여기서 또 다시 의문이 생긴다. 그렇다면 하루에 발생하는 수백, 수천만의 보안 데이터는 모두 해킹 시도를 의미하는가? 정말 그렇다면 당장 네트워크 케이블을 뽑아야 하지 않을까?
그러나 현실에서 그런 일은 일어나지 않고 있다. 이 얘기는 부정확한 데이터가 많음을 의미한다. 그리고 부정확한 데이터가 많다는 얘기는 곧 부정확한 데이터와 함께 섞여있는 정확한 데이터를 찾기 어렵다는 뜻이다. 해킹 사고 방지가 어려운 이유가 여기에 있다.
해법은 전수 검사이지만 수백, 수천만 단위의 데이터 전수 검사를 위해서는 수만, 수십만의 보안
인력이 필요하다. 결국 그 동안 보안 분야는 보안관제를 표본의 범위나 품질에 따라 결과가 좌우되는 표본
검사에 의지해 왔다.
그러나 이제 빅데이터 시대가 도래했다. 데이터를 바라보는 관점을 바꿀 때가 된 것이다. 데이터 전수 검사를 통해 부정확한 데이터의 발생 원인을 파악해 그 원인을 제거하면 부정확한 데이터는 줄어들 것이며, 정확한 데이터를 찾을 가능성은 높아질 것이다.
그 과정에서 ‘누가’, ‘언제’, ‘어디서’, ‘무엇을’, ‘어떻게’, ‘왜’ 공격하는지 알게될 수 있을지도 모른다.
그러나 이제 빅데이터 시대가 도래했다. 데이터를 바라보는 관점을 바꿀 때가 된 것이다. 데이터 전수 검사를 통해 부정확한 데이터의 발생 원인을 파악해 그 원인을 제거하면 부정확한 데이터는 줄어들 것이며, 정확한 데이터를 찾을 가능성은 높아질 것이다.
그 과정에서 ‘누가’, ‘언제’, ‘어디서’, ‘무엇을’, ‘어떻게’, ‘왜’ 공격하는지 알게될 수 있을지도 모른다.
빅데이터는 보안 분야에서도
트렌드가 될 조짐을 보이고 있다. 데이터의 수집, 저장, 처리에만 치중하지 않는다면, 그리고 데이터를 새롭게 바라보는 관점을 가지려 노력한다면, 보안 분야의 빅데이터 활용은 빅브라더에 대한 사람들의 우려를 씻어내고 ‘정보를 지켜주는 빅데이터’의 모범 사례가 될 수 있을 것이다.
결국 빅데이터에 의한 보안은, 빅데이터를 위한 보안이 될 것이다.
관련 글결국 빅데이터에 의한 보안은, 빅데이터를 위한 보안이 될 것이다.
댓글 없음:
댓글 쓰기