2016년 4월 15일 금요일

보안 알파고?

빅데이터에 대한 특집 방송이 편성되고, 해외 사례가 소개되고, 온갖 장미빛 청사진을 담은 기사들이 쏟아지던 2012년이 떠오른다. 그 열풍은 조금 사그라든 듯하지만 빅데이터는 아직 현재진행형이다.

개인적으로는 긍정적으로 평가하는 편이다. 실제 눈으로 확인할 수 있는 효과나 소위 '가성비'와는 별개로 어쨌든 사람들을 데이터에 주목하게 만들었고, 데이터의 활용 가치에 눈 뜨게 만들었으니까. 물론 순기능이 있으면 언제나 그렇듯이 역기능이 따라온다.

프리즘 사태 등으로 확인된 빅브라더의 가능성과 함께 무분별한 마케팅으로 인한 맹신과 만능주의 확산이 바로 그것. 마케팅 비용이 쏠리는 곳에 거품이 형성된다고나 할까? 뭐 신기술의 필수 통과 의례 정도가 아닐까 한다. 거품이 초기 투자를 이끌어내는 긍정(?)적인 측면도 있고.

못하는 게 없는 빅데이터

많은 이들이 빅데이터에 열광했으며 정보보안 업계의 관심 역시 매우 뜨거웠다. 그런데 최근 이세돌과 알파고의 바둑 대결 이후 그 관심이 인공지능으로 넘어가는 듯하다.


전문가 시스템

사실 보안 분야는 초창기부터 한때는 인공지능의 정점에 있었던 '전문가 시스템'이 적용된 분야다. 요즘 이런 얘기하면 돌 맞음 전에 이런 얘기를 한 적이 있다.

기존 인공지능 컨셉 마케팅이 전혀 허무맹랑한 소리는 아니었던 것. 문제는 모든 공격 방법을 다 알고 있는 전문가는 없다는 것. (전문가가 없으면 전문가 시스템도 없다)

해커들이 너무 창의적으로 신통방통한 공격을 하기도 하고(..) 게다가 자동차나 냉장고와 같은 일반 소비재에 비해 보안 분야는 매우 재미있는 특성을 하나 가지고 있다.

고객 입장에서는 돈을 버는 것도 아닌 분야에 돈을 써야 하는 반면, 효과 측정은 어렵다는 것. 제품을 팔기 어렵다는 뜻이다. 그렇다 보니 업계는 사활을 걸고 새로운 위협, 새로운 기술 등의 이슈를 찾아 헤메는 신세가 됐다.

물 들어올 때 노 저으랬다고, 이런 상황에서 알파고 이슈는 정말 반가운 호재이자, 놓치기 아까운 기회.

과연 인공지능은 우리를 안전한 사이버 세상으로 안내해줄까? 일단 바둑은 경우의 수가 많을 뿐 실상 매뉴얼은 단순한 도메인에 속하는 일종의 보드 게임이다.

이어지는 돌을 많이 두면 이기는 것 아닌가? 저는 오목밖에 모릅니다 인공지능이 도전하기 적합한 분야라는 뜻. 보안 분야는 어떨까?

보안은 분야 전반에 통용되는 보편적 규칙을 찾기 힘들며, 결과적으로 예측이 어렵고 불확실성이 높아서 사람이 개입하는 비중이 클 수 밖에 없는 복잡한 도메인이라는 것. 인공지능이 도전하기엔 적합하지 않은 분야라는 뜻이다.

사람에게 쉬운 건 컴퓨터에게 어렵다

내가 한 말은 아니고 '모라벡의 역설'로 유명한 로봇공학자 한스 모라벡(Hans Moravec)이 한 말. 뜬금없지만 '지혜의 심리학'이란 책에도 비슷한 구절이 나온다.
컴퓨터의 목적은 연산과 저장, 인간이 지닌 지적 시스템의 목적은 이해와 평가 (90 페이지)

아 예쁘다
국민첫사랑 수지 어떠냐는 질문을 컴퓨터와 사람에게 동시에 던지면 어떤 대답을 듣게 될까?

컴퓨터 : 눈이 두 개, 코는 하나, 입도 하나, 머리 길이는..
사람(남자) : 예쁘다

컴퓨터는 데이터를 저장하고 연산할 뿐, 사람처럼 이해하고 추론을 통해 평가하지 못한다는 사실은 보안을 비롯해서 많은 분야의 인공지능 적용에 큰 벽이 가로놓여 있음을 의미한다.

특히 보안 분야는 오랫동안 '패턴매칭'을 기반으로 발전(?)해왔으며, 특정 패턴의 존재 유무 또는 많고 적음이 아니라 해당 패턴의 맥락을 파악함으로써 정상과 비정상을 구분해왔다.

더 정확하게 얘기하면 패턴의 존재 유무 또는 많고 적음을 기준으로 컴퓨터가 1차 판단, 사람이 패턴의 맥락 파악을 통해 최종 판단하는 식. 정확한 판단을 위해서는 패턴에 대한 이해를 거쳐 옳고 그름에 대한 평가가 필요하다는 얘기.

그렇다면 알파고는 뭘 어떻게 한 걸까? 

초창기 인공지능은 'A이면 B하라'는 rule-base 방식이었다. 바로 전문가 시스템을 얘기하며, 보안 분야의 'A 패턴이면 탐지, B 패턴이면 회피' 식의 '패턴매칭'과 같다. 모든 경우의 수를 사람이 고려해야 하는 문제를 안고 있는 것까지 동일.

이후 인공지능은 통계적 추론 방식으로 발전했는데 단순히 통계로 분석하기 어려운 분야(이미지 알아 맞추기나 대화나 글의 주제 찾기 등)가 많아서 꽤 오랫동안 발전이 지지부진했다고 한다.

멍멍이를 찾으시오

통계적 추론 기반의 인공지능이 발전하기 위해서는 어마어마한 양의 데이터와 컴퓨팅 파워가 필요하다고. 결국 구글이 빅데이터와 클라우드 컴퓨팅으로 해냈다. 알파고가 (약 3천만 개의 포석으로 이루어진) 16만 개의 기보 데이터를 학습함으로써 이길 가능성이 높은 확률을 통계적으로 연산해낸 것이다.

데이터가 차곡차곡 쌓여있는 바둑 분야

이번 알파고 이벤트로 구글의 주가 총액이 58조원 이상 늘었다고 한다. 빅데이터와 인공지능을 단순히 사용하고 있다 정도가 아니라, 두 분야의 융합을 통해 인간을 이겨보인 결과다. 더 나은 결과를 증명해 보이는 것, 이런 게 진짜 마케팅이 아닐까?

답을 도출하기 쉬운 단순한 도메인이라면

그리고 데이터양만 충분하다면 컴퓨터도 통계적 추론(과거에 이랬으니 앞으로도 이럴 거야)을 할 수 있는 세상이 왔다. 하지만 패턴의 맥락이 적대적인지 또는 우호적인지에 대한 평가를 해줄 알파고는 아직은 요원해 보인다.

알파고도 못하는 게 많다

이런 상황에서 그저 알파고 특수에 편승한 인공지능 마케팅은 어떤 결과를 가져올까? 기존에도 '알아서 다 해준다'는 마케팅을 해왔는데 설익은 기술적 완성도를 가지고 어떤 차별화된 결과물을 내놓을 수 있을까? 보안 제품에 대한 불신만 가중되는 건 아닐까?

물론 더 나은 제품에 대한 연구 노력은 이어져야 한다. 개인적으로 인공지능 관련 글을 읽다 보니 관건은 결국 빅데이터인 듯하다. 통계적 추론 기반의 인공지능이 발전할 수 있었던 배경, 알파고가 가능했던 배경에는 어마어마한 양의 데이터를 수집하고 처리할 수 있는 빅데이터가 있었던 것.

알려진 공격을 방어하는 패턴매칭과는 별개로 알려지지 않은 공격, 즉 이상징후 분석 분야에 빅데이터를 활용해야 한다는 얘기를 했었다.

모든 공격 방법을 알아내는 건 불가능하기 때문에 빅데이터를 이용해서 정상과 비정상의 상태를 수치화하고, 이를 통해 통계적으로 구분 기준을 찾아야 한다는 뜻이다. 이때 패턴매칭 기반의 알려진 공격 방어가 병행되어야 함은 두 말 하면 잔소리.

보안 분야에 빅데이터 바람이 분지 꽤 됐다. 개인적으로 스몰 데이터부터 경험을 쌓을 필요가 있다고 보지만, 이왕 바람이 불어버린 거 잘 해봤으면 싶다. 게다가 빅데이터는 나름 기술 성숙도가 무르익은 상태에서 부각됐기 때문에 경영진의 올바른 이해와 지원만 끊기지 않는다면 성과를 만들어낼 가능성도 높다.

지속적으로 거품을 걷어내고 활용 분야를 확대해 나간다면, 그리고 데이터와 경험이 쌓인다면 언젠가는 인공지능으로 발전할 날도 오겠지. 그날이 오면 보안 알파고는 '51% 확률로 이상징후 발견', 뭐 이런 메시지를 뿌려줄 테고. (그러니 우선 빅데이터라도 좀 잘해보자)

그런 날이 오려면 

시스템과 특히 인력 인프라에 대한 지원이 필수이고, 그 인프라가 경보를 처리하고 분석하는 데 총력을 기울이게끔 해야 한다. 그래야 데이터와 경험이 쌓인다. 총력을 기울여야만 하는 일이 있다면 다른 일을 해서는 안 되는 것 아닐까?

카카오의 빅데이터

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스