2015년 3월 4일 수요일

제목에 대한 변명

책을 출간한지 거의 2년 만에(-_-) 출판사로부터 2쇄 인쇄 준비를 해달라는 연락을 받았다. 연락을 받고나서 처음 든 생각은 드디어 '제목에 대한 변명(?)을 할 수 있겠구나' 였다.

책 제목이 무려 '빅데이터 분석으로 살펴본 IDS와 보안관제의 완성'이어서였을까? 하둡에 대한 언급이 없다는 이유로 어느 독자로부터 비난을 받은 적이 있다. (‘빅데이터=하둡’인지는 둘째치고) 굳이 변명을 하자면 이렇다.

초고가 완성된 시점이 2012년 7월경이었는데, 그 때는 '빅데이터'란 키워드가 미디어를 점령하다시피 한 시기였다. 초고가 나오면서 살짝 한가해진 나는 빅데이터가 뭔가 싶어서 알아보기 시작했다.

시작은 구글이었다. 엄청난 양의 데이터를 처리해야했던 구글이 대용량 데이터를 저장하기 위한 분산 파일시스템 GFS를 개발했고, 2003년 논문으로 자랑질을 했는데 야후의 더그 커팅이 그 논문을 보고 2006년에 GFS를 모방한 HDFS, 즉 하둡을 개발한 것이다.

이후 다양한 하둡 프로젝트가 진행되고, 그 기술적 완성도가 높아지면서 2012년부터 주목도가 커진 듯하다. 그런데 그 주목의 정도가 열풍을 넘어 광풍이 불다보니 빅데이터에 대한 오해가 쌓인 듯 하다.

첫번째 오해

빅데이터는 전통적 데이터베이스 기술보다 절대 우수하다? 무분별한 마케팅의 결과지만 결론부터 얘기하면 빅데이터는 기존 관계형 데이터베이스, 즉 RDBMS를 이용한 데이터 관리체계를 완전하게 대체하지 못한다. RDBMS의 최대 장점은 데이터간 관계 연산(join)이 가능하다는 것이고, 최대 단점은 비용이다.

구글이 빅데이터를 시작한 이유는 '검색어'처럼 복잡한 관계 연산이 필요없는 데이터의 처리 비용을 낮추고 싶었기 때문. 결국 하둡으로 대표되는 NoSQL 기술로 효과적인 처리가 가능한 데이터는 양은 많지만 복잡한 관계 연산이 필요없는, 단순한 데이터에 한정된다. 빅데이터의 원래 목적은 전통적 RDBMS의 대체가 아니였던 것.

재미있는 사실은 SQL이 필요없다며 NoSQL을 표방하던 빅데이터가 다시 SQL과 가까워지기 위해 노력하고 있다는 것. SQL의 관계 분석 기능이 아쉬워진 것이다.

두번째 오해

데이터만 많으면 빅데이터? Nope! 정확한 데이터가 많아야 한다. 데이터를 많이 저장하고 빨리 꺼내볼 수만 있으면 빅데이터의 통찰력을 얻을 수 있을까?

몇가지 빅데이터 사례를 보자. 구글의 '독감 트렌드'는 독감 관련 검색어를 분석한 결과다. 사용자들이 구글을 골탕먹일 생각으로 일부러 검색하지 않는 이상 독감 관련 검색어는 '독감 트렌드'라는 목적에 부합하는, 정확한 데이터라는 뜻이다.

'구글 번역'은 어떤가? 'Apple'이 '사과'로 번역되는 이유는 'Apple'의 한글 번역 데이터중에서 '사과'로 번역된 데이터가 많기 때문이다. 만약 '호박'으로 번역된 부정확한 데이터가 많다면 'Apple'은 '호박'으로 번역될 뿐이다. 더 긴 말이 필요할까? 'Garbage in Garbage out' 이다.

youtube.com/watch?v=4ymo2hdRuQg

세번째 오해

사이즈가 커야 빅데이터다? 흔히들 테라바이트도 모자라서 (알파벳 1,000조 개를 저장할 수 있는) 페타바이트 단위 정도는 되어야 빅데이터라고들 얘기한다. 하지만 '빅데이터가 만드는 세상'의 저자 빅토르 마이어 쇤버거는 상대적인 개념이라고 얘기한다. (58 페이지)

기존에 사용하지 않았던, 또는 사용하지 못했던 데이터를 목적에 맞게 사용한다면, 또는 새로운 목적을 찾아낸다면, 그 데이터가 바로 빅데이터라고 얘기한다.

구체적으로 얘기하면 "데이터의 양은 상대적이며, 많고 적음에 상관없이 처리 역량을 초과하는 데이터 "가 빅데이터라는 것.

개인적으로 매우 공감하는 부분이며, 내가 책에서 주장하는 바 역시 데이터베이스에 고이 모셔만 놓고 활용하지 않았던 IDS 로그, 특히 비정형 데이터인 패킷 페이로드 데이터를 활용해야 하며, 데이터간 관계 분석(소위 상관분석)을 병행해서 정확한 데이터를 만들자는 것이다.

책 제목에 '빅데이터'가 들어가는 과정에는 이런 배경이 있었다. 사실 처음에는 무분별한 빅데이터 마케팅에 대한 반감으로 책 제목을 '스몰데이터 분석으로 살펴본 IDS와 보안관제의 완성'으로 하려 했었다. (빅데이터에 비하면 IDS 로그는 스몰이기도 하고)

하지만 눈꼽만큼이라도 판매에 도움을 주지 않을까 하는 유혹에 그만 넘어가버리고 말았다. 덕분에 그동안 단지 '빅데이터'란 단어때문에 책을 선택했을 독자들때문에 마음이 그리 편하지만은 않았었던 것 같다.

2쇄를 찍게 되면 빅데이터를 스몰데이터로 바꿀까? 말까? 고민이다.

사족
군대가기 전에 재미있게 읽었던, 10여 년의 상담 경험을 글로 엮은 '닫았다 열까 열었다 닫을까'란 책에 이런 구절이 나온다.

"나 자신과 나와 가까이 있는 사람들을 사랑하는 데 성공한다면 누구를 사랑하는 일에서도 성공할 것이지만, 만일 그 일에 실패한다면 누구를 사랑하는 데도 실패하리라. " (23 페이지)

남녀간의 사랑을 뛰어넘는 철학적 사랑을 얘기한 것이지만 일반적으로 해석하면 사랑도 능력이며 연습이 필요하다는, 고기도 먹어본 놈이 잘 먹고, 연애도 해본 놈이 잘한다는 얘기.

평소에 운전을 해본 적이 없다면 아무리 멋진 슈퍼카가 생겨도 그림의 떡일 뿐이다. 우리가 늘상 주위에 존재하던 스몰 데이터를 제대로 분석해본 경험이 없다면 무슨 수로 빅데이터를 분석할 수 있을까?

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스