2017년 4월 8일 토요일

데이터 분석이 쉬워지는 정규표현식

두 번째 책을 출간했다. 물론 두 번째라 쉬울 줄 알았던 예상은 완전 계산 착오. 작년 10월 탈고 후, 6개월간 6년은 더 늙은 듯. ㅜㅜ

주제는 정규표현식이다. IDS처럼 너무 오래된, 그래서 인기 없는 그런 기술. 알면 좋지만, 몰라도 크게 불편하지 않다는 인식이 많은 편?

"개발자에게 정말 좋은데, 참 좋은데..."

'처음 시작하는 정규표현식' 뒷면을 장식하고 있는 문구. 이 좋은 걸 왜 안 쓰냐는 저자(?)의 안타까운 심정을 느낄 수 있다.

집필 내내 비슷한 심정이었다.

"개발자에게만 좋은 게 아닌데..."

데이터 분석툴로 떠오르는 R이나 파이썬을 포함한 많은 프로그래밍 언어들, 그리고 다양한 빅데이터 환경에서 정규표현식을 지원한다.




사실 데이터를 다루는 대부분의 컴퓨터 환경에서 정규표현식을 지원한다. 그리고 정규표현식이 문자열 처리에 강점을 가지고 있으며, 컴퓨터가 처리하는 모든 데이터는 결국 '문자열'이란 사실에서 그 이유를 찾을 수 있다.


데이터를 원본 그대로 활용할 수 있다면 참 좋겠지만 안타깝게도 그런 경우는 별로 없기 때문. 벼가 쌀이, 다시 밥이 되기까지 여러 과정을 거쳐야만 하듯, 데이터 역시 여러 가공 과정이 필요하게 마련이다.

문제는 이 과정이 그리 만만치 않다는 것. 데이터를 원하는 목적에 활용 가능한 형태로 가공하는 데 가장 많은 자원이 집중되는 이유가 여기에 있다.

msdn.microsoft.com/en-us/library/mt422593.aspx

수집한 데이터를 분석에 적합한 형태로 다듬고 정제하는 수고로움을 감수해야만 우아한 결과를 얻을 수 있기 때문.

텍스트 의미망 분석 과정

다음 슬라이드는 실제 작업 과정. 사실 이것도 줄인다고 줄였는데(..)


세상만사 다 그렇듯, 데이터 분석 역시 노가다를 피하기 어렵다. 그러나 정규표현식을 이용하면 데이터 노가다가 조금은 수월해지며, 심지어 프로그래밍이나 빅데이터를 몰라도 데이터 분석이 가능해진다. 문자열 데이터가 뛰어봐야 정규표현식 손바닥 안이기 때문.

"To master regular expressions is to master your data" - Mastering Regular Expressions(O'Reilly)

쌓여만 가는 로그에 답답함을 느끼는 이들에게, 넘쳐나는 데이터에 대한 궁금증을 조금이라도 쉽게 해결하고 싶어하는 이들에게 이 책이 도움이 되기를 바란다.

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스