중국 IT 스타는 앤드류 응밖에 몰랐는데, 중국의 IT 파워를 새삼 느끼게 해준 책.
'기계학습과 침입탐지: 문법 추론 결과'를 보다 멘붕에 빠진 후, 해당 논문을 이해하려면 자연어 처리 분야에 대한 이해가 먼저인 것 같아 보게 됐다.
총 31장에 걸쳐서 검색, 광고 등의 예제를 보여주고, 문제를 해결하는 데 사용된 알고리즘과 수학 이론을 설명하는 구조.
살짝 쫄았지만 각 장의 연관성이 적어서 크게 부담도 안 되고, 설명도 그리 딱딱하지 않아서 수식 무시하고 읽었음에도 이해하는 데 별로 어렵지 않다?
전반적으로 자연어 처리 알고리즘의 배경이 되는 수학 이론에 대한 이야기. 일단 1950년대부터 자연어 처리 연구가 시작됐다고 한다. 1946년에 에니악이 나왔으니 거의 컴퓨터 만들자마자 인공지능 도전(..)
초창기 인공지능은 'A이면 B하라'는 rule-base 방식이었다. 바로 전문가 시스템을 얘기하며, 보안 분야의 'A 패턴이면 탐지, B 패턴이면 회피' 식의 '패턴매칭'과 같다. 모든 경우의 수를 사람이 고려해야 하는 문제를 안고 있는 것까지 동일.
그 이후엔 다들 아는 것처럼 인공지능 사망. 그러다가
1970년 이후에는 통계언어학이 등장하면서 자연어 처리가 다시 새 생명을 얻고 현재와 같은 뛰어난 성과를 거두게 되었다 (57페이지)
부침이 있었지만 결국 컴퓨터 성능 향상, 데이터 증가에 의해 통계 기반 방법론의 효과가 뚜렷해지면서 규칙 기반 방법론은 완전히 백기를 들었다고.
자연어는 아니지만
사람이 읽을 수 있는 문자열을 처리하는 건 비슷한데 보안 분야는 왜 여전히 규칙 기반 패턴매칭을 붙들고 있을까? 물론 통계 분석 비중이 늘고 있는 것 같긴 하지만(..)
기계번역에서 가장 어려운 두 문제 중 하나는 단어의 중의성 문제... 부시(Bush)는 전 미국 대통령의 이름일 수도 있고, 덤불일 수도... 부시(Bush)와 함께 출현하는 상호정보량이 가장 큰 단어들을 찾는다... 앞뒤 문맥에서 어느 쪽이 연관된 단어가 많은지를 살펴보면 된다 (117페이지)
7음계란 표현 수단의 한계에 의해 표절 시비가 끊이지 않는 음악계처럼, 정상과 비정상 트래픽이 서로 다른 표현 수단을 쓰지 않는 이상 (중의성 문제는 반드시 발생) - IDS와 보안관제의 완성 (87페이지)
텍스트 정규화를 통해 비정형 원시데이터를 정형 데이터로 바꾸면 룰이 탐지하고자 하는 문자열 패턴과 주변 패턴 간의 체계적인 연관 분석이 가능 - IDS와 보안관제의 완성 (197페이지)
아무래도 기술은 돈을 많이 벌 수 있는 분야부터 발전하는 게 당연하기도 하고, 이미지 인식/기계번역 등의 기술은 좀 틀려도 대세에 영향을 주지 않는 정도면 크게 문제없으니 적극적으로 달려드는 듯. 번역 좀 틀린다고 사는 데 지장 없으니까.
반면 보안은 좀 틀렸을 때 어떤 결과로 이어질지 애매하긴 하다. 근데 사실 지금도 엄청 틀리는데 사는 데 별 지장 없잖아(..) 역시 돈 문제인가? 다른 분야에서 벌만큼 벌면 보안 분야에서도 개선을 시도하겠지.
재밌게 읽은 대목
다음은 논문 분류 아이디어에서 시작했다는 뉴스 분류 알고리즘.
두 뉴스가 같은 유형에 속할 경우, 몇몇 차원에서 두 뉴스의 고유벡터 값은 크고 다른 차원에서의 값은 작다. 반대로 두 뉴스가 같은 유형에 속하지 않는 경우, 사용하는 단어가 다르므로 고유벡터 값이 큰 차원들은 겹칠 수 없다. 따라서 두 뉴스의 주제가 근접한지 여부가 고유벡터의 '유사성' 여부를 결정 (199페이지)
기울기가 비슷하면 의미도 비슷하다 |
코사인 법칙으로 동작하는 알고리즘이라고 한다. 이거 IDS의 정/오탐 분류에도 써먹을 수 있을 것 같은데? 하지만 얼싸안코만 기억나는 난 안 될거야. -_-
내가 이런 생각을 할 정도면 더 똑똑한 사람들이 이미 적용해봤겠지. 비슷한 국내 사례를 들어본 적이 없으니 미국도 재미를 못봤나 봄. 아니면 이것 역시 돈 많이 버는 분야의 발전을 기다려야 하나?
한 번 읽어본 소감은 수학의 아름다움까지는 모르겠고, 그저 구글이 GOD. 그리고 무서운 중국. 누가 이런 말을 했다고 한다.
권력은 소수의 엘리트가 차지할 것이다. 권력이 그들 손에 들어가는 이유는, 그들은 수학을 알고 당신은 모르기 때문
맞는 말도 같고, 아닌 것도 같고. 꼭 알아야 할까? 수학자를 고용할만큼 돈만 많음 되잖아? 근데 난 돈도 없(..)
댓글 없음:
댓글 쓰기