2018년 7월 1일 일요일

벌거벗은 통계학

저자 찰스 윌런(Charles Wheelan). 사람들이 통계의 거짓과 진실을 잘 구분할 수 있게 되기를 희망한다고.

가끔 복잡해보이는 수식이 등장하기도 하지만, 크게 신경쓰지 않아도 무리없이 술술 잘 읽힌다. 다음은 저자가 주의를 당부하는 통계 함정들 중 인상깊었던 몇 가지.

분석 단위의 함정

한마디로 최대한 자신에게 유리한 방향으로 통계를 이용하는 행위.

기업법인세 실효세율에 대해 이재명 성남시장은 12%라고 주장했고 전원책 변호사는 16%가 넘는다고 반박... 한 사람은 국내 10대 기업의 실효세율을 기준으로 했고 다른 사람은 전체 기업을 기준으로 잡았기 때문

사람들 자기편 만들어 보겠다고 둘 다 본인 주장에 유리한 통계만 얘기하고 있다. 가장 흔한, 통계로 장난치는 사례. 이런 장난에 넘어가지 않으려면 어떻게 해야 하나?
누가 혹은 무엇이 묘사되고 있으며, 이는 다른 사람이 말하는 
'누구 '  혹은 '무엇 '과 다르지 않은가? (87페이지)

하지만 해당 분야 전문가가 아니고서야 처음부터 말해주지 않는 걸 알아낼 재간이 있나. 일단 의심하고 보는 수밖에(..)

정확성과 정밀성의 함정
답이 정확할 때는 정밀성이 높을수록 좋다. 하지만 아무리 정밀해져도 부정확한 것이 정확해지지는 않는다 (81페이지)

그런가? 쉬운 계산이 가능하다면 그쪽을 선택하는 게 과학계의 FM 아니었나? 뭐 계산이 복잡하다고 해서 무조건 정답은 아니라는, 답은 맞는데 원했던 답은 아닐 수 있다는 얘기를 하는 듯.

저자는 2008년 금융 위기 이전까지 금융사들이 위험도를 측정하는 데 사용한 수학 모델 VaR(Value at Risk)을 예로 든다.
VaR에 내재된 정밀도가 잘못된 안도감을 불러일으켰다 (178페이지)

무슨 뜻일까? VaR 모델에 입력된 데이터가 호경기 시절 20년 간의 자료였기 때문에 2008년 금융 위기를 예측할 수 없었다는, 과거에 좋았으니 미래도 계속 좋을거라 예측하다 폭망했다는 얘기. 그리고 자연스럽게 이어지는

쓰레기를 넣으면 쓰레기가 나온다

개인적으로 종교는 없지만, GIGO(Garbage In, Garbage Out)교가 생긴다면 열혈 신도가 될 생각(..) 쓰레기를 분석하지 않으려면 어떻게 해야 할까?

데이터를 모으기 쉽지 않았던 과거에는 무작위 샘플링만이 살 길이었다고 한다. 특히 편향 가능성을 줄이기 위한 무작위가 핵심. 데이터를 많이 모아본들 컴퓨팅 파워가 딸려 계산도 힘들었고.

하지만 지금은 소녀시대빅데이터 시대. 무지막지한 데이터가 모이고 있고, 컴퓨팅 파워도 짱짱하다. 이제 문제는 없을까? 다양한 편향 때문에 여전히 좋은 데이터는 구하기 어렵다고. 예를 들면, 부정적인 연구 결과는 그리 매력적이지 않기 때문에 사람들에게 노출조차 힘들어지는 '출판 편향' 같은 것.
항우울제의 약효가 긍정적으로 나온 연구는 94퍼센트나 발표된 반면, 긍정적이지 않은 결과를 얻은 연구는 14퍼센트만 발표 (219페이지)

비관주의는 어딜 가나 환영받지 못하는구나. 하긴 이래서 어렵고, 저래서 힘들다는 얘기보다는 기술도 선도하고, 인재도 양성하고, 일자리도 창출한다고 떠들어야 지갑이 열리지. 한 3년 빼먹다 자연스레 묻힐만한 아이템 어디 없나? -_-

이 아이템 끌린다

결국 쓰레기를 분석하기 싫다면 목적을 정확히 이해한 후, 그 목적에 맞는 데이터를 선택해야 한다. 다음은 분석 데이터 선정의 중요성을 강조하기 위해 자주 하고 다니는 얘기.
선거 출구 조사 정확도를 높이는 방법은 간단하다. 투표 한 사람에게만 질문하면 된다. 투표 안 한 사람이 분석 대상에 포함되면 엉터리 결과가 나온다

어느 분야나 목적에 맞는 데이터를 수집하는 일은 어려운 모양이다. 
선거 여론조사의 성패는 선거일에 투표하지 않은 사람을 제외하고 투표할 사람을 고르는 데 달려 있다 (311페이지)

읽다 보면 내가 일하는 분야에서도 참고할만한 얘기가 많다. 최근 몇 년간 화두가 (빅데이터, 인공지능으로 포장된) 데이터 분석이고, 데이터 분석은 통계분석이니 어쩌면 당연한 결과.

사실 2012년 빅데이터붐이 일기 전까지 내가 주로 하는 일이 통계 비스무리하다는 생각(그래봐야 개수나 세는 수준)은 했지만, 감히 데이터 분석을 한다는 생각은 못했었다.
그런데 하도 사방에서 빅데이터, 빅데이터 떠들길래 책 좀 사보고 하다가 문득 이런 생각이 들더라. 어, 이제보니 내가 하는 것도 빅데이터!? 

책 제목에 슬쩍 빅데이터를 끼워넣게 된 계기. 물론 하둡 얘기 한 줄 없는 주제에 빅데이터를 들먹인다며, SKY 중 한 대학 교수로부터 사기꾼 소리를 듣기도 했다. 그 교수 요샌 뭐 하려나? 제목에 인공지능 들어간 책 사모으고 있으려나?

긍정오류와 부정오류

가장 눈이 번쩍 했던 대목.
긍정오류(false positive)와 부정오류(false negative), 어떤 오류가 더 나쁜가? 답은 상황에 따라 달라진다... 
중요한 이메일을 놓치는 (긍정오류) 비용과 스팸 메시지를 가끔 받는 비용을 비교해볼 때 아마 사람들은 대부분 부정오류(스팸 허용)에 더 관대할 것 
...환자와 의사에게 부정오류(환자를 멀쩡하다고)가 생길 가능성을 피하기 위해 긍정오류(멀쩡한데 환자라고)를 어느 정도 허용할 의향이 있다 (283페이지)

보안 분야에서 긍정오류와 부정오류, 정상을 공격으로 판단하는 오탐과 공격을 알아채지 못하는 미탐 중 뭐가 더 나쁠까?

룰 정확도가 높으면 오탐이 줄어드는 대신 미탐이 늘어날 가능성이 높다. 룰 정확도가 낮으면 (조금만 비슷해도 다 걸리니깐) 미탐은 줄어들 수 있지만, 오탐이 왕창 늘어날 것이다. 당신의 선택은?

개인적으로 룰 정확도를 높여 알려진 공격부터 막아야 한다고 생각한다. 오탐에 묻혀서 뻔히 알려진 공격조차 못 막으면 너무 억울하잖아.

모르는데 어떻게 막아요

사고 터진 후 뒷수습 잘 하는 것도 중요하니 오탐 대박 늘더라도 미탐을 최소화하는 방향으로 갈 수도 있지 않냐고? 오탐이 너무 많으면 아예 사고 여부를 알기 힘들텐데?

다음은 인공지능 보안시스템 구축한다는 어느 보안 사업 제안요청서에 박혀있는 문구. 근데 이런 내용은 기밀로 취급해야 하지 않나? 해커들이 보면 꽤나 좋아할텐데(..)

모두의 관심밖이던 문제가 인공지능 유행 덕에 단박에 공개되는 현장을 보고 있자니 만감이 교차한다. 어쨌든 알파고야 고맙다.

보안 이벤트가 하루 백만 건이라 가정해도 90%는 손도 못 대고 있는, 유지하고 있는 게 신기한 상황이다. 해커가 알려주기 전에 사고 발생 사실을 알 수 있을까? 일한 티 내기 제일 좋은 뒷수습을 위해서라도 오탐은 줄여야 한다.

나가며

이 책은 여러 통계학 개념들을 나름 쉽고 재밌게 알려준다. 분명 통계는 멋지다. 하지만 통계를 쓰는 이유가 진정 문제 해결에 도움이 돼서인지, 아니면 그저 멋져 보여서는 아닌지 생각해볼 필요는 있지 않을까 싶다. 기억에 남는 문구를 남긴다.
환자 사망률을 낮추는 가장 쉬운 방법은 심각한 병세를 보이는 환자들의 수술을 거부하는 것 (109페이지)

사람들은 쉬운 대답을 사랑한다. 가장 좋은 학교는 어디인가? 바로 1위에 오른 학교 (113페이지)

상관관계가 인과관계를 내포하지 않는다 (124페이지)

마약 밀수업자를 100번 중 80번 정확하게 확인할 수 있는 모델을 구축할 수 있다면, 그 모델이 20퍼센트의 불행한 사람들을 끊임없이 괴롭힐 터... 우리가 무엇을 계산하고 있으며 왜 그 계산을 하고 있는지에 대한 생각을 멈추지 말아야 한다" (197페이지)

관련 책

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스