케세라세라: 데이터 시인성

2020년 9월 13일 일요일

데이터 시인성

다음 차트는 웹 요청 메소드별 발생 추이를 보여준다. 그런데 GET 메소드 발생량에 묻혀서 다른 메소드의 발생 추이 확인이 어렵다.

이럴 때는 보통 필터를 걸어서 해결하곤 한다. 다음처럼 GET 메소드 제외 필터를 걸면 다른 메소드의 발생량 확인 가능.

Y축 스케일 유형을 바꾸면

데이터 시인성을 높일 수도 있다. 다음 차트는 Log 스케일 유형을 사용한 결과.

’10->20’과 ‘190->200’의 변화량은 10으로 같지만, 비율은 각각 50%와 5% 차이. ’10->20’과 ‘190->200’의 변화를 똑같은 크기로 표시하는 선형 스케일과 달리 Log 스케일은 ‘10:1’의 비율을 적용하기 때문에 수치 비교가 좀 더 쉬워질 수 있다.

참고로 제곱근(Square root) 스케일 유형도 있는데, 적용 결과는 다음과 같다. 작은 값의 시인성이 조금 나아지는 것 같은데 ~~Log도 그렇고~~ 원리는 잘 모르겠다. 학교 다닐 때 배웠을텐데(..)

아예 차트 유형을 바꾸는 게

시인성 향상에 도움이 될 수도 있다. 다음은 같은 데이터를 히트맵으로 표현한 결과. 발생량 차이에 관계 없이 모든 데이터의 수치 변화를 한 눈에 파악할 수 있다.

그런데 히트맵은 색 변화를 기본 4단계로 표시한다. 자세히 보면 0부터 7,500을 같은 색으로 표시하고 있다. 이러면 수치 비교가 어려운데?

물론 관련 옵션을 이용해서 다음처럼 색조 변화 단계를 10단계까지 늘릴 수는 있지만, '0~7,500'이나 '0~3,000'이나 비교가 어렵긴 마찬가지.

같은 정보라도 차트 유형에 따라 데이터 시인성은 달라질 수 있으며, 심지어 분석가의 취향(?)에 따라서도 달라질 수 있다. 각 차트의 장단점 비교를 통해 최적의 시인성을 구하는 시도는 필수.

관련 글

데이터 시인성 - 2nd

Easy to analyze -- if you're curious about data

페이지

2020년 9월 13일 일요일

데이터 시인성

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스