우리는 흔히 평균이나 표준편차 같은 통계 수치만 확인하면 데이터를 완벽하게 이해했다고 착각하기 쉽다. 하지만 숫자가 보여주는 요약 정보 뒤에는 전혀 예상하지 못한 반전이 숨어 있기도 한다. 이를 가장 명확하게 보여주는 사례가 바로 앤스컴의 4인조 데이터이다. 통계학자 프랜시스 앤스컴이 고안한 이 자료는 네 가지의 서로 다른 데이터 집합으로 구성되어 있다. 놀라운 점은 네 집합의 평균, 분산, 상관계수 등 모든 통계 수치가 소수점 아래 자리까지 거의 일치한다는 사실이다. 만약 우리가 그래프를 그려보지 않고 숫자만 보고 받았다면, 이 네 가지 데이터가 모두 비슷한 성질을 가졌을 것이라고 판단했을 것이다. 그러나 막상 이 데이터들을 평면 위에 점으로 찍어 시각화해보면 완전히 다른 모습이 나타난다. 첫 번째 집합은 평범한 선형 관계를 보이지만, 다른 집합들은 곡선 형태를 띠거나 특정 지점에만 데이터가 몰려 있는 등 전혀 다른 패턴을 가진다. 심지어 한두 개의 튀는 데이터 때문에 전체 통계치가 왜곡된 경우도 발견된다. 이는 시각화 과정 없이 숫자만으로 의사결정을 내리는 것이 얼마나 위험한지를 단적으로 보여주는 예시이다. 데이터 시각화는 단순히 정보를 예쁘게 꾸미는 작
우리는 매일 뉴스나 인터넷 기사를 통해 수많은 그래프를 접한다. 복잡한 숫자 더미보다 한 장의 그래프가 정보를 훨씬 빠르고 명확하게 전달하기 때문이다. 하지만 시각화된 자료가 언제나 진실만을 말하는 것은 아니다. 때로는 제작자의 의도에 따라 데이터가 실제보다 과장되거나 축소되어 전달되기도 한다. 이것을 이른바 나쁜 시각화라고 부른다. 가장 대표적인 왜곡 수법은 그래프의 세로축을 조작하는 것이다. 보통 막대그래프는 수치의 바닥인 0에서부터 시작해야 한다. 그러나 특정 수치를 강조하고 싶은 제작자가 축의 시작점을 0이 아닌 높은 숫자로 설정하면, 아주 작은 차이도 마치 엄청난 격차가 벌어진 것처럼 보이게 된다. 반대로 수치의 변화를 숨기고 싶을 때는 축의 간격을 매우 넓게 설정하여 완만한 직선처럼 보이게 만들기도 한다. 또한 3차원 입체 그래프를 사용하는 경우에도 착시 현상이 발생한다. 원형 그래프를 비스듬하게 눕히면 앞쪽에 위치한 조각이 실제 비율보다 훨씬 크게 느껴지는 효과가 나타난다. 이는 독자가 데이터의 실제 크기를 비교하는 데 혼란을 준다. 단순히 멋을 내기 위해 선택한 디자인 요소가 정보의 본질을 가리는 셈이다. 착한 시각화란 단순히 화려한 그림을 그