평균의 함정: 빌 게이츠가 우리 교실에 들어온다면?

숫자에 속지 않기 위한 데이터 문해력의 시작

"우리 반 학생들의 평균 용돈은 얼마일까?"라는 질문을 받으면 우리는 자연스럽게 모든 학생의 용돈을 더한 뒤 학생 수로 나누는 '평균'을 떠올린다. 이처럼 평균은 대푯값으로 가장 널리 쓰이지만, 때로는 현실을 완전히 왜곡하는 거짓말쟁이가 될 수도 있다.

 

 

상상을 한 번 해보자. 평범한 우리 교실에 갑자기 세계적인 부자인 빌 게이츠가 전학을 왔다. 그리고 우리 반 학생들의 '평균 재산'을 다시 계산해 본다. 아마도 우리 반 학생 모두가 억만장자인 것처럼 평균값이 치솟을 것이다.

 

하지만 실제로 내 주머니 사정이 나아진 것은 아니다. 빌 게이츠라는 극단적으로 큰 값(이상치) 하나가 전체 평균을 엉뚱한 방향으로 끌고 갔기 때문이다.

 

이럴 때 필요한 것이 바로 '중앙값'이다. 학생들을 재산 순서대로 줄 세웠을 때, 정확히 한가운데에 있는 학생의 재산이 바로 중앙값이다. 빌 게이츠가 아무리 부자여도 그는 맨 끝에 줄을 서게 될 뿐, 가운데에 있는 평범한 학생의 값은 변하지 않는다. 따라서 소득이나 집값처럼 격차가 큰 데이터를 다룰 때는 평균보다 중앙값이 훨씬 더 정확한 현실을 보여준다.

 

데이터 분석에서는 어떤 값을 대푯값으로 쓸지 결정하는 것이 매우 중요하다. 뉴스에서 "평균 연봉이 올랐다"고 할 때, 정말로 대다수 사람들의 살림살이가 나아진 것인지 아니면 소수 부자의 소득만 폭등한 것인지 의심해 봐야 한다.

 

숫자는 거짓말을 하지 않지만, 숫자를 보여주는 방식은 우리를 속일 수 있다. 평균이라는 달콤한 함정에 빠지지 않으려면, 그 뒤에 숨은 중앙값과 분포를 함께 보는 지혜가 필요하다.

 

[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]