스포츠 경기를 관람하다 보면 중계 화면에 선수의 움직임을 빨간색과 파란색의 얼룩 같은 모양으로 나타낸 그림이 보인다. 이것이 바로 히트맵(Heat Map)이다. 히트맵은 특정 지역에 발생한 사건의 빈도를 온도를 나타내는 색상으로 시각화한 데이터 가공 방식이다. 열을 뜻하는 Heat와 지도를 뜻하는 Map이 합쳐진 이름처럼 사건이 많이 발생한 곳은 뜨거운 빨간색으로, 적게 발생한 곳은 차가운 파란색으로 표현한다. 축구 경기에서 히트맵은 선수가 경기장 어느 구역에서 가장 오래 머물렀고 어디서 공을 자주 찼는지 한눈에 보여준다. 단순히 선수가 열심히 뛰었다는 느낌을 넘어, 오른쪽 측면 공격에 집중했는지 아니면 중앙 수비에 치중했는지를 수치화된 색상으로 증명하는 것이다. 감독들은 이 데이터를 가공하여 상대 팀 선수의 이동 경로를 파악하고, 우리 팀의 수비 구멍을 찾아내어 다음 경기를 위한 맞춤형 전략을 세운다. 농구에서도 히트맵의 활약은 대단하다. 선수가 코트의 어느 지점에서 슛을 던졌을 때 성공 확률이 높은지 시각화하면, 그 선수의 핫 존(Hot Zone)이 드러난다. 공격 시에는 슛 성공률이 높은 빨간색 지점으로 공을 배달하고, 수비 시에는 상대 에이스가 선호하
현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등