우리가 평소처럼 신용카드를 사용하다가 갑자기 해외에서 거액이 결제되거나 평소 소비 패턴과 전혀 다른 거래가 발생하면 카드사로부터 확인 요청이 오곤 한다. 수조 건의 결제 데이터 속에서 단 몇 건의 수상한 거래를 실시간으로 찾아내는 이 기술의 정체는 바로 이상 탐지이다. 이는 방대한 데이터를 가공하여 정상적인 범위를 설정하고, 그 경계를 벗어나는 아주 미세한 뒤틀림을 통계적으로 잡아내는 인공지능의 감각이다. 이상 탐지의 첫걸음은 정상 상태의 데이터를 정의하는 정교한 가공 과정에 있다. 시스템은 사용자의 평소 결제 시간, 장소, 금액, 업종 등을 시계열 데이터로 수집하고 전처리한다. 이 과정에서 개인의 평균적인 생활 패턴이 하나의 수치화된 지도로 그려진다. 통계적 모델은 이 지도를 바탕으로 데이터가 밀집된 정상 영역을 설정하는데, 만약 새롭게 입력된 데이터가 이 영역에서 멀리 떨어진 외딴곳에 찍힌다면 이를 이상 징후로 판단한다. 이 기술은 금융 보안을 넘어 산업 현장에서도 빛을 발한다. 공장의 기계에 부착된 센서 데이터를 실시간으로 가공하여 진동이나 온도의 미세한 변화를 분석한다. 겉으로는 멀쩡해 보이는 장비라도 데이터상에서 평소와 다른 미세한 파동이 감지되면
현대인은 스마트폰과 컴퓨터를 통해 매일 엄청난 양의 데이터를 생성한다. 이 데이터는 일상생활부터 기업 경영, 국가 정책 결정에 이르기까지 핵심적인 역할을 수행한다. 하지만 수집된 기초 데이터가 처음부터 완벽하게 유용할 것이라는 생각은 오해이다. 실제 세계의 데이터는 예상보다 훨씬 지저분하고 오류가 많으며 누락된 정보도 포함한다. 이는 쓰레기 더미 속에 숨겨진 보물을 찾는 과정과 유사하다. 엉망인 데이터를 깨끗하고 분석하기 쉬운 형태로 만드는 과정을 데이터 클렌징(Data Cleansing) 또는 데이터 정제라고 부른다. 이는 데이터 분석의 첫 단계이자 가장 중요한 과정이다. 아무리 좋은 분석 도구를 사용해도 입력되는 데이터가 쓰레기라면 결과물도 쓰레기일 수밖에 없다는 가비지 인, 가비지 아웃(Garbage In, Garbage Out)의 원리가 여기에 적용된다. 데이터 클렌징은 크게 세 가지 유형의 문제를 해결하는 데 집중한다. 첫째는 결측치(Missing Value) 처리이다. 설문조사 응답 누락이나 기기 오작동으로 인해 비어 있는 값을 평균값으로 채우거나 제외하는 과정이다. 둘째는 오류 데이터(Error Data) 수정이다. 나이가 200살로 입력되는 등
"우리 반 학생들의 평균 용돈은 얼마일까?"라는 질문을 받으면 우리는 자연스럽게 모든 학생의 용돈을 더한 뒤 학생 수로 나누는 '평균'을 떠올린다. 이처럼 평균은 대푯값으로 가장 널리 쓰이지만, 때로는 현실을 완전히 왜곡하는 거짓말쟁이가 될 수도 있다. 상상을 한 번 해보자. 평범한 우리 교실에 갑자기 세계적인 부자인 빌 게이츠가 전학을 왔다. 그리고 우리 반 학생들의 '평균 재산'을 다시 계산해 본다. 아마도 우리 반 학생 모두가 억만장자인 것처럼 평균값이 치솟을 것이다. 하지만 실제로 내 주머니 사정이 나아진 것은 아니다. 빌 게이츠라는 극단적으로 큰 값(이상치) 하나가 전체 평균을 엉뚱한 방향으로 끌고 갔기 때문이다. 이럴 때 필요한 것이 바로 '중앙값'이다. 학생들을 재산 순서대로 줄 세웠을 때, 정확히 한가운데에 있는 학생의 재산이 바로 중앙값이다. 빌 게이츠가 아무리 부자여도 그는 맨 끝에 줄을 서게 될 뿐, 가운데에 있는 평범한 학생의 값은 변하지 않는다. 따라서 소득이나 집값처럼 격차가 큰 데이터를 다룰 때는 평균보다 중앙값이 훨씬 더 정확한 현실을 보여준다. 데이터 분석에서는 어떤 값을 대푯값으로 쓸지 결정하는 것이 매우 중요하다. 뉴스에서