대형 마트나 온라인 쇼핑몰에 접속하면 우리가 평소 필요로 하던 물건들이 약속이라도 한 듯 나란히 추천되는 것을 볼 수 있다. 이는 단순한 우연이 아니라 방대한 결제 데이터를 가공하고 분석하여 소비자도 모르는 구매 패턴을 찾아낸 결과이다. 데이터 사이언스 분야에서는 이를 장바구니 분석이라 부르며 그 핵심에는 연관 규칙 학습이라는 통계적 방법이 자리 잡고 있다. 장바구니 분석의 가장 유명한 사례는 기저귀와 맥주의 상관관계이다. 데이터를 분석해 보니 퇴근길에 아내의 부탁으로 기저귀를 사러 온 남편들이 보상 심리로 맥주를 함께 구매하는 경향이 뚜렷하게 나타난 것이다. 이러한 유의미한 규칙을 찾아내기 위해 분석가들은 세 가지 주요 지표를 활용한다. 얼마나 자주 같이 팔리는지를 나타내는 지지도, A를 샀을 때 B를 살 확률인 신뢰도, 그리고 두 상품의 연관성이 우연인지 실제 관계인지를 측정하는 향상도가 그것이다. 이 과정에서 데이터 전처리는 필수적인 단계이다. 수백만 건의 영수증 데이터에는 개별 상품명부터 결제 시간, 매장 위치 등 복잡한 정보가 섞여 있다. 분석 모델이 학습하기 좋게 상품들을 카테고리로 묶거나 중복 데이터를 제거하는 가공 과정을 거쳐야만 비로소 정확한
데이터를 다루다 보면 두 개의 숫자가 마치 친구처럼 함께 움직이는 것을 자주 보게 된다. 하나가 늘면 다른 하나도 늘고, 하나가 줄면 다른 하나도 줄어드는 현상이다. 우리는 이것을 '상관관계'가 있다고 말한다. 예를 들어, 여름철 아이스크림 판매량이 늘어나면 수영장에서의 익사 사고도 늘어나는 경향을 보인다. 그렇다면 아이스크림이 익사 사고의 원인일까? 물론 아니다. 여기서 우리가 주의해야 할 중요한 개념이 바로 '인과관계'이다. 인과관계는 한 사건이 다른 사건의 직접적인 원인이 될 때 성립한다. 아이스크림 판매량과 익사 사고의 상관관계는 '더위'라는 제3의 요인 때문에 발생한다. 날씨가 더워지면 사람들이 아이스크림을 더 많이 먹고, 동시에 물놀이도 더 많이 하게 되므로 익사 사고의 위험도 자연스레 증가하는 것이다. 아이스크림이 직접적으로 익사 사고를 유발하는 것이 아니며, 이 둘은 단지 '상관'만 있을 뿐 '인과' 관계는 없는 것이다. 데이터 분석에서 이러한 상관관계와 인과관계를 명확히 구분하는 것은 매우 중요하다. 만약 상관관계만을 보고 인과관계로 오해한다면, 잘못된 정책이나 사업 결정을 내릴 수 있다. 기업이 아이스크림 판매를 줄여 익사 사고를 막으려 한