대형 마트나 온라인 쇼핑몰에 접속하면 우리가 평소 필요로 하던 물건들이 약속이라도 한 듯 나란히 추천되는 것을 볼 수 있다. 이는 단순한 우연이 아니라 방대한 결제 데이터를 가공하고 분석하여 소비자도 모르는 구매 패턴을 찾아낸 결과이다.
데이터 사이언스 분야에서는 이를 장바구니 분석이라 부르며 그 핵심에는 연관 규칙 학습이라는 통계적 방법이 자리 잡고 있다.

장바구니 분석의 가장 유명한 사례는 기저귀와 맥주의 상관관계이다. 데이터를 분석해 보니 퇴근길에 아내의 부탁으로 기저귀를 사러 온 남편들이 보상 심리로 맥주를 함께 구매하는 경향이 뚜렷하게 나타난 것이다.
이러한 유의미한 규칙을 찾아내기 위해 분석가들은 세 가지 주요 지표를 활용한다. 얼마나 자주 같이 팔리는지를 나타내는 지지도, A를 샀을 때 B를 살 확률인 신뢰도, 그리고 두 상품의 연관성이 우연인지 실제 관계인지를 측정하는 향상도가 그것이다.
이 과정에서 데이터 전처리는 필수적인 단계이다. 수백만 건의 영수증 데이터에는 개별 상품명부터 결제 시간, 매장 위치 등 복잡한 정보가 섞여 있다. 분석 모델이 학습하기 좋게 상품들을 카테고리로 묶거나 중복 데이터를 제거하는 가공 과정을 거쳐야만 비로소 정확한 통계 수치를 얻을 수 있다.
딥러닝 기법이 발달하면서 최근에는 단순한 상품 조합을 넘어 고객의 이동 경로와 체류 시간까지 함께 분석하여 더욱 정교한 추천 모델을 만든다.
결국 장바구니 분석은 복잡한 숫자들 속에서 인간의 욕망과 습관을 읽어내는 기술이다. 데이터 시각화를 통해 거미줄처럼 얽힌 상품 간의 연결 고리를 확인하면 기업은 매장 진열을 바꾸거나 맞춤형 쿠폰을 발행하는 등 효율적인 전략을 세울 수 있다. 데이터가 읽어내는 우리의 독심술은 이미 우리의 일상 깊숙이 들어와 쇼핑의 지형을 바꾸고 있다.
[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]










