동네 미용실을 운영하다 보면 손님들의 방문 패턴이 궁금해질 때가 있다. 매번 앞머리 커트만 하던 손님이 어느 날 갑자기 비싼 펌이나 염색을 하는 경우가 있기 때문이다. 만약 손님이 언제 큰돈을 쓸지 미리 예측해서 절묘한 타이밍에 할인 쿠폰을 보낼 수 있다면 미용실의 매출은 크게 뛸 것이다. 사람의 마음을 읽는 것은 불가능해 보이지만 데이터와 통계 모델을 활용하면 꽤 정확한 예측이 가능하다. 이때 활약하는 수학적 모델이 바로 마르코프 체인이다. 마르코프 체인은 과거의 복잡하고 긴 역사를 모두 따지는 대신 오직 현재의 상태만을 기준으로 바로 다음 상태가 어떻게 변할지 확률을 계산하는 기법이다. 예를 들어 미용실 고객 관리 프로그램에 기록된 데이터를 분석해 보니 커트를 한 손님이 다음번 방문 때 또 커트를 할 확률이 70퍼센트, 펌을 할 확률이 20퍼센트, 염색을 할 확률이 10퍼센트라는 규칙을 찾아내는 식이다. 이 모델을 적용하면 손님들의 이동 경로를 확률로 지도를 그리듯 파악할 수 있다. 펌을 한 손님이 다음번에는 모발 클리닉을 받을 확률이 높다는 것을 알게 되면 사장님은 펌 시술을 한 고객에게 한 달 뒤 클리닉 할인 문자를 자동으로 발송하도록 시스템을 설정할
동네 헬스장을 운영하는 사장님들에게 가장 중요한 자산은 '단골손님'이다. 1년 회원권을 갱신하고, PT를 추가로 등록하며, 주위 사람들에게 입소문을 내주는 이른바 'VIP' 고객들은 헬스장 수익의 핵심이다. 하지만 누가 VIP가 될지 미리 알 수는 없을까? 막연한 직감이나 경험에 의존하는 대신, 매장에 쌓인 고객 데이터를 활용하면 누가 단골이 될지 꽤 정확하게 예측할 수 있는 '공식'을 찾아낼 수 있다. 이때 가장 직관적이고 강력한 도구가 바로 머신러닝 알고리즘인 '의사결정나무(Decision Tree)'이다. 의사결정나무는 마치 어린 시절 친구들과 했던 '스무고개 놀이'와 같다. 수많은 데이터를 바탕으로 '예/아니오'라는 질문을 반복하며 데이터를 점점 더 작고 순수한 그룹으로 분류해 나가는 방식이다. 이 알고리즘의 가장 큰 장점은 분석 결과가 나뭇가지처럼 위에서 아래로 쪼개지는 형태로 나타나, 사장님이 한눈에 그 원리를 이해하고 실행에 옮길 수 있다는 것이다. 복잡한 수식 없이도 '왜 이 고객이 VIP로 분류되었는지' 그 이유를 명확하게 알 수 있다. 동네 헬스장의 고객 데이터를 의사결정나무 알고리즘에 학습시켜 보자. 데이터 전처리 과정을 통해 첫 방문 시
온라인 쇼핑몰이나 배달 앱을 운영하는 사람들은 늘 선택의 기로에 놓인다. 대표 메뉴의 사진을 먹음직스러운 확대 샷으로 할지 아니면 푸짐한 전체 상차림을 보여줄지 고민하는 식이다. 이때 많은 운영자가 지인의 의견을 묻거나 자신의 직감에 의존하여 사진을 바꾼다. 하지만 이런 방식은 자칫하면 잘 나오던 매출마저 떨어뜨릴 위험이 있다. 이럴 때 감이 아닌 데이터로 확실한 정답을 찾아내는 방법이 바로 A/B 테스트와 T-검정이다. A/B 테스트는 방문하는 고객을 무작위로 두 그룹으로 나누어 한 그룹에는 기존 사진을 보여주고 다른 그룹에는 새로운 사진을 보여주는 실험 방법이다. 며칠 동안 두 사진의 클릭 횟수나 실제 주문량을 비교해 보면 어떤 사진이 소비자의 지갑을 더 잘 여는지 객관적으로 파악할 수 있다. 하지만 여기서 한 가지 의문이 생긴다. 새로운 사진의 클릭 수가 약간 더 높게 나왔을 때 이것이 진짜 사진을 바꾼 효과인지 아니면 그날따라 우연히 주문이 많았던 것인지 어떻게 확신할 수 있을까. 이때 필요한 것이 통계학의 T-검정이다. T-검정은 두 그룹 사이의 매출이나 클릭률 차이가 단순한 우연인지 아니면 통계적으로 믿을 만한 진짜 의미 있는 차이인지를 수학적으로
온라인 쇼핑몰을 운영하는 사람들의 가장 큰 스트레스 중 하나는 장바구니에 물건을 잔뜩 담아두고 정작 결제는 하지 않고 나가는 고객들이다. 당장이라도 살 것처럼 이것저것 고르다가 마지막 순간에 이탈하는 이유는 무엇일까. 모든 이탈 고객에게 할인 쿠폰이 담긴 문자를 보내자니 비용이 만만치 않고, 가만히 두자니 다 잡은 물고기를 놓치는 것 같아 아쉽기만 하다. 이때 데이터 분석 기법을 활용하면 오늘 밤 반드시 지갑을 열 확률이 높은 고객만 족집게처럼 골라낼 수 있다. 이러한 문제를 해결할 때 가장 유용하게 쓰이는 머신러닝 알고리즘이 바로 로지스틱 회귀이다. 이름은 다소 복잡해 보이지만 원리는 간단하다. 고객의 다양한 행동 데이터를 바탕으로 이 사람이 최종적으로 물건을 살 것인지, 아니면 안 살 것인지 두 가지 결과 중 하나를 확률로 예측해 주는 통계 기술이다. 일반적인 선형 회귀가 매출액처럼 연속적인 숫자를 예측한다면, 로지스틱 회귀는 구매와 비구매처럼 둘 중 하나의 결과를 확률값으로 명확하게 나누어 준다. 예를 들어 고객이 쇼핑몰에 머문 시간, 과거 방문 횟수, 장바구니에 담은 상품의 총액, 리뷰 페이지를 읽은 횟수 등의 데이터를 로지스틱 회귀 모델에 입력한다.
온라인 쇼핑몰이나 동네 작은 식당을 운영하다 보면 매일 똑같은 고객 문의에 시달리게 된다. 주차장 위치, 환불 규정, 제품의 상세한 사용법 등 반복되는 질문에 일일이 대답하는 것은 엄청난 시간과 감정을 소모하는 일이다. 최근 유행하는 인공지능 챗봇을 도입하고 싶어도 기존의 언어 모델은 우리 가게만의 고유한 규칙을 알지 못해 엉뚱한 대답을 내놓는 경우가 많아 섣불리 적용하기 어려웠다. 이러한 문제를 완벽하게 해결해 주는 실무 인공지능 기술이 바로 검색 증강 생성, 줄여서 RAG 기술이다. 일반적인 대규모 언어 모델이 자신이 학습한 방대한 인터넷 지식에만 의존해 답변을 만들어내다 보니 거짓말을 지어내는 환각 현상이 발생한다. 하지만 RAG 기술은 인공지능에게 우리 가게의 매뉴얼을 쥐여주고 오픈북 테스트를 치르게 하는 것과 같다. 작동 원리는 간단하다. 사장님이 우리 가게의 환불 규정, 메뉴 설명서, 주차 안내문 등이 적힌 문서를 인공지능 시스템에 미리 업로드해 둔다. 이후 고객이 질문을 하면 인공지능은 무작정 대답을 지어내는 것이 아니라 업로드된 문서 더미에서 질문과 가장 관련 있는 내용을 먼저 검색해서 찾는다. 그리고 찾아낸 정확한 매뉴얼 내용을 바탕으로 고객
물가가 오르면서 동네 상점 운영자들의 고민이 깊어지고 있다. 원재료 가격은 매일같이 오르는데 메뉴 가격을 올리자니 단골손님들의 발길이 끊길까 두렵기 때문이다. 커피값을 500원 올렸을 때 손님이 얼마나 줄어들지 미리 알 수 있다면 한결 마음 편하게 결정을 내릴 수 있을 것이다. 막연한 감이나 두려움 대신 데이터와 통계를 활용하면 이 질문에 대한 꽤 정확한 답을 얻을 수 있다. 이때 사용할 수 있는 가장 기본적이고 강력한 도구가 바로 선형 회귀 분석이다. 선형 회귀란 두 가지 데이터 사이의 관계를 하나의 직선으로 그어 설명하는 통계 기법이다. 예를 들어 카페의 과거 결제 내역을 모아 가로축에는 커피 가격을, 세로축에는 하루 판매량을 놓고 점을 찍어본다고 생각할 수 있다. 할인 행사를 해서 가격이 낮았던 날에는 판매량 점이 높게 찍히고, 제값에 팔았던 날에는 점이 다소 낮게 찍힐 것이다. 이렇게 흩뿌려진 수많은 점들 사이를 관통하는 가장 합리적인 하나의 예측 직선을 그리는 것이 선형 회귀의 핵심이다. 이 직선의 기울기가 바로 가격 탄력성, 즉 가격이 오를 때 판매량이 얼마나 줄어드는지를 나타내는 객관적인 지표가 된다. 복잡한 시스템 구축 없이 과거의 가격과 판매
식당을 운영하는 사람들의 가장 큰 골칫거리 중 하나는 매일 남아서 버려지는 식자재다. 재료를 적게 준비하면 손님을 돌려보내야 하고, 많이 준비하면 몽땅 쓰레기통으로 향하기 때문이다. 내일 비가 오면 파전이 얼마나 더 팔릴지, 주말에는 삼겹살이 몇 인분이나 필요할지 미리 알 수 있다면 얼마나 좋을까. 과거에는 오랜 장사 경험과 직감에 의존했지만, 이제는 시계열 예측이라는 데이터 분석 기술이 이 문제를 훌륭하게 해결하고 있다. 시계열 예측은 시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 패턴을 알아내는 통계 기법이다. 식당의 결제 기기에는 매일 어떤 메뉴가 몇 개 팔렸는지 상세한 기록이 남는다. 이 판매량 데이터에 날씨, 요일, 공휴일 여부 같은 외부 환경 데이터를 결합하여 인공지능 알고리즘에 학습시킨다. 이때 주로 사용되는 것이 아리마나 프로펫 같은 수요 예측 모델이다. 이 알고리즘들은 단순히 어제 많이 팔렸으니 오늘도 많이 팔릴 것이라고 주먹구구식으로 짐작하지 않는다. 작년 이맘때의 판매량 흐름, 요일마다 반복되는 규칙적인 패턴, 비가 오거나 기온이 뚝 떨어졌을 때 특정 메뉴의 수요가 급증하는 미세한 변화까지 수학적으로 정교하게 계산해 낸다. 예를 들어
동네 식당이나 온라인 쇼핑몰을 운영할 때 단골을 늘리기 위해 흔히 사용하는 방법이 바로 할인 쿠폰 지급이다. 하지만 모든 고객에게 무작정 쿠폰을 뿌리는 것은 오히려 독이 될 수 있다. 쿠폰이 없어도 어차피 물건을 샀을 고객에게까지 할인을 제공하여 아까운 수익을 깎아 먹기 때문이다. 반대로 쿠폰을 주지 않으면 절대 지갑을 열지 않을 고객도 있다. 한정된 예산 안에서 마케팅 비용의 낭비를 막으려면 바로 이 후자의 고객들을 정확히 찾아내야 한다. 이러한 고민을 해결해 주는 데이터 분석 기법이 바로 인과추론과 업리프트 모델링이다. 과거의 머신러닝이 단순히 이 고객이 물건을 살까 안 살까를 예측했다면, 인과추론은 쿠폰이라는 원인이 구매라는 결과에 얼마나 직접적인 영향을 미쳤는지를 따져보는 통계 기술이다. 업리프트 모델링은 이 인과추론을 바탕으로 전체 고객을 네 가지 그룹으로 나눈다. 첫 번째는 쿠폰과 상관없이 무조건 구매할 고객, 두 번째는 쿠폰을 줘도 절대 구매하지 않을 고객, 세 번째는 쿠폰을 주면 오히려 귀찮아하며 이탈할 고객, 그리고 마지막 네 번째가 바로 쿠폰을 받아야만 구매를 결정할 설득 가능한 고객이다. 사장님이 집중해야 할 대상은 오직 이 네 번째 그룹
동네 골목에 자리 잡은 작은 빵집이 대형 프랜차이즈와 경쟁하기 위해서는 자신만의 독특한 매력, 즉 브랜드 정체성이 필요하다. 하지만 멋진 로고를 만들고 캐릭터를 디자인하는 일은 소상공인에게 만만치 않은 비용과 시간이 드는 숙제다. 최근에는 인공지능 기술이 이 어려운 브랜딩 과정을 누구나 쉽게 시도할 수 있는 창작의 영역으로 바꾸어 놓고 있다. 그 시작은 매일 쌓이는 고객들의 영수증 리뷰 데이터에서 출발한다. 텍스트 마이닝 기술은 수많은 고객이 남긴 리뷰 글에서 의미 있는 패턴을 찾아내는 자연어 처리 기법이다. 고객들이 무심코 남긴 리뷰를 분석 알고리즘에 넣으면 불필요한 조사와 접속사는 걸러지고 따뜻한, 포근한, 어릴 적 추억이 떠오르는 같은 감성적인 형용사들만 추출된다. 이렇게 뽑아낸 핵심 단어들은 워드 클라우드라는 시각화 기법을 통해 빈도수가 높을수록 더 큰 글씨로 화면에 나타나며, 우리 가게만의 고유한 분위기를 직관적으로 보여준다. 데이터 분석으로 찾아낸 이 감성 키워드들은 이제 이미지 생성 인공지능의 훌륭한 재료가 된다. 텍스트를 이미지로 변환하는 확산 모델 기반의 생성형 인공지능에 포근한 오븐, 밀가루를 반죽하는 귀여운 곰돌이, 따뜻한 색감과 같은 수
소규모 게스트하우스나 파티룸을 운영할 때 가장 어려운 결정 중 하나는 하루의 숙박 요금을 정하는 일이다. 평일과 주말, 성수기와 비수기의 요금을 다르게 받는 것은 기본이지만, 날씨나 주변 지역의 축제, 심지어는 예약이 채워지는 속도에 따라 적정 가격은 매일 달라진다. 과거에는 주변 숙소의 가격을 일일이 검색해 보고 눈치껏 요금을 올리거나 내렸다면, 이제는 데이터 분석 기반의 탄력 요금제가 그 해답을 제시하고 있다. 탄력 요금제, 즉 다이내믹 프라이싱의 핵심은 수요의 변화를 미리 예측하는 머신러닝 기술에 있다. 이를 위해 먼저 과거의 예약 데이터, 주변 행사의 일정, 기상청의 날씨 예보 등 다양한 외부 변수를 하나의 데이터 세트로 모으는 전처리 과정을 거친다. 이렇게 모인 복잡한 변수들은 의사결정 나무라는 머신러닝 알고리즘에 입력된다. 의사결정 나무는 마치 스무고개 놀이를 하듯, 주말인가, 비가 오는가, 주변에 대형 콘서트가 있는가 등의 질문을 거치며 최적의 가격을 찾아가는 예측 모델이다. 여기에 여러 개의 의사결정 나무를 숲처럼 묶어 예측의 정확도를 높이는 앙상블 기법을 적용하면, 데이터의 불확실성을 크게 줄일 수 있다. 모델이 꼼꼼하게 학습을 마치면, 내일
동네 헬스장이나 필라테스 학원을 운영하는 사람들에게 가장 큰 고민 중 하나는 말없이 등록을 연장하지 않는 회원들이다. 새로운 회원을 유치하는 것보다 기존 회원을 유지하는 것이 훨씬 경제적이지만, 누가 언제 운동을 그만둘지 미리 알아채기란 쉽지 않다. 과거에는 운영자의 직감에 의존해 안부를 묻는 것이 전부였으나, 이제는 머신러닝 기술이 회원들의 이탈 시그널을 미리 포착해 내고 있다. 비결은 매일 쌓이는 출입 데이터와 시설 이용 기록에 있다. 회원의 주간 방문 횟수, 평균 체류 시간, 마지막 방문일로부터 지난 시간 등의 원시 데이터를 수치화하는 가공 과정을 거친다. 이렇게 정리된 데이터는 머신러닝의 분류 모델 중 하나인 로지스틱 회귀 알고리즘에 입력된다. 로지스틱 회귀는 특정 사건이 일어날 확률을 0과 1 사이의 값으로 예측하는 통계 기법으로, 이 경우에는 특정 회원이 다음 달에 재등록을 하지 않을 확률을 계산하는 데 사용된다. 알고리즘은 수많은 과거 회원의 행동 패턴을 학습하여 이탈의 전조 증상을 찾아낸다. 예를 들어 일주일에 세 번 오던 회원이 한 번으로 방문을 줄이거나, 런닝머신 이용 시간이 절반으로 급감하는 패턴을 위험 신호로 인식하는 것이다. 분석 결과
푸드트럭을 창업하거나 동네에 작은 가게를 열 때 가장 중요한 것은 자리, 즉 입지 선정이다. 과거에는 유동 인구가 많아 보이는 길목에 서서 직접 사람들의 숫자를 세어보거나 주변 사람들의 조언과 개인의 직감에 의존해야 했다. 하지만 이제는 인공지능과 데이터 분석 기술이 가장 장사가 잘될 이른바 대박 자리를 과학적으로 찾아주는 시대가 되었다. 이 과정의 핵심은 지도 위에서 발생하는 다양한 공간 데이터를 분석하는 것이다. 통신사 기지국을 통해 수집된 시간대별 유동 인구 데이터, 주변 상가들의 신용카드 결제 위치, 대중교통 승하차 정보 등이 지도 위의 좌표 형태로 수집된다. 이렇게 모인 방대한 정보는 컴퓨터가 이해할 수 있는 숫자로 변환되는 전처리 과정을 거친다. 수치화된 공간 데이터는 커널 밀도 추정이라는 통계 분석 기법을 통해 가공된다. 이 기법은 개별적으로 흩어져 있는 사람들의 위치 데이터를 바탕으로 특정 지역에 인구가 얼마나 빽빽하게 밀집해 있는지를 연속적인 확률 분포로 계산해낸다. 즉, 단순히 사람이 몇 명 지나갔는지가 아니라, 잠재적인 고객들이 어느 지점을 중심으로 가장 강하게 응집해 있는지를 수학적으로 분석하는 것이다. 이렇게 분석된 결과는 히트맵이라는
동네 카페나 식당을 운영하다 보면 매일 오던 손님이 어느 순간 보이지 않거나, 어쩌다 한 번 와서 큰 금액을 결제하는 손님을 만나게 된다. 모든 손님에게 똑같은 서비스와 쿠폰을 제공하는 것은 비용 대비 효율이 떨어진다. 이때 매장의 결제 기기에 고스란히 쌓여 있는 결제 데이터를 활용하면 손님들의 숨겨진 패턴을 찾아내고 맞춤형 마케팅을 펼칠 수 있다. 이 과정을 위해 먼저 데이터를 가공하는 작업이 필요하다. 주로 고객이 얼마나 최근에 방문했는지, 얼마나 자주 방문하는지, 그리고 얼마나 많은 돈을 썼는지를 수치화하는 분석 기법을 사용한다. 이렇게 정리된 데이터는 인공지능 머신러닝의 한 분야인 비지도 학습, 그중에서도 군집화 알고리즘을 거치게 된다. 군집화는 정답이 없는 상태에서 데이터 자체의 유사성을 바탕으로 비슷한 특징을 가진 무리를 만들어주는 기술이다. 알고리즘이 수많은 결제 데이터를 분석하면 손님들은 몇 개의 의미 있는 그룹으로 나뉜다. 예를 들어 매일 아침 커피를 한 잔씩 사는 출근족 그룹, 한 달에 한 번 오지만 올 때마다 디저트를 대량으로 구매하는 큰손 그룹, 그리고 최근 발길이 뜸해진 이탈 예상 그룹 등으로 묶이는 것이다. 이렇게 분류된 결과는 점들
동네 빵집을 운영하는 사람들의 가장 큰 고민 중 하나는 매일 아침 얼마나 많은 빵을 구워야 할지 결정하는 일이다. 빵을 너무 적게 구우면 늦게 온 손님들이 발길을 돌려야 하고, 반대로 너무 많이 구우면 남은 빵을 고스란히 버려야 하기 때문이다. 과거에는 오로지 오랜 경험과 직감에 의존해 그날의 생산량을 정했지만 이제는 데이터 분석 기술이 이 까다로운 숙제를 대신 해결해주고 있다. 그 비결은 바로 시간의 흐름에 따라 기록된 시계열 데이터와 주변 환경 변수를 결합하는 분석 기법에 있다. 빵집의 결제 기기에는 매일의 판매량이 시간대별로 고스란히 저장된다. 여기에 기상청의 날씨 데이터인 기온, 강수량과 달력의 요일, 공휴일 정보를 하나의 데이터 세트로 묶는 전처리 과정을 거친다. 이렇게 정제된 데이터는 다중 선형 회귀라는 통계 모델이나 머신러닝 알고리즘의 학습 재료로 사용된다. 알고리즘은 과거의 데이터를 분석하여 숨겨진 규칙을 찾아낸다. 비가 오는 주말에는 외출이 줄어 식빵이나 바게트 같은 식사 대용 빵의 판매가 늘어나고, 화창한 평일 오후에는 달콤한 디저트류의 판매가 급증한다는 식의 패턴을 수학적으로 계산해내는 것이다. 모델 학습이 완료되면 내일의 날씨 예보와 요
현대 사회에서 사람들은 소셜 미디어를 통해 끊임없이 관계를 맺고 정보를 주고받는다. 겉보기에는 수많은 글과 사진이 무작위로 흩어져 있는 것 같지만, 그 이면에는 사람과 사람을 잇는 거대하고 정교한 연결고리가 존재한다. 이 보이지 않는 구조를 파악하고 눈으로 볼 수 있게 만드는 기술이 바로 네트워크 분석과 시각화이다. 네트워크 분석은 수학의 그래프 이론을 바탕으로 한다. 이 분석에서 개별 사용자는 하나의 점, 즉 노드가 되고 사용자 간의 관계인 팔로우, 좋아요, 공유 등은 점들을 연결하는 선, 즉 엣지가 된다. 수만 명의 데이터가 이러한 점과 선의 결합으로 변환되면, 복잡한 사회적 상호작용이 하나의 거대한 거미줄 형태를 띠게 된다. 이렇게 가공된 데이터는 누가 가장 중심에 있는지, 정보가 어떤 경로를 타고 확산되는지 명확하게 보여준다. 데이터 시각화는 이 복잡한 거미줄에 생명력을 불어넣는다. 수많은 선이 교차하는 중심부에는 정보의 흐름을 주도하는 이른바 핵심 인플루언서가 위치한다. 시각화 과정에서 이 중심 노드는 다른 노드들보다 크고 밝은 색상으로 표현되어 한눈에 파악할 수 있도록 가공된다. 반면, 서로 촘촘하게 얽힌 노드 무리들은 특정한 관심사로 뭉친 커뮤니