수많은 사람들이 오가는 대형 백화점이나 온라인 쇼핑몰에는 이름표가 붙어 있지 않은 방대한 고객 데이터가 쌓인다. 누가 어떤 취향을 가졌는지 명확한 정답이 없는 상태에서, 기업들은 어떻게 비슷한 성향의 사람들을 찾아내어 맞춤형 서비스를 제공할 수 있을까. 그 해답은 머신러닝의 한 분야인 비지도 학습, 특히 군집 분석이라는 데이터 가공 기술에 숨어 있다. 군집 분석은 정답을 가르쳐주지 않아도 인공지능이 알아서 데이터의 특징을 파악해 비슷한 것들끼리 무리를 지어주는 알고리즘이다. 가장 널리 쓰이는 방법 중 하나인 케이 평균 알고리즘을 예로 들면 그 원리는 생각보다 단순하다. 컴퓨터는 먼저 데이터를 가상의 공간에 점으로 흩뿌린 뒤, 임의의 중심점들을 몇 개 잡는다. 그리고 각 데이터가 어느 중심점과 통계적으로 가장 가까운지 거리를 계산하여 무리를 짓는 과정을 반복한다. 이러한 거리 계산이 정확하게 이루어지기 위해서는 데이터 전처리가 필수적이다. 나이, 구매 금액, 방문 횟수 등 단위와 크기가 전혀 다른 데이터들을 그대로 사용하면 왜곡이 발생하기 때문이다. 따라서 모든 수치를 일정한 기준으로 맞추는 정규화 작업을 거쳐야만 인공지능이 거리를 공평하게 측정할 수 있다.
지금 이 글을 읽고 있는 여러분의 손 아래 있는 키보드를 가만히 살펴보자. 수십 개의 자판 중에서 유독 'F' 와 'J' 키(한글 자판의 'ㄹ'과 'ㅓ') 위에만 작고 볼록한 가로 돌기가 튀어나와 있는 것을 발견할 수 있을 것이다. 모든 키보드가 전 세계적으로 이 표준을 따르고 있다. 도대체 이 좁쌀만 한 돌기는 왜 하필 이 두 자리에만 붙어 있는 것일까? 단순히 디자인 포인트일까? 경영학과 생산관리에서는 이를 인간의 신체적 특성을 고려하여 도구와 기계를 설계하는 위대한 기술, '인간공학(Ergonomics)'의 핵심 원리로 설명한다. 과거 키보드가 없던 시절, 타자기로 글을 치던 작업자들에게 가장 큰 고민은 '오타(불량)'였다. 오타를 줄이려면 자판을 일일이 눈으로 확인하며 쳐야 했는데, 이는 작업 속도를 엄청나게 떨어뜨리는 '시간 낭비'를 가져왔다. 반대로 자판을 보지 않고 화면(모니터)만 보며 빠르게 치는 '자리 연습'을 하자니, 손가락이 자판 위에서 길을 잃어 엉뚱한 키를 누르기 일쑤였다. 이때 인간공학자가 제시한 해결책이 바로 'F'와 'J' 키 위의 돌기였다. 이 돌기는 자판을 보지 않고도 손가락 끝의 예민한 '감각'만으로 양손의 '기준점'을 찾게
우리의 손목 위에서 쉼 없이 움직이는 스마트워치는 단순한 시계 이상의 역할을 수행한다. 심박수, 혈중 산소포도, 수면 단계와 같은 미세한 생체 정보들이 초 단위로 수집되어 데이터의 바다를 이룬다. 이렇게 수집된 원시 데이터는 그 자체로는 불규칙한 숫자의 나열에 불과하지만, 정교한 가공 과정을 거치면 우리의 건강 상태를 알려주는 소중한 지표로 탈바꿈한다. 헬스케어 데이터 가공의 핵심은 실시간으로 유입되는 방대한 정보 속에서 노이즈를 제거하는 전처리 기술에 있다. 운동 중의 급격한 움직임이나 기기 착용 상태에 따라 발생하는 오차를 통계적 방법으로 걸러내야만 정확한 분석이 가능하다. 이렇게 정제된 데이터는 머신러닝 알고리즘을 통해 개인의 평소 건강 패턴을 학습한다. 인공지능은 사용자의 과거 기록과 대조하여 평소보다 심박수가 비정상적으로 높거나 수면의 질이 급격히 떨어지는 순간을 이상 징후로 포착한다. 데이터 사이언스는 단순히 질병을 사후에 진단하는 것을 넘어 미리 예측하고 예방하는 단계로 나아가고 있다. 수만 명의 유사한 건강 데이터를 비교 분석하여 특정 질환이 발생하기 전의 공통적인 데이터 변화를 찾아내는 것이다. 이러한 복잡한 분석 결과는 직관적인 시각화 도구
누구나 한 번쯤 조별 과제를 하며 분통을 터뜨린 경험이 있을 것이다. 자료 조사 담당은 하루 만에 완벽한 데이터를 찾아왔고, 발표 담당도 일찌감치 대본을 다 외웠다. 그런데 PPT 제작을 맡은 '이 친구'가 마감 전날 밤까지 감감무소식이다. 결국 나머지 팀원들이 아무리 일을 빨리 끝냈어도 조별 과제의 최종 완성은 PPT가 나오는 순간까지 멈춰버리고 만다. 경영학과 생산관리에서는 이 답답한 상황을 이스라엘의 물리학자 엘리야후 골드랫(Eliyahu M. Goldratt)이 창시한 '제약 이론(Theory of Constraints, TOC)'과 '병목 현상(Bottleneck)'으로 완벽하게 설명한다. '병목(Bottleneck)'이란 말 그대로 물병의 좁은 목 부분을 뜻한다. 병의 몸통이 아무리 넓고 물이 가득 차 있어도, 결국 물이 쏟아져 나오는 속도는 가장 좁은 병목의 크기가 결정해버린다. 명절 연휴 고속도로에서 4차선이 1차선으로 줄어드는 구간을 상상해 보자. 뒤에서 차들이 시속 100km로 쌩쌩 달려와도, 1차선 구간에 진입하는 순간 모든 차의 속도는 시속 10km로 떨어지게 된다. 공장의 생산 라인도 마찬가지다. 부품을 조립하는 A공정이 하루에 100
우리가 평소처럼 신용카드를 사용하다가 갑자기 해외에서 거액이 결제되거나 평소 소비 패턴과 전혀 다른 거래가 발생하면 카드사로부터 확인 요청이 오곤 한다. 수조 건의 결제 데이터 속에서 단 몇 건의 수상한 거래를 실시간으로 찾아내는 이 기술의 정체는 바로 이상 탐지이다. 이는 방대한 데이터를 가공하여 정상적인 범위를 설정하고, 그 경계를 벗어나는 아주 미세한 뒤틀림을 통계적으로 잡아내는 인공지능의 감각이다. 이상 탐지의 첫걸음은 정상 상태의 데이터를 정의하는 정교한 가공 과정에 있다. 시스템은 사용자의 평소 결제 시간, 장소, 금액, 업종 등을 시계열 데이터로 수집하고 전처리한다. 이 과정에서 개인의 평균적인 생활 패턴이 하나의 수치화된 지도로 그려진다. 통계적 모델은 이 지도를 바탕으로 데이터가 밀집된 정상 영역을 설정하는데, 만약 새롭게 입력된 데이터가 이 영역에서 멀리 떨어진 외딴곳에 찍힌다면 이를 이상 징후로 판단한다. 이 기술은 금융 보안을 넘어 산업 현장에서도 빛을 발한다. 공장의 기계에 부착된 센서 데이터를 실시간으로 가공하여 진동이나 온도의 미세한 변화를 분석한다. 겉으로는 멀쩡해 보이는 장비라도 데이터상에서 평소와 다른 미세한 파동이 감지되면
깔끔하게 관리되는 자동차 정비소나 장인의 공방에 가보면 벽면에 걸린 공구판(섀도우 보드, Shadow Board)을 흔히 볼 수 있다. 렌치, 망치, 드라이버 등 수많은 공구가 걸려 있는데, 재미있는 점은 공구를 빼내면 벽면에 그 공구와 똑같이 생긴 테두리 그림이 그려져 있다는 것이다. 단순히 보기에 예쁘라고 그려놓은 것일까? 아니다. 생산관리에서는 이를 공장의 생산성을 극적으로 끌어올리는 위대한 발명품, '눈으로 보는 관리(Visual Management)'와 '5S 운동'의 핵심으로 꼽는다. 공장이나 작업장에서 발생하는 가장 크고 치명적인 낭비는 무엇일까? 바로 '물건을 찾는 데 쓰는 시간'이다. 작업자가 10mm 스패너 하나를 찾기 위해 공구함을 뒤적이는 데 5분을 쓴다고 가정해 보자. 작업자 100명이 하루에 한 번씩만 공구를 찾아 헤매도 매일 500분이라는 막대한 생산 시간이 공중으로 증발해 버린다. 아무리 좋은 기계를 들여놓아도, 정작 작업자가 나사를 조일 드라이버를 찾지 못하면 컨베이어 벨트는 멈춰 설 수밖에 없다. 이 거대한 낭비를 없애기 위해 일본 도요타 자동차에서 시작된 것이 바로 '5S 운동'이다. 정리(Sort), 정돈(Set in or
컴퓨터는 태생적으로 숫자만을 이해하는 기계이다. 하지만 오늘날의 인공지능은 우리가 일상적으로 사용하는 언어인 자연어를 능숙하게 주고받으며 질문에 답하고 글을 쓴다. 딱딱한 기계가 어떻게 인간의 복잡 미묘한 문장을 이해하는 것일까. 그 비밀은 문자를 정교한 수치 데이터로 변환하고 가공하는 자연어 처리 기술에 숨어 있다. 단순히 글자를 입력받는 것을 넘어 의미를 파악하기 위해서는 먼저 텍스트를 정제하는 전처리 과정이 필요하다. 문장에서 의미 없는 조사나 구두점을 제거하고 단어의 뿌리가 되는 어근만을 남기는 토큰화 작업을 거친다. 이렇게 쪼개진 단어들은 숫자로 치환되는데, 과거에는 단순히 순서대로 번호를 매겼다면 현대의 인공지능은 단어를 벡터라고 불리는 수천 차원의 공간상 좌표로 변환한다. 이 가공 방식의 핵심은 비슷한 의미를 가진 단어들을 공간상에서 가깝게 배치하는 통계적 학습에 있다. 예를 들어 왕과 여왕이라는 단어는 공간상에서 비슷한 위치에 놓이게 되며, 이들 사이의 거리와 방향을 계산하면 단어 간의 관계를 수치로 파악할 수 있다. 컴퓨터는 문장을 읽는 것이 아니라 수많은 숫자 좌표들 사이의 거리를 측정하며 문맥을 이해하는 셈이다. 잘 가공된 단어의 좌표값들
새로 지은 아파트나 요리 프로그램의 주방을 유심히 살펴보면 한 가지 공통점을 발견할 수 있다. 바로 식재료를 꺼내는 '냉장고', 씻고 다듬는 '싱크대', 그리고 불로 조리하는 '가스레인지(인덕션)'가 항상 보이지 않는 '삼각형(Work Triangle)'을 이루고 있다는 점이다. 이것은 단순한 인테리어 유행이 아니다. 경영학과 생산관리에서는 이를 작업자의 불필요한 동선을 줄여 생산성을 극대화하는 '동작 경제의 원칙(Principles of Motion Economy)'으로 설명한다. 이 원칙은 20세기 초, 미국의 프랭크 길브레스(Frank Gilbreth)와 릴리안 길브레스(Lillian Gilbreth) 부부의 재미있는 연구에서 시작되었다. 프랭크는 건설 현장에서 벽돌공들이 벽돌을 쌓을 때마다 허리를 굽혀 바닥에서 벽돌을 짚고 일어나는 행동에 엄청난 체력과 시간이 낭비된다는 것을 깨달았다. 그는 벽돌의 높이를 작업자의 허리춤에 맞추고 도구의 위치를 재배치했다. 그 결과, 벽돌 하나를 쌓는 데 필요했던 18번의 동작이 단 4.5번으로 줄어들었고, 작업자들은 이전보다 덜 피곤해하면서도 하루에 3배나 많은 벽돌을 쌓을 수 있게 되었다. 즉, '더 열심히' 일한
우리가 매일 사용하는 이메일함에는 보이지 않는 파수꾼이 살고 있다. 바로 스팸 메일 차단 시스템이다. 광고나 사기성 메일이 수시로 쏟아짐에도 불구하고 우리의 편지함이 비교적 깨끗하게 유지되는 비결은 머신러닝이 데이터를 정교하게 가공하여 숫자로 분류하기 때문이다. 컴퓨터는 이메일의 내용을 읽고 감정을 느끼는 것이 아니라, 텍스트를 통계적 수치로 변환하여 스팸 여부를 판단한다. 스팸 분류의 첫 단계는 텍스트 데이터의 전처리이다. 컴퓨터는 문장 전체를 그대로 이해하기 어렵기 때문에 문장을 단어 단위로 쪼개는 과정을 거친다. 의미 없는 조사나 기호를 제거하고 단어의 원형만을 남기는 정제 과정을 거치면 비로소 분석을 위한 준비가 끝난다. 이렇게 가공된 데이터는 각 단어가 스팸 메일과 정상 메일에 나타날 확률을 계산하는 통계 모델에 입력된다. 여기에 사용되는 대표적인 기법이 베이즈 정리라는 통계적 방법이다. 예를 들어 '무료', '당첨', '광고'와 같은 단어가 포함되었을 때 해당 메일이 스팸일 확률을 과거 데이터를 바탕으로 계산하는 식이다. 머신러닝 모델은 수만 건의 데이터를 학습하며 특정 단어 조합이 나타날 때의 위험 수치를 정밀하게 다듬는다. 단순히 단어 하나만
처음에는 그저 인터넷 강의를 듣거나 필기를 하려고 아이패드(iPad)를 샀을 뿐이다. 그런데 아이패드를 쓰다 보니 스마트폰도 아이폰으로 바꾸고 싶어지고, 그다음엔 에어팟을 사고, 결국 손목에는 애플워치까지 차게 된다. 내 통장이 텅텅 비어가는 줄도 모르고 왜 자꾸 한 브랜드의 제품만 고집하게 되는 걸까? 단순히 사과 모양 로고가 예뻐서는 아니다. 경영학에서는 이 현상을 고객을 옴짝달싹 못 하게 가둬버리는 '잠금 효과(Lock-in Effect)'라는 치밀한 비즈니스 전략으로 설명한다. 잠금 효과란, 소비자가 특정 기업의 제품이나 서비스를 한 번 이용하기 시작하면 다른 경쟁사로 갈아타기 어려워져 계속해서 그 기업의 고객으로 남게 되는 현상을 말한다. 고객을 자물쇠로 꽉 잠가버리는 이 마법의 핵심은 바로 '전환 비용(Switching Cost)'에 있다. 전환 비용은 단순히 물건을 새로 사는 '돈'만을 의미하지 않는다. 기존에 쓰던 기기에서 새로운 기기로 사진과 연락처를 옮기는 귀찮음, 새로 산 기기의 작동법을 다시 배워야 하는 시간, 그리고 기존에 결제했던 앱이나 유료 서비스를 포기해야 하는 심리적 아쉬움까지 모두 포함된다. 애플은 이 '전환 비용'을 극대화하
우리가 스마트폰으로 사진을 찍을 때 인공지능이 자동으로 사람의 얼굴이나 풍경을 인식하는 것은 이제 일상이 되었다. 컴퓨터는 인간처럼 눈으로 세상을 보는 것이 아니라 사진을 수많은 숫자의 집합으로 받아들인다. 이러한 이미지 데이터를 효과적으로 가공하고 분석하여 사물을 식별해내는 핵심 기술이 바로 합성곱 신경망, 즉 CNN이다. 이미지는 수천, 수만 개의 작은 점인 픽셀로 이루어져 있으며 각 픽셀은 색상 정보를 담은 숫자로 표현된다. CNN의 첫 번째 단계는 이 거대한 숫자 판에서 유의미한 특징을 찾아내는 전처리 과정이다. 필터라고 불리는 작은 격자가 이미지를 훑으며 선, 면, 대각선과 같은 기초적인 시각 정보를 추출한다. 이 과정에서 복잡한 원본 데이터는 사물의 특징만 강조된 정제된 데이터로 변환된다. 추출된 특징들은 여러 층의 신경망을 거치며 더욱 구체화된다. 처음에는 단순한 직선이나 곡선을 구분하던 데이터가 층을 깊게 통과할수록 눈, 코, 입과 같은 구체적인 형태를 형성하게 된다. 이는 마치 화가가 밑그림을 그리고 점차 세부 묘사를 더해가는 과정과 유사하다. 데이터 사이언티스트들은 이 과정에서 데이터의 크기를 줄여 핵심 정보만 남기는 풀링 작업을 통해 분석
주말을 앞두고 대형 마트 전단지에 '국내산 삼겹살 100g에 990원!', 혹은 '프랜차이즈 반값 당당치킨!' 같은 파격적인 할인 광고가 붙는 것을 본 적이 있을 것이다. 계산기를 두드려보면 인건비와 포장비는커녕 재료 원가조차 나오지 않을 만큼 싼 가격이다. 팔면 팔수록 오히려 마트가 손해를 보는 구조인데, 대기업들은 왜 이런 바보 같은 장사를 하는 걸까? 경영학과 유통 관리에서는 이를 '로스 리더(Loss Leader, 특매 상품 혹은 미끼 상품)'라는 아주 영리한 전략으로 설명한다. 로스 리더란 단어 그대로 '손실(Loss)을 보면서까지 고객을 매장으로 이끄는(Leader) 상품'을 뜻한다. 마트의 진짜 목적은 삼겹살이나 치킨을 팔아서 이윤을 남기는 것이 아니다. 그 파격적인 가격표는 사람들을 집 밖으로 끌어내어 매장 안으로 발을 들이게 만드는 강력한 '초대장'이자 '마케팅 비용'인 셈이다. 이 전략의 진짜 마법은 고객이 마트 문을 열고 들어온 순간부터 시작된다. 삼겹살을 엄청나게 싸게 사러 온 고객은 카트에 삼겹살만 달랑 담고 계산대로 가지 않는다. 고기를 굽기 위해 쌈장과 상추를 고르고, 곁들일 맥주와 소주를 담고, 내친김에 내일 아침에 먹을 우유와
대형 마트나 온라인 쇼핑몰에 접속하면 우리가 평소 필요로 하던 물건들이 약속이라도 한 듯 나란히 추천되는 것을 볼 수 있다. 이는 단순한 우연이 아니라 방대한 결제 데이터를 가공하고 분석하여 소비자도 모르는 구매 패턴을 찾아낸 결과이다. 데이터 사이언스 분야에서는 이를 장바구니 분석이라 부르며 그 핵심에는 연관 규칙 학습이라는 통계적 방법이 자리 잡고 있다. 장바구니 분석의 가장 유명한 사례는 기저귀와 맥주의 상관관계이다. 데이터를 분석해 보니 퇴근길에 아내의 부탁으로 기저귀를 사러 온 남편들이 보상 심리로 맥주를 함께 구매하는 경향이 뚜렷하게 나타난 것이다. 이러한 유의미한 규칙을 찾아내기 위해 분석가들은 세 가지 주요 지표를 활용한다. 얼마나 자주 같이 팔리는지를 나타내는 지지도, A를 샀을 때 B를 살 확률인 신뢰도, 그리고 두 상품의 연관성이 우연인지 실제 관계인지를 측정하는 향상도가 그것이다. 이 과정에서 데이터 전처리는 필수적인 단계이다. 수백만 건의 영수증 데이터에는 개별 상품명부터 결제 시간, 매장 위치 등 복잡한 정보가 섞여 있다. 분석 모델이 학습하기 좋게 상품들을 카테고리로 묶거나 중복 데이터를 제거하는 가공 과정을 거쳐야만 비로소 정확한
바쁜 출근길이나 점심시간, 고층 빌딩 로비에서 엘리베이터를 기다리는 1분은 유독 10분처럼 길게 느껴진다. 그런데 엘리베이터 문 옆이나 내부를 가만히 살펴보면 십중팔구 커다란 거울이 붙어있다는 사실을 알 수 있다. 단순히 옷매무새를 단정히 하라는 배려일까? 경영학과 서비스 운영 관리에서는 이 거울을 '대기행렬 이론(Queueing Theory)'이 적용된 가장 위대하고 저렴한 발명품으로 꼽는다. 과거 1950년대 미국 뉴욕의 한 고층 빌딩에서 엘리베이터 속도가 너무 느리다는 세입자들의 불만이 폭주했다. 빌딩 관리자는 엘리베이터 모터를 최신형으로 교체하거나 통로를 새로 뚫는 방법을 고민했지만, 여기에는 천문학적인 비용과 시간이 필요했다. 이때 한 심리학자가 전혀 다른 관점의 해결책을 제시했다. "사람들이 화를 내는 진짜 이유는 엘리베이터가 느려서가 아니라, '기다리는 동안 아무것도 할 일이 없어 지루하기 때문'입니다." 그의 제안에 따라 로비와 엘리베이터 벽면에 거울이 설치되었다. 결과는 놀라웠다. 사람들은 거울을 보며 넥타이를 고쳐 매고, 화장을 고치고, 다른 사람을 몰래 훔쳐보느라 시간 가는 줄 몰랐다. 엘리베이터의 물리적인 속도는 단 1초도 빨라지지 않았
우리는 매일 일기예보를 확인하고 주식 시장의 흐름을 살피며 내일을 준비한다. 이처럼 시간의 흐름에 따라 기록된 데이터를 시계열 데이터라고 부른다. 단순히 나열된 숫자 더미처럼 보이지만, 그 속에는 일정한 규칙과 반복되는 패턴이 숨어 있다. 데이터 사이언티스트들은 이 복잡한 숫자들 사이에서 의미 있는 신호를 찾아내 미래를 예측하는 지도를 그려낸다. 시계열 분석의 핵심은 먼저 데이터를 깨끗하게 가공하는 전처리 과정에 있다. 수집된 원본 데이터에는 측정 오류나 일시적인 소음과 같은 노이즈가 섞여 있기 마련이다. 이동평균법과 같은 통계적 방법을 활용해 들쭉날쭉한 수치를 매끄럽게 다듬으면 데이터가 가진 본래의 흐름이 드러난다. 여기에 계절성 수치를 고려하면 명절에 교통량이 급증하거나 여름에 빙과류 판매량이 늘어나는 것과 같은 주기적인 특성까지 파악할 수 있게 된다. 이렇게 가공된 데이터는 머신러닝 알고리즘을 만나 더욱 강력해진다. 과거의 수많은 패턴을 학습한 모델은 현재의 위치를 파악하고 앞으로 일어날 변화를 확률적으로 제시한다. 하지만 아무리 정교한 수식과 알고리즘이 동원되어도 그 결과를 숫자로만 나열한다면 대중이 이해하기 어렵다. 여기서 데이터 시각화의 진가가 발