현대의 데이터 과학자들은 종종 '차원의 저주(Curse of Dimensionality)'라는 벽에 부딪힌다. 예를 들어 한 명의 고객을 분석할 때 나이, 성별, 구매 금액뿐만 아니라 웹사이트 체류 시간, 클릭 횟수, 마우스 궤적 등 수십, 수백 개의 변수(차원)를 수집하게 된다. 하지만 정보가 무작정 많다고 다 좋은 것은 아니다. 분석해야 할 변수가 늘어날수록 오히려 불필요한 노이즈가 섞이고 연산 속도가 느려져 인공지능의 판단을 흐리게 만들기 때문이다. 이토록 복잡한 데이터의 홍수 속에서 가장 중요한 핵심 정보만 압축해서 건져 올리는 통계적 구조대원이 바로 '주성분 분석(PCA, Principal Component Analysis)'이다. PCA의 원리는 복잡한 3차원의 입체 사물에 빛을 비춰 가장 특징이 잘 드러나는 2차원 그림자를 만들어내는 과정과 비슷하다. 알고리즘은 데이터가 가장 넓게 퍼져 있는(분산이 가장 큰) 방향을 수학적으로 찾아내어 새로운 축으로 삼는데, 이 축이 바로 데이터의 특성을 가장 잘 설명하는 '제1 주성분'이 된다. 이런 방식으로 서로 겹치지 않는 몇 개의 핵심 축을 순차적으로 찾아내면, 100개의 변수로 이루어진 어지러운 데이터도
결혼을 앞두고 친구들과 모여 100장의 청첩장을 봉투에 넣는 작업을 한다고 상상해 보자. 십중팔구는 이런 방식을 택할 것이다. "내가 100장을 전부 접을 테니까, 네가 100장을 모두 봉투에 넣어. 그럼 마지막 사람이 스티커 100개를 붙이자!" 이처럼 한 가지 작업을 대량으로 묶어서 처리하는 것을 생산관리에서는 '로트(Batch) 생산'이라고 부른다. 단순 반복 작업이라 손이 빨라지는 것 같고 직관적으로 가장 효율적으로 느껴진다. 그런데 정말 그럴까? 경영학의 대가들과 도요타 생산 방식(TPS)은 단호하게 "아니요"라고 답한다. 그들은 청첩장을 하나 접어서, 바로 봉투에 넣고, 스티커를 붙여 완전히 '한 장을 완성'한 뒤 다음 청첩장으로 넘어가는 '1개 흐름 생산(One-Piece Flow)'이 훨씬 빠르고 완벽한 방식이라고 강조한다. 로트 생산의 가장 큰 함정은 공정과 공정 사이에 필연적으로 산더미 같은 '재공품(WIP, Work-In-Progress)'이 쌓인다는 것이다. 첫 번째 사람이 100장을 다 접을 때까지 두 번째 사람은 아무것도 하지 못하고 놀아야 한다. (대기 낭비). 반면 1개 흐름 생산에서는 첫 번째 청첩장이 접히자마자 다음 단계로 넘
우리는 종종 과거의 경험을 바탕으로 미래를 짐작한다. "기온이 오르고 있으니 에어컨 판매량이 늘어나겠지", 혹은 "광고비를 이만큼 늘리면 매출이 어느 정도 오를 거야"라는 식이다. 인간의 이러한 직관적인 예측을 차가운 숫자의 언어로 가장 정교하게 번역해 낸 것이 바로 통계학의 꽃이라 불리는 '회귀 분석(Regression Analysis)'이다. 불규칙해 보이는 방대한 데이터의 홍수 속에서도, 회귀 분석은 변수들 사이의 숨겨진 규칙을 찾아내어 미래를 향해 뻗어가는 선명한 '추세선'을 그어준다. 회귀 분석의 원리는 흩뿌려진 수많은 점(데이터)들을 가장 잘 대표하는 최적의 직선을 찾아내는 과정이다. 가상의 2차원 그래프 위에 X축을 '기온', Y축을 '아이스크림 판매량'으로 두고 그동안 수집한 데이터를 점으로 찍어보자. 점들은 이리저리 무질서하게 흩어져 있겠지만, 전체적으로는 우상향하는 무리의 형태를 띨 것이다. 이때 통계학은 대충 눈대중으로 선을 긋지 않는다. 직선을 긋는 핵심 비결은 '오차의 최소화'에 있다. 수학적으로 각 데이터 점들과 가상의 직선 사이의 거리(오차)를 제곱하여 모두 더한 값이 가장 작아지도록 정밀하게 계산하는데, 이를 '최소제곱법(Leas
제주도나 해외로 가는 저가 항공사(LCC)를 타보면 놀라운 장면을 목격하게 된다. 도착한 비행기에서 승객들이 내리기 무섭게 청소팀이 투입되고, 창밖으로는 수하물 탑재와 급유가 번개처럼 이루어진다. 대형 항공사들이 보통 1시간에서 길게는 2시간까지 걸리는 이 '턴어라운드(Turnaround, 지상 체류)' 과정을 저가 항공사들은 단 30~40분 만에 끝내버린다. 대충 하는 것도 아닌데 어떻게 이런 속도가 가능할까? 경영학과 생산관리에서는 이를 'SMED(Single Minute Exchange of Die, 준비 시간 단축)'라는 극한의 공정 개선 기법으로 설명한다. 비행기는 하늘을 날고 있을 때만 돈을 버는 자산이다. 땅에 서 있는 시간은 공장으로 치면 기계가 멈춰서 다음 작업을 준비하는 '준비 시간(Setup Time)'과 같으며, 이는 고스란히 기업의 손실(낭비)이 된다. 원래 SMED는 도요타 자동차 공장에서 수 톤짜리 금형(Die)을 교체하는 데 걸리던 반나절의 시간을 '한 자릿수 분(Single Minute, 즉 10분 미만)'으로 줄이기 위해 개발된 기법이다. 이 마법의 핵심은 기계가 반드시 멈춰야만 할 수 있는 '내부 준비'와 기계가 가동되는 중
어린 시절 즐겨 하던 '스무고개' 게임을 떠올려 보자. "동물입니까?", "다리가 네 개입니까?"와 같은 질문을 거듭하며 정답의 범위를 좁혀나가는 이 영리한 놀이는 머신러닝의 '의사결정 나무(Decision Tree)' 알고리즘과 완벽하게 닿아 있다. 복잡하게 얽혀 있는 원시 데이터 속에서 컴퓨터는 "나이가 30대 이상인가요?", "과거 구매 이력이 있나요?"라는 통계적 기준을 세우고, '예/아니오'의 갈래를 치며 데이터를 분류해 나간다. 그 과정이 직관적이고 최종 결과를 인간이 해석하기 쉬워 데이터 분류의 기초로 널리 쓰인다. 하지만 의사결정 나무라는 단일 모델에는 치명적인 약점이 존재한다. 주어진 학습 데이터에만 맞추어 너무 깊고 뾰족하게 질문을 파고들다 보니, 융통성 없이 데이터를 통째로 외워버리는 '과적합(Overfitting)'의 함정에 빠지기 쉽다는 것이다. 즉, 실험실의 연습 문제에서는 백 점을 맞지만, 막상 변수가 많은 새로운 실전 데이터가 입력되면 엉뚱한 오답을 내놓고 마는 한계를 지닌다. 데이터 과학자들은 이 문제를 극복하기 위해 인간 사회의 '집단 지성' 원리를 데이터 가공에 도입했다. 바로 나무 한 그루에 의존하는 대신 수백, 수천 그루
출근 시간대 스타벅스 매장은 그야말로 전쟁터다. "아이스 디카페인 오트 밀크 바닐라 라떼 샷 추가요", "자바칩 프라푸치노 휘핑 많이요" 등 이름조차 외우기 힘든 복잡한 주문들이 쉴 새 없이 쏟아진다. 그런데도 바리스타들은 서로 동선이 엉키거나 음료를 헷갈리지 않고 기계처럼 정확하게 커피를 만들어낸다. 그 비밀은 바로 계산대에서 출력을 마치고 종이컵 옆면에 탁! 하고 붙는 '주문 스티커(사이렌 오더 스티커)'에 있다. 경영학에서는 이 스티커를 도요타 자동차가 창안한 위대한 공정 관리 기법, '칸반 시스템(Kanban System)'의 완벽한 현대적 진화로 설명한다. '칸반(Kanban)'은 일본어로 '간판'이나 '시각적인 카드'를 뜻한다. 과거 도요타 공장에서는 앞 공정에서 뒤 공정으로 부품을 넘길 때, 무엇을 얼마나 만들어야 하는지가 적힌 종이 카드(칸반)를 부품 상자에 붙여 보냈다. 작업자들은 복잡한 작업 지시서를 뒤적일 필요 없이, 그저 눈앞에 도착한 상자에 붙은 '칸반'만 보고 필요한 만큼만 조립을 진행했다. 스타벅스의 종이컵 스티커 역시 이와 완벽하게 똑같은 역할을 한다. 주문이 들어오면 계산대 직원은 빈 컵에 스티커를 붙여 바리스타의 바(Bar)로
자전거 타기를 처음 배울 때 넘어지면서 균형 잡는 법을 몸으로 익히듯, 인공지능도 무수한 실패를 통해 스스로 정답을 찾아가는 방법이 있다. 바로 알파고와 자율주행 자동차를 탄생시킨 핵심 기술인 강화학습이다. 기존의 머신러닝이 사람이 미리 다듬어놓은 정답 데이터를 외우는 방식이었다면, 강화학습은 인공지능이 스스로 가상 환경과 부딪치며 얻은 경험 데이터를 가공하여 최적의 행동 전략을 세우는 진일보한 기술이다. 강화학습의 핵심은 보상과 패널티라는 통계적 시스템에 있다. 자율주행 자동차를 예로 들면, 차선 안에 머물거나 목적지에 무사히 도착하면 더하기 점수를 받고, 장애물과 충돌하거나 차선을 벗어나면 빼기 점수를 받도록 알고리즘이 설계된다. 인공지능은 매 순간 카메라와 센서로 수집된 엄청난 양의 시각 데이터를 전처리하여 현재 상태를 수치화하고, 무작위로 행동을 취해본다. 그리고 그 결과로 얻어진 점수들을 수학적으로 계산하여, 미래에 가장 높은 보상을 받을 수 있는 확률적 경로를 스스로 업데이트한다. 이 과정에서 발생하는 수백만 번의 시행착오 데이터는 결코 의미 없는 실패의 기록이 아니다. 인공지능은 이 방대한 오답 데이터를 가공하여 어느 상황에서 어떤 행동이 유리한
회전초밥집에 가면 재미있는 규칙을 하나 발견할 수 있다. 계란 초밥이나 유부초밥처럼 저렴한 메뉴는 레일 위를 끊임없이 돌고 있지만, 비싼 참치 뱃살(도로)이나 성게알 초밥은 좀처럼 구경하기 힘들다. 먹고 싶다면 셰프에게 직접 주문을 해야만 그 자리에서 바로 쥐어준다. 단순히 비싼 재료를 아끼려는 걸까? 생산관리 관점에서 이 현상은 세계 1위 자동차 기업 도요타의 핵심 생산 철학인 '적시 생산 방식(JIT, Just-In-Time)'을 가장 완벽하게 보여주는 사례다. JIT란 문자 그대로 '필요한 것을, 필요한 때에, 필요한 만큼만' 생산하는 방식을 말한다. 만약 셰프가 참치 초밥을 미리 잔뜩 만들어 레일 위에 올려둔다고 가정해 보자(밀어내기식 생산, Push System). 운 좋게 손님들이 다 먹어주면 다행이지만, 손님이 찾지 않아 시간이 한참 지나버리면 초밥은 신선도를 잃고 결국 쓰레기통으로 직행해야 한다. 저렴한 계란 초밥 하나를 버리는 것은 감당할 수 있는 손실이지만, 원가가 비싼 참치 초밥을 버리는 것은 식당 입장에서 엄청난 타격, 즉 막대한 '재고 폐기 비용(낭비)'을 의미한다. 이러한 치명적인 낭비를 막기 위해 회전초밥집은 비싼 메뉴에 한해 철저
수많은 사람들이 오가는 대형 백화점이나 온라인 쇼핑몰에는 이름표가 붙어 있지 않은 방대한 고객 데이터가 쌓인다. 누가 어떤 취향을 가졌는지 명확한 정답이 없는 상태에서, 기업들은 어떻게 비슷한 성향의 사람들을 찾아내어 맞춤형 서비스를 제공할 수 있을까. 그 해답은 머신러닝의 한 분야인 비지도 학습, 특히 군집 분석이라는 데이터 가공 기술에 숨어 있다. 군집 분석은 정답을 가르쳐주지 않아도 인공지능이 알아서 데이터의 특징을 파악해 비슷한 것들끼리 무리를 지어주는 알고리즘이다. 가장 널리 쓰이는 방법 중 하나인 케이 평균 알고리즘을 예로 들면 그 원리는 생각보다 단순하다. 컴퓨터는 먼저 데이터를 가상의 공간에 점으로 흩뿌린 뒤, 임의의 중심점들을 몇 개 잡는다. 그리고 각 데이터가 어느 중심점과 통계적으로 가장 가까운지 거리를 계산하여 무리를 짓는 과정을 반복한다. 이러한 거리 계산이 정확하게 이루어지기 위해서는 데이터 전처리가 필수적이다. 나이, 구매 금액, 방문 횟수 등 단위와 크기가 전혀 다른 데이터들을 그대로 사용하면 왜곡이 발생하기 때문이다. 따라서 모든 수치를 일정한 기준으로 맞추는 정규화 작업을 거쳐야만 인공지능이 거리를 공평하게 측정할 수 있다.
지금 이 글을 읽고 있는 여러분의 손 아래 있는 키보드를 가만히 살펴보자. 수십 개의 자판 중에서 유독 'F' 와 'J' 키(한글 자판의 'ㄹ'과 'ㅓ') 위에만 작고 볼록한 가로 돌기가 튀어나와 있는 것을 발견할 수 있을 것이다. 모든 키보드가 전 세계적으로 이 표준을 따르고 있다. 도대체 이 좁쌀만 한 돌기는 왜 하필 이 두 자리에만 붙어 있는 것일까? 단순히 디자인 포인트일까? 경영학과 생산관리에서는 이를 인간의 신체적 특성을 고려하여 도구와 기계를 설계하는 위대한 기술, '인간공학(Ergonomics)'의 핵심 원리로 설명한다. 과거 키보드가 없던 시절, 타자기로 글을 치던 작업자들에게 가장 큰 고민은 '오타(불량)'였다. 오타를 줄이려면 자판을 일일이 눈으로 확인하며 쳐야 했는데, 이는 작업 속도를 엄청나게 떨어뜨리는 '시간 낭비'를 가져왔다. 반대로 자판을 보지 않고 화면(모니터)만 보며 빠르게 치는 '자리 연습'을 하자니, 손가락이 자판 위에서 길을 잃어 엉뚱한 키를 누르기 일쑤였다. 이때 인간공학자가 제시한 해결책이 바로 'F'와 'J' 키 위의 돌기였다. 이 돌기는 자판을 보지 않고도 손가락 끝의 예민한 '감각'만으로 양손의 '기준점'을 찾게
우리의 손목 위에서 쉼 없이 움직이는 스마트워치는 단순한 시계 이상의 역할을 수행한다. 심박수, 혈중 산소포도, 수면 단계와 같은 미세한 생체 정보들이 초 단위로 수집되어 데이터의 바다를 이룬다. 이렇게 수집된 원시 데이터는 그 자체로는 불규칙한 숫자의 나열에 불과하지만, 정교한 가공 과정을 거치면 우리의 건강 상태를 알려주는 소중한 지표로 탈바꿈한다. 헬스케어 데이터 가공의 핵심은 실시간으로 유입되는 방대한 정보 속에서 노이즈를 제거하는 전처리 기술에 있다. 운동 중의 급격한 움직임이나 기기 착용 상태에 따라 발생하는 오차를 통계적 방법으로 걸러내야만 정확한 분석이 가능하다. 이렇게 정제된 데이터는 머신러닝 알고리즘을 통해 개인의 평소 건강 패턴을 학습한다. 인공지능은 사용자의 과거 기록과 대조하여 평소보다 심박수가 비정상적으로 높거나 수면의 질이 급격히 떨어지는 순간을 이상 징후로 포착한다. 데이터 사이언스는 단순히 질병을 사후에 진단하는 것을 넘어 미리 예측하고 예방하는 단계로 나아가고 있다. 수만 명의 유사한 건강 데이터를 비교 분석하여 특정 질환이 발생하기 전의 공통적인 데이터 변화를 찾아내는 것이다. 이러한 복잡한 분석 결과는 직관적인 시각화 도구
누구나 한 번쯤 조별 과제를 하며 분통을 터뜨린 경험이 있을 것이다. 자료 조사 담당은 하루 만에 완벽한 데이터를 찾아왔고, 발표 담당도 일찌감치 대본을 다 외웠다. 그런데 PPT 제작을 맡은 '이 친구'가 마감 전날 밤까지 감감무소식이다. 결국 나머지 팀원들이 아무리 일을 빨리 끝냈어도 조별 과제의 최종 완성은 PPT가 나오는 순간까지 멈춰버리고 만다. 경영학과 생산관리에서는 이 답답한 상황을 이스라엘의 물리학자 엘리야후 골드랫(Eliyahu M. Goldratt)이 창시한 '제약 이론(Theory of Constraints, TOC)'과 '병목 현상(Bottleneck)'으로 완벽하게 설명한다. '병목(Bottleneck)'이란 말 그대로 물병의 좁은 목 부분을 뜻한다. 병의 몸통이 아무리 넓고 물이 가득 차 있어도, 결국 물이 쏟아져 나오는 속도는 가장 좁은 병목의 크기가 결정해버린다. 명절 연휴 고속도로에서 4차선이 1차선으로 줄어드는 구간을 상상해 보자. 뒤에서 차들이 시속 100km로 쌩쌩 달려와도, 1차선 구간에 진입하는 순간 모든 차의 속도는 시속 10km로 떨어지게 된다. 공장의 생산 라인도 마찬가지다. 부품을 조립하는 A공정이 하루에 100
우리가 평소처럼 신용카드를 사용하다가 갑자기 해외에서 거액이 결제되거나 평소 소비 패턴과 전혀 다른 거래가 발생하면 카드사로부터 확인 요청이 오곤 한다. 수조 건의 결제 데이터 속에서 단 몇 건의 수상한 거래를 실시간으로 찾아내는 이 기술의 정체는 바로 이상 탐지이다. 이는 방대한 데이터를 가공하여 정상적인 범위를 설정하고, 그 경계를 벗어나는 아주 미세한 뒤틀림을 통계적으로 잡아내는 인공지능의 감각이다. 이상 탐지의 첫걸음은 정상 상태의 데이터를 정의하는 정교한 가공 과정에 있다. 시스템은 사용자의 평소 결제 시간, 장소, 금액, 업종 등을 시계열 데이터로 수집하고 전처리한다. 이 과정에서 개인의 평균적인 생활 패턴이 하나의 수치화된 지도로 그려진다. 통계적 모델은 이 지도를 바탕으로 데이터가 밀집된 정상 영역을 설정하는데, 만약 새롭게 입력된 데이터가 이 영역에서 멀리 떨어진 외딴곳에 찍힌다면 이를 이상 징후로 판단한다. 이 기술은 금융 보안을 넘어 산업 현장에서도 빛을 발한다. 공장의 기계에 부착된 센서 데이터를 실시간으로 가공하여 진동이나 온도의 미세한 변화를 분석한다. 겉으로는 멀쩡해 보이는 장비라도 데이터상에서 평소와 다른 미세한 파동이 감지되면
깔끔하게 관리되는 자동차 정비소나 장인의 공방에 가보면 벽면에 걸린 공구판(섀도우 보드, Shadow Board)을 흔히 볼 수 있다. 렌치, 망치, 드라이버 등 수많은 공구가 걸려 있는데, 재미있는 점은 공구를 빼내면 벽면에 그 공구와 똑같이 생긴 테두리 그림이 그려져 있다는 것이다. 단순히 보기에 예쁘라고 그려놓은 것일까? 아니다. 생산관리에서는 이를 공장의 생산성을 극적으로 끌어올리는 위대한 발명품, '눈으로 보는 관리(Visual Management)'와 '5S 운동'의 핵심으로 꼽는다. 공장이나 작업장에서 발생하는 가장 크고 치명적인 낭비는 무엇일까? 바로 '물건을 찾는 데 쓰는 시간'이다. 작업자가 10mm 스패너 하나를 찾기 위해 공구함을 뒤적이는 데 5분을 쓴다고 가정해 보자. 작업자 100명이 하루에 한 번씩만 공구를 찾아 헤매도 매일 500분이라는 막대한 생산 시간이 공중으로 증발해 버린다. 아무리 좋은 기계를 들여놓아도, 정작 작업자가 나사를 조일 드라이버를 찾지 못하면 컨베이어 벨트는 멈춰 설 수밖에 없다. 이 거대한 낭비를 없애기 위해 일본 도요타 자동차에서 시작된 것이 바로 '5S 운동'이다. 정리(Sort), 정돈(Set in or
컴퓨터는 태생적으로 숫자만을 이해하는 기계이다. 하지만 오늘날의 인공지능은 우리가 일상적으로 사용하는 언어인 자연어를 능숙하게 주고받으며 질문에 답하고 글을 쓴다. 딱딱한 기계가 어떻게 인간의 복잡 미묘한 문장을 이해하는 것일까. 그 비밀은 문자를 정교한 수치 데이터로 변환하고 가공하는 자연어 처리 기술에 숨어 있다. 단순히 글자를 입력받는 것을 넘어 의미를 파악하기 위해서는 먼저 텍스트를 정제하는 전처리 과정이 필요하다. 문장에서 의미 없는 조사나 구두점을 제거하고 단어의 뿌리가 되는 어근만을 남기는 토큰화 작업을 거친다. 이렇게 쪼개진 단어들은 숫자로 치환되는데, 과거에는 단순히 순서대로 번호를 매겼다면 현대의 인공지능은 단어를 벡터라고 불리는 수천 차원의 공간상 좌표로 변환한다. 이 가공 방식의 핵심은 비슷한 의미를 가진 단어들을 공간상에서 가깝게 배치하는 통계적 학습에 있다. 예를 들어 왕과 여왕이라는 단어는 공간상에서 비슷한 위치에 놓이게 되며, 이들 사이의 거리와 방향을 계산하면 단어 간의 관계를 수치로 파악할 수 있다. 컴퓨터는 문장을 읽는 것이 아니라 수많은 숫자 좌표들 사이의 거리를 측정하며 문맥을 이해하는 셈이다. 잘 가공된 단어의 좌표값들