2016년 이세돌 9단을 꺾은 알파고는 바둑의 모든 수를 외워서 둔 것이 아니다. 스스로 수만 번의 대국을 두며 이기는 법을 깨우쳤다. 이런 독특한 학습 방식을 데이터 과학에서는 '강화학습'이라고 부른다. 원리는 우리가 집에서 강아지를 훈련시키는 것과 매우 비슷하다. 강아지가 "손!"이라는 말에 맞춰 손을 내밀면 간식(당근)을 주고, 엉뚱한 행동을 하면 간식을 주지 않거나 가볍게 꾸짖는(채찍) 방식이다. 인공지능도 마찬가지다. 컴퓨터에게 슈퍼마리오 같은 게임을 시킨다고 가정해 보자. 처음에는 AI가 아무것도 모르기 때문에 제자리에서 점프만 하거나 곧바로 적에게 부딪혀 게임이 끝난다. 이때 개발자는 '점수 획득'이나 '레벨 통과'라는 보상을 설정하고, '캐릭터 사망'이나 '시간 초과'라는 벌칙을 준다. AI는 처음에는 무작위로 버튼을 마구 눌러보지만, 우연히 앞으로 갔더니 점수가 오르는 것을 발견하면 그 행동을 더 자주 하려고 한다. 반대로 낭떠러지로 떨어져 점수가 깎이면 그 행동을 피하게 된다. 이 과정에서 가장 중요한 핵심은 '시행착오'이다. 강화학습 AI는 수백만 번 실패하고 넘어지면서, 보상을 최대화할 수 있는 최적의 움직임을 스스로 찾아낸다. 사람이
요즘 챗GPT와 같은 인공지능이 사람처럼 자연스럽게 대화하는 것을 보면 마치 안에 사람이 들어있는 것 같은 착각이 든다. 하지만 이 기술의 핵심은 마법이나 자아가 아니라 철저히 수학적인 확률 계산이다. 이를 전문 용어로 거대 언어 모델이라고 부른다. AI가 글을 쓰는 방식은 친구와 빈칸 채우기 놀이를 하는 것과 매우 비슷하다. 예를 들어 "오늘 급식 메뉴는 정말 [ ? ]"라는 문장이 있다고 해보자. 빈칸에 들어갈 말로 맛있다, 맛없다, 매웠다 등은 확률이 아주 높지만, 갑자기 비행기다, 책상이다 같은 단어가 올 확률은 거의 0에 가깝다. AI는 인터넷에 있는 수억 개의 문장 데이터를 학습하여, 특정 단어 뒤에 어떤 단어가 따라오는 것이 가장 자연스러운지 통계적으로 계산해 둔 상태다. 우리가 질문을 던지면 AI는 그 질문의 문맥을 파악한 뒤, 다음에 올 수 있는 수만 가지 단어 중에서 가장 확률이 높은 단어를 하나씩 선택해서 이어 붙인다. 이것은 마치 수많은 단어 카드를 펼쳐 놓고, 현재 상황에 가장 알맞은 카드를 주사위 굴리듯 확률에 따라 뽑는 과정의 연속이다. 즉, AI는 문장을 한 번에 완성하는 것이 아니라, 앞 단어를 보고 뒷 단어를 예측하는 과정을