AI, 당근과 채찍으로 가르친다? : 강화학습의 비밀

스스로 게임왕이 되는 인공지능의 학습법

2016년 이세돌 9단을 꺾은 알파고는 바둑의 모든 수를 외워서 둔 것이 아니다. 스스로 수만 번의 대국을 두며 이기는 법을 깨우쳤다. 이런 독특한 학습 방식을 데이터 과학에서는 '강화학습'이라고 부른다.

 

원리는 우리가 집에서 강아지를 훈련시키는 것과 매우 비슷하다. 강아지가 "손!"이라는 말에 맞춰 손을 내밀면 간식(당근)을 주고, 엉뚱한 행동을 하면 간식을 주지 않거나 가볍게 꾸짖는(채찍) 방식이다.

 

 

인공지능도 마찬가지다. 컴퓨터에게 슈퍼마리오 같은 게임을 시킨다고 가정해 보자. 처음에는 AI가 아무것도 모르기 때문에 제자리에서 점프만 하거나 곧바로 적에게 부딪혀 게임이 끝난다. 이때 개발자는 '점수 획득'이나 '레벨 통과'라는 보상을 설정하고, '캐릭터 사망'이나 '시간 초과'라는 벌칙을 준다.

 

AI는 처음에는 무작위로 버튼을 마구 눌러보지만, 우연히 앞으로 갔더니 점수가 오르는 것을 발견하면 그 행동을 더 자주 하려고 한다. 반대로 낭떠러지로 떨어져 점수가 깎이면 그 행동을 피하게 된다.

 

이 과정에서 가장 중요한 핵심은 '시행착오'이다. 강화학습 AI는 수백만 번 실패하고 넘어지면서, 보상을 최대화할 수 있는 최적의 움직임을 스스로 찾아낸다.

 

사람이 일일이 "이 타이밍에는 점프 키를 눌러"라고 규칙을 코딩해 주지 않아도 된다. 이 기술은 현재 로봇이 넘어지지 않고 걷는 법을 배우거나, 자율주행차가 복잡한 도로 상황에서 안전하게 운전하는 방법을 익히는 데에도 핵심적으로 사용된다. 결국 강화학습은 수없는 실패를 거름 삼아 정답을 찾아가는, 가장 인간다운 성장 과정을 닮은 기술이다.

 

[※ 칼럼의 그림 및 도표는 AI 활용하여 작성됨]