"기록 분석해 규정 바꾼 빙속 경기
기계학습은 보석(保釋) 결정에도 도움
자료구축, 분석방법 고도화해야"

이석배 < 미국 컬럼비아대 교수·경제학 >

추운 날씨에도 올림픽 열기가 뜨겁다. 이상화 선수가 2연패를 달성한 스피드스케이팅 500m는 1·2차 레이스를 합산해 순위를 결정한다. 40초가 채 가기도 전에 끝나는 경주지만, 1차 레이스 결과를 알고 나서 2차 레이스가 진행돼 시청자 입장에서는 박진감이 넘친다. 500m는 스피드스케이팅의 단거리 핵심 종목으로 하계올림픽 종목에 견주면 100m 달리기에 해당한다.

스피드스케이팅 500m는 왜 레이스를 두 번 할까. 1994년까지는 한 번으로 순위를 정했다. 스피드스케이팅 링크 한 바퀴 400m다. 안쪽 레인과 바깥쪽 레인에서 2명의 선수가 출전해 중간에 레인을 교차해서 승부를 정한다. 경주를 안쪽 레인에서 끝낼 때 가속도 때문에 상대적으로 불리한데, 1994년 올림픽까지는 레인을 무작위로 배정했다.

통계학자인 노르웨이 오슬로대의 닐스 리드 요르트 교수는 1984~1994년 세계 스프린트 스피드스케이팅 선수권 대회 자료를 분석했다. 연구 결과, 스피드스케이팅 500m에서 바깥쪽 레인에서 출발한 경우와 안쪽 레인에서 출발한 경우 0.05초 정도 통계적으로 유의한 차이가 있었다. 이는 국제빙상경기연맹과 국제올림픽위원회가 1998년 일본 나가노 동계올림픽에서 500m 참가 선수가 레인을 바꿔 두 번 레이스를 하도록 규정을 바꾸는 데 결정적 역할을 했다. 의사결정에서 자료 분석의 중요성이 돋보인 사례다.

경제학에서도 기계학습과 빅데이터 분석에 대한 관심이 늘고 있다. 관심 주제 중 하나는 기계학습이 인간의 의사결정을 향상할 수 있느냐는 것이다. 이달 출간된 스탠퍼드대·시카고대·코넬대·하버드대의 공동 연구 결과가 인상적이다. 이 연구는 빅데이터 자료를 분석해 결과를 예측하는 첫 번째 단계와 예측된 결과로 의사결정하는 두 번째 단계를 구별해 기계학습이 의사결정을 도울 수 있는지 살펴봤다.

이 연구는 미국 뉴욕시 판사들의 보석 결정을 분석했다. 미국에선 경찰에 체포된 후 판결을 받기 전까지 판사가 미결수를 구치소에 보낼 수도, 보석으로 석방할 수도 있다. 판사는 미결수가 판결을 받으러 재판에 나오지 않을 위험과 공공 안전에 대한 위험을 고려해 보석을 결정한다. 달리 말해, 판사는 피고인이 보석으로 석방된 후 어떻게 행동할지 예측해야 한다.
기계학습을 적용할 때 주의점이 있다. 첫째는 석방된 피고인의 재판 출석 여부와 보석 중 다시 체포됐는지는 기존 자료로 알 수 있지만, 만약 구금된 피고인이 풀려났다면 과연 재판에 나왔을지 혹은 다른 일로 체포됐을지는 알 수 없다. 또 판사들은 기계학습에 이용된 자료 외에 법정에서 추가 정보를 습득할 수 있다. 기계학습이 의사결정에 도움이 될지 판단하기 위해서는 판사들의 의사결정에 대한 경제학 모형과 자료의 한계에 대해 명확히 이해하고 있어야 한다.

뉴욕시에선 2008~2013년 체포된 사람의 약 74%가 보석으로 풀려났다. 이 중 15%는 재판정에 나오지 않았고, 26%는 다시 체포됐다. 보석으로 풀려난 피고인의 자료를 기계학습으로 분석해 위험 상위 1% 피고인을 분류해 보면 이 집단에 속한 피고인의 56%가 재판정에 나오지 않고 63%가 다시 체포됐다. 그런데도 판사들은 이 집단에 해당하는 피고인의 49%를 석방했다.

위험률이 아주 높은 피고인은 판사가 석방을 명령했더라도 구금하는 정책을 모의실험해 볼 수 있다. 모의실험 결과, 전체 보석 석방 비율을 기존대로 유지하면서 재판에 출석하지 않거나 다시 체포될 확률을 25%까지 줄일 수 있었다. 기계학습을 통한 예측능력 향상이 중요 의사결정에서 실질적으로 도움이 될 수 있음을 시사한 것이다. 한국에서도 빅데이터와 기계학습의 장점을 최대한 살려 정부 정책에 도움이 되도록 자료를 구축하고 분석방법을 준비해 나가는 것이 4대 스포츠 제전을 모두 개최한 국가로서 해야 할 본연의 모습이다.

ⓒ 한경닷컴, 무단전재 및 재배포 금지