메이저리그를 움직이는 세이버메트릭스, 100만 개 투구 분석해 타율 예측
프로스포츠에서 상대 팀과 선수의 데이터를 분석해 작전 수립 등에 활용하는 일은 어제오늘의 얘기가 아니다. 특히 야구에서는 미국 야구연구학회(SABR)를 중심으로 세이버메트릭스(Sabermetrics)라는 방법론을 20여 년 전에 개발해 현재까지 활발히 이용하고 있다. 세이버메트릭스는 ‘SABR’와 측정을 의미하는 ‘메트릭(metric)’을 합성한 신조어다.세이버메트릭스의 대표적 사례는 2011년에 개봉된 브레드 피트 주연의 영화 ‘머니볼(Moneyball)’이다. 미국 메이저리그 오클랜드 애슬레틱스 팀의 실화를 바탕으로 한 이 영화에서는 경제적으로 어려운 조건에서도 데이터를 바탕으로 팀을 효율적으로 운영해 성공한 사례를 보여주고 있다.
당시 애슬레틱스 구단 선수들의 연봉 총액은 4400만 달러(약 520억 원)였는데 이는 메이저리그 최저 수준으로 뉴욕 양키스의 3분의 1에 불과했다. 이러한 환경에도 애슬레틱스는 2002년 아메리칸 리그 서부지구의 우승을 차지했고 이후 한동안 상위권을 유지했다.
그 비결은 선수 평가 방법에 있었다. 예를 들어 타자를 평가할 때 타율·타점·도루 등 기존에 이용된 지표들보다 당시에는 생소한 개념인 출루율·장타율 등이 실제 공격 기여도에 더 중요하다는 것을 데이터를 분석해 파악하고 이를 이용해 상대적으로 낮은 예산으로 우수한 선수들을 모을 수 있었다.
‘머니볼 신화’ 계기로 구단마다 도입 붐
이 사례가 소개되면서 다른 팀들도 유사한 전략을 채택했다. 뉴욕 양키스, 뉴욕 메츠, 보스턴 레드삭스, 애리조나 다이아몬드백스, 클리블랜드 인디언스 등의 구단이 세이버메트릭스 전문가를 고용하면서 애슬레틱스는 상대적인 장점을 잃어버리게 됐다.
그러면 현재의 세이버메트릭스의 수준은 어느 정도일까. 최근 데이터 수집, 분석 기술, 컴퓨팅 성능의 급속한 발전으로 ‘머니볼’의 사례는 마이너리그 수준에 불과하다.
우선 데이터부터 살펴보자. 140년의 역사를 자랑하는 미국 프로야구에서는 매년 2000여 경기가 열리고 현재까지 개최된 총 경기 수는 18만 번이 넘는다. 처음 135년 동안 생성된 데이터의 총량이 2GB 정도인 것에 비해 도플러 레이더와 고속 비디오 촬영 등으로 현재 한 경기에 생성되는 데이터는 무려 1TB에 이른다.
데이터가 폭발적으로 증가하게 된 계기는 투수가 던지는 공에 대해 공의 속도, 공의 움직임, 투수 팔의 각도 등 20여 개의 데이터를 기록하는 피치 에프엑스(Pitch f/x) 시스템에서 시작한다. 곧이어 타자의 움직임에 대해 다섯 가지 요소를 기록하는 히트 에프엑스(Hit f/x) 시스템이, 올해에는 야수 및 주자의 움직임을 기록하는 필드 에프엑스(Field f/x) 시스템이 도입됐다.
이러한 시스템의 도입으로 방대한 자료가 축적돼 스타팅 라인업, 선발 및 구원투수, 대타 등 경기 준비에 핵심적인 결정들을 지원하고 있다.
예를 들어 투수와 타자의 대결을 살펴보자. 기존에는 투수에 대한 타자의 과거 기록을 바탕으로 여러 결정을 내렸지만 여기에는 결정적인 문제가 있다. 즉, 특정 투수와 특정 타자의 대결은 6타수 2안타 등으로 그 횟수가 통계적으로 유의미할 정도로 많지 않다는 것이다.
이의 대안으로 온라인 비디오 사이트 ‘넷플릭스’의 방법이 제안됐다. 즉 고객이 관람한 영화의 패턴을 분석해 자주 보는 액션 영화를 추천하는 것처럼 투수와 타자의 특성을 연결하자는 것이다. 예를 들어 투수는 공의 속도, 공 배합, 릴리스 포인트 등의 14개 요소를 고려한다.
현재 개발된 소프트웨어는 투구 폼, 투수 수준, 타격 폼, 타자 수준, 경기장의 5개 요소를 이용해 지난 1년 반 기간에 축적된 약 100만 개의 투구를 분석, 투수와 타자 사이의 관계를 정리한다. 이를 통해 특정 투수에 대한 타자의 예상 타율 등을 추정할 수 있다. 100만 달러 슈퍼컴에도 아낌없는 투자
이를 위한 컴퓨터는 어떤 모습일까. 이러한 분석에서는 두 데이터 사이의 연관성을 계산해야 하는데 스타팅 라인업을 결정하기 위해서는 무려 100억~200억 회의 계산이 필요하다.
이러한 작업을 주어진 시간에 수행하려면 보통의 컴퓨터로는 불가능하고 슈퍼컴퓨터급의 처리 용량이 필요하다. 특히 많은 양의 데이터를 한 번에 저장할 수 있는 데이터 분석용 슈퍼컴이 적합하다.
이러한 컴퓨터는 100만 달러가 넘는 고가의 장비다. 하지만 메이저리그에서 한 경기를 이겼을 때 발생하는 추가 수입은 적은 팀은 약 200만 달러, 대도시의 팀은 600만 달러에 달한다고 하니 이러한 장비를 도입하는 게 충분할 것으로 보인다.
그러면 실제로 이를 도입한 구단이 있을까. 이에 대해 여러 소문이 많지만 최소한 한 개 이상의 구단이 이를 도입해 운용하고 있는 것이 확인됐다. 다만 구단의 이름과 도입한 장비 및 소프트웨어 등의 내용은 전력 노출을 우려해 비밀로 하고 있다.
기술이 발전되면서 경기 계획을 수립하는 수준을 넘어 경기 중에 결정을 지원할 수 있는 상황이 가능해지고 있다. 하지만 이를 구현하기 위해서는 경기 중 결정과 관련해 전자제품의 사용을 금지하는 현재 메이저리그의 규칙이 바뀌어야 한다.
이러한 기술은 경기 결과 예측에 활용될 가능성도 있다. 스포츠 경기 결과를 예측하는 스포츠 베팅 게임은 이미 거대한 시장을 형성하고 있고 예측의 정확도를 조금 높여 얻어지는 추가 수익도 막대한 규모다.
프로스포츠에 빅 데이터를 활용하는 사례는 야구에 그치지 않는다. 미국에서 인기가 높은 미식축구에서는 데이터를 바탕으로 경기 결과를 예측하려는 시도가 진행되고 있다. 즉, 지난 10년간 있었던 약 3000번 경기에서의 약 50만 건의 경기 이력(play by play) 자료를 분석해 통계적으로 유의미한 경향을 파악하려고 한다.
야구와 달리 미식축구에서는 필요한 데이터가 정리돼 있지 않다. 현장 중계의 형태로 정리된 경기 이력을 컴퓨터가 처리할 수 있도록 변환하는 데에는 실로 막대한 노력을 들여야 한다.
기상 관련 데이터를 확보하는 것도 문제다. 경기 당시의 습도, 풍속, 최저 및 최고 온도 등의 정보는 인터넷에서 개별적으로 찾아 정리해야 한다. 또한 잔디 종류, 지붕 형태, 수용 인원, 고도 등 경기장에 관한 정보와 부상, 체포 등 선수에 대한 데이터도 필요하다.
미식축구·농구로도 확산돼
모든 데이터가 정리되면 여러 요소들이 승부에 미치는 영향을 분석하게 된다. 이를 통해 그동안 통념으로 여겨지던 생각들이 실제 사실과 일치하는지 확인할 수 있다.
명문 구단 덴버 브롱코스 팀의 홈구장은 해수면으로부터 1마일(1.6km) 정도 높은 곳에 자리하기 때문에 ‘마일 하이(Mile High) 경기장’이라고 불렸다. 상대 팀은 높은 고도에 적응해야 하기 때문에 상대적으로 경기에 불리하다고 여겨졌다.
하지만 빅 데이터 분석에서는 통계적으로 유의미한 연관성을 찾을 수 없었다. 즉, 경기장의 고도는 승부에 영향을 미치지 않았다. 고도에 관련돼 의미 있는 결과는 낮은 공기저항으로 패스 공격이 1% 증가한다는 정도였다.
이는 ‘홈구장 이점’이 없다는 이야기가 아니다. 실제로 홈팀의 평균 승률은 57%로 통계적으로 유의미한 숫자다. 또한 선수의 결장도 승패에 영향을 미친다. 재미있는 것은 선수의 소속과 관계없이 결장은 홈팀이 이길 확률을 높인다는 것이다.
현재 미식축구의 빅 데이터 분석 수준은 ‘머니볼’에 미치지 못하지만 이러한 상황은 빠르게 변화하고 있다.
올해부터 미식축구 선수들은 엄지손가락 크기의 무선송신기가 장착된 선수복을 입고 경기를 하게 된다. 이 무선 송신기는 1초에 12번의 신호를 내보내며 경기장에 설치된 22개의 수신기를 이용해 개별 선수의 움직임을 정확하게 파악할 수 있다.
이렇게 얻어진 정보를 활용하는 방법도 논의되고 있다. 우선 실시간 중계보다 하프타임 때 설명하기 위한 자료를 제공할 예정이며 장기적으로는 경기 준비에 이용하는 방안도 연구되고 있다.
빅 데이터는 또한 농구에서도 활용된다. 미국 프로농구에서는 현재 카메라를 이용해 선수들의 개별적인 움직임을 기록하고 있다. 즉, 선수의 2차원 좌표와 농구공의 3차원 좌표가 1초에 25회 간격으로 기록된다.
이를 분석해 선수 평가에 활용하고 있다. 예를 들어 선수가 공을 얼마나 효율적으로 분배하는지에 대해 통상적으로 사용하는 어시스트보다 패스를 받은 선수의 골 성공률이 더 나은 지표라는 것을 밝혀냈다.
또한 경기 전략의 수립에도 활용될 수 있다. 예를 들어 데이터 분석을 통해 코너에서의 3점 슛이 가장 효율적이라는 것을 발견했다. 하지만 야구처럼 이를 통해 매치업을 분석하고 승패를 예측하는 일은 아직 많은 노력이 필요하다.
스포츠 경기에서 빅 데이터의 활용은 아직은 초기 단계다. 하지만 선수 평가, 경기 준비 및 운영, 경기 해설, 구단 홍보 등의 다양한 분야에서 이미 그 효용성이 입증됐고 정보통신기술(ICT)의 폭발적 발전을 고려하면 10년 후 스포츠 경기의 모습은 지금과 크게 달라질 것으로 예상된다.
이지수 한국과학기술정보연구원 책임연구원
© 매거진한경, 무단전재 및 재배포 금지