친절한 R with 스포츠 데이터
황규인 지음 / 영진.com(영진닷컴) / 2021년 7월
평점 :
장바구니담기


 

대부분의 스포츠에서 통계, 즉 데이터는 굉장히 중요하다. 승률, 방어율 등을 비롯해서 각종 선수들의 능력들이 모두 수치로 환산되어 보여지기 때문이다. 이 책은 동아일보에서 스포츠 기자로 일하고 있는 저자가 각종 스포츠 통계가 보여주는 데이터 과학에 대해 알기 쉽게 알려주고 있다.

 

농구, 배구, 야구, 축구, 테니스 등 스포츠 통계를 이용해 사소하지만 흥미로운 주제들을 데이터 과학으로 풀어내 고 있어 스포츠를 즐겨 보는 사람이라면 더욱 재미있게 읽을 수 있을 것이다.

 

 

저자는 서두에서 이 책은 '데이터 과학'이라는 세계를 'R'이라는 언어를 통해 이동하는 법을 배우는 'R 여행 회화'책이라고 말하고 있다. R언어란 요약 통계 및 데이터 분석을 위한 오픈 소스 프로그래밍 언어 및 개발 실행 환경을 말한다.

 

프로그래밍 세계에서 가장 인기 있는 프로그래밍 언어는 'C'이다. 그 다음으로 파이썬, 자바 등이 있고, 'R'은 9번째 정도 된다. R은 데이터 분석 말고는 사실 쓸 일이 별로 없는 언어인데, 통계 계산을 위해 초보가 배우기에는 상대적으로 쉬운 언어이기도 하다.

 

 

이 책은 tidyverse, tidymodels 패키지를 활용한 데이터 정리 및 변형, 모델링, 분석 결과 정리 등 누구나 쉽게 R로 데이터 분석을 시작하고 활용할 수 있도록 도와준다. R 언어학 개론으로 시작해서 패키지 관리 최강자 pacman 패키지를 거쳐 히스토그램, 막대 그래프 등 시각화를 위한 그림 그리기로 이어진다.

 

본격적으로 데이터를 원하는 형태로 정리하고 필요한 정보로 뽑아내는 작업을 하기 위해서 1982년부터 2020년까지 프로야구 팀별 타격 기록을 가지고 연습에 들어간다.

 

 

데이터 과학 세계에서는 확률과 통계가 신호등이고 표지판이며 또 흐름이다. 문제는 R 같은 프로그래밍 언어나 데이터 과학에 관심을 갖는 사람들이 가자 많이 포기하는 지점도 바로 확률과 통계라는 점이다. 그러나 데이터를 다루고 싶다면 반드시 확률과 통계를 공부해야 한다.

 

저자는 '문과생' 눈높이에 맞춰서 확률과 통계에 대해 차근차근 알려준다. 확률에 대한 기본 개념부터 시작해 프로야구를 예시로 해서 문제를 풀어내는 과정도 흥미로웠다. '프로야구 팀 롯데 자이언츠가 가을 야구에 진출할 확률은?'이라는 문제에 대한 해답을 구하는 방법이 예시로 소개되어 있다. 한 시즌 144경기 중에 몇  경기를 치른 상황에서 승률이 얼마이고, 가을 야구 마지노선인 5위 팀의 평균 승률과 비교해 남은 경기에서 최소 몇 승 이상을 거둬야 하는지 알려주는 것이다.

 

 

코로나19는 안방 팀 승률을 어떻게 바꿨을까? 나달은 정말 클레이 코트에서 강할까? 농구 포지션별 기록은 어떤 차이가 날까? 어떤 야구 기록이 득점을 제일 잘 설명할까? 어떤 배구 기록이 승리를 제일 잘 설명할까? 등등 각종 스포츠 통계를 이용해서 공부하는 데이터 과학은 딱딱하고 어렵게 느껴지는 이론을 우리의 실생활과 가까운 이야기로 풀어내고 있어 조금 쉽게 접근할 수 있는 것 같다.

 

물론 그럼에도 여전히 확률 밀도 함수는 외계어처럼 보이고, 어떤 확률 분포를 언제 쓰는지 헷갈리겠지만 말이다. 하지만 이 책을 통해 기본적인 원리와 개념을 익힌다면, 이제 다음 단계로 넘어가 차근차근 하나씩 하나씩 알아가면 된다. 수많은 스포츠 데이터들이 왜 데이터 과학을 공부하는데 유용한지 궁금하다면 이 책을 만나 보자. 누구나 쉽게 로 데이터 분석을 시작해볼 수 있을 것이다.

 

 

*출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다.


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
북마크하기찜하기 thankstoThanksTo