-
-
야구 데이터로 배우는 파이썬 - 오타니 쇼헤이 데이터를 통해 시작하는 분석과 시각화
사이토 아마네 지음, 고범석 옮김 / 영진.com(영진닷컴) / 2025년 2월
평점 :
본 도서는 리뷰어스클럽으로 부터 무상으로 제공받아 주관적인 리뷰를 했습니다.
저자는 도쿄대 야구부소속으로 영화 '머니게임'처럼 도쿄대야구부의 기록을 데이터화해서 64연패를 끊은 경험을 <야구 데이터로 배우는 파이썬>을 통해 파이썬으로 데이터분석하는 IT 과정을 야구 데이터분석을 중심으로 분석하는 방법을 알려주고 고객데이터 분석과 데이터분석결과를 전달하는 방법까지 배웁니다. 더우기 작년에 LA다저스의 오타니쇼헤이가 50-50이라는 신기록을 세워서 야구데이터에 관심이 더 가는 상황이죠.

저자는 사이토 아마네 아마테크노대표십니다. 2000년생이시고 일본최고 명문 도쿄대출신으로 후쿠오카 소프트뱅크 호크스에 데이터분석담당으로 지금도 역할을 하시는 듯합니다.
데이터분석을 할때에는 목표설정, 진행상황시각화, 뒤돌아보기로 달성율 정량적 평가를 해야 합니다. 이 3가지 과정을 순환시키라는 거죠. 여기에 프로야구의 데이터분석대상은 편성, 육성, 전술입니다. 이를 데이터를 모아서 분석을 해야 하는데, 이때 사용하는 언어가 파이썬입니다. 사용범위는 데이터분석뿐아니라 AI, 웹애플리케이션, 작업의 자동화, 효율화 등을 시킬 수가 있다고 합니다. 파이썬을 데이터분석으로 한정하면 재사용, 라이브러리, 효율화의 장점이 있습니다. 데이터분석을 한후 전달을 할때 주로 시각화가 중요하기때문에 파이썬으로 나타낼수있는 시각화방법을 설명합니다. 막대그래프, 상자수염그래프, 히트맵 등은 각각 나타내는 의미가 다르므로 성격을 익혀야 합니다.

파이썬의 기초문법과 시각화인 그래프 방법을 완성하면 프로야구 12구단의 데이터로 총자산분석, 구장별 관중수비교으로 구단별로 재정상황을 비교해볼 수있습니다. SNS에 노출수비교를 시간대별로 그래프로 그려봅니다. 아무래도 숫자로 보여주기보다 그래프로 보여주면 휠씬 이해도가 올라갈겁니다. 문제는 데이터분석을 하더라도 행동변화를 보여야 의미가 잇다고 합니다. 그래서 데이터분석은 사이언스이고 데이터활용은 아트라고 했네요. 그래서 전달력이 중요하다는 거죠. 적절한 전달력과 피드백 등에 신경을 써야 한다고 합니다.

챗GPT를보면 데이터분석도 해준다고 합니다. 분명가능합니다만 문제는 사용자가 데이터분석의 이해도가 높아야 정확한 결과를 얻을 수가 있다는 겁니다. 그래서 검수라는 과정을 거칠수가 있고 챗GPT가 실수하는 부분도 보완이 가능해집니다. 그리고 아이디어측면에서 직접 데이터분석을 할수있느냐와 없느냐는 챗GPT를 사용함에 있어서 신뢰도 차이가 클거라고 봅니다. 그래서 야구라는 친근한 소재를 가지고 데이터분석을 경험해본다는건 데이터분석을 하는데 큰 도움이 됩니다.