-
-
쉽게 시작하는 캐글 데이터 분석 - 캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지!
시노다 히로유키 지음, 조태호 옮김 / 길벗 / 2021년 9월
평점 :
인공지능,빅데이터, 데이터 분석에 관심있는 사람이라면 캐글(kaggle)을 한번쯤 들어봤을 거라고 생각한다. 캐글은 데이터 분석 경진 대회 플랫폼으로 여러 데이터셋과 다양한 모델을 활용하여 데이터를 분석해 그 정확도를 평가하는 여러 대회가 모여있는 곳이다. 전세계 모든사람들이 가는 곳인 만큼 나도 관심있어서 몇번 들락나락 거린 정도였지 실제론 어떻게 할 방법이 없어서 그냥 시도만 몇번해본게 전부였다.
이렇듯 인공지능이나 데이터분석에 관한 관심이 커지고 나처럼 몇 번 시도해보려는 사람이 많이 나와서 그런지 여러 출판사에서 캐글 관련 책이 등장하는 쪽이었다. 최근에는 한빛에서 데이터가 뛰어노는 AI 놀이터, 캐글이라는 책을 서평을 작성한 적이 있었고, 이번에 읽은 책도 캐글관련도서이기도 하다.
이 책은 캐글 대회 참여방법부터 캐글 대회를 직접 참여한 사람을 인터뷰해본 내용을 담는 등 캐글과 관련된 전반적인 정보를 담은 책이라고 볼 수 있다. 실제 코드와 관련된 리뷰도 있긴 하지만, 그에 대해 자세히 다루기 보다는 캐글 전반에 대한 프로세스에 이해에 가까운 책이라고 볼 수 있을 것이다.
초반에는 캐글이 어떤 곳이고 어떻게 도전할 수 있는지 그 방법을 자세히 소개하면서 캐글을 모르는 사람들에게 일종의 배경지식을 쌓는것을 보여주고 있었다. 그러면서 그 다음 목차로 환경세팅을 보여주고 있어, 실제 대회를 참가하기 전에 어떤식으로 준비하면 되는지를 친절하게 설명하고 있었다.
그 뒤로는 책의 대부분을 차지하는 타이타닉과 주택가격예측 코드리뷰가 등장하였다. 각 주제별로 EDA부터 간단한 모델링 까지 모든 과정을 통해 어떤 식으로 코드를 작성하는지를 코드별로 자세한 설명과 함께 소개하는 부분을 담고 있었다. 단순하게 분석하는 과정뿐 아니라 시각화 방법, 모델 선정, 원하는 데이터 추출 등 다양한 방법으로 접근을 시도하는 것을 가르쳐줘서 자기가 맞닥뜨린 데이터에 원하는 목표에 맞출 수 있는 그런 접근방법을 하나하나 보여주는 것 같아 개인적으로 괜찮다는 생각이 들었다.
전체적으로 캐글에 대한 이해와 도전하는 방법에는 간략하게 잘 설명이 된 책이라 생각이 든다. 물론 이 책에서 깊은 분석을 다루진 않고, 캐글에 대한 정보와 몇가지 예시를 통해 이해하는게 목적이긴 하지만, 그래도 전반적인 캐글에 대한 프로세스나 이해도 자체는 꽤나 괜찮다는 생각이 들기도 한다. 깊은 코드 분석보단 캐글에 대한 소개가 목적인 만큼 이에 대한 정보를 찾고 싶은 사람이라면 꽤나 괜찮은 책이라 생각된다.