쉽게 시작하는 캐글 데이터 분석 - 캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지!
시노다 히로유키 지음, 조태호 옮김 / 길벗 / 2021년 9월
평점 :
장바구니담기


데이터 분석이란? 

일상 속에서 만나는 많은 데이터들을 활용함으로써 다양한 업무를 발전시킬 수 있다. 데이터를 상황에 따라 다양한 분석방법을 통해 활용한다면 더욱 데이터를 정확하게 파악할 수 있다. 데이터 분석에서는 다루고 있는 데이터 범위를 잘 아는 것이 중요하다. 데이터 분석의 목표나 목적이 얼마나 달성되었는가를 나타내는 지표와 평가 또한 중요하다.


이 책은 전세계 데이터 과학자들이 경쟁하는 데이터 분석 경진대회 플랫폼인 캐글을 통해 데이터 과학을 손쉽게 배울 수 있는 책이다.



목차는 

우선 실전 분석에 들어가기에 앞서, 기본적인 환경이나 개념에 대해 설명한다. 이후에 데이터 분석가라면 누구나 아는 유명한 타이타닉 데이터와 주택 가격 예측 데이터를 통해 분석한다. 



데이터 분석의 절차

데이터 분석을 할 때는 절차에 따라 진행을 해야한다.

수집 > 전처리 > 탐색 및 가시화 > 특징(feature) 값 추출 > 모델 작성, 예측 및 분류 > 모델 검증

위와 같은 단계로 진행이 되는데, 학습 데이터(train data)와 테스트 데이터(test data)를 나눠 진행한다.



데이터 분석 환경


언어

데이터 분석 시 다양한 툴과 프로그래밍 언어를 사용할 수 있지만, 이 책에서는 파이썬을 사용하기로 했다. 파이썬은 다양한 데이터 관련 라이브러리를 사용할 수 있고 굉장히 유연한 언어이기 때문에 데이터 사이언스 분야에서 널리 사용되고 있다.

2019년 캐글러를 대상으로 어떤 언어를 사용하는지 물었던 설문조사에서도 당당히 1위를 차지한 언어가 파이썬이다.


작업 환경

로컬 컴퓨터로 작업을 할 지, 클라우드에서 할 지 선택해야 한다. 클라우드는 보통 구글이나 aws등의 서버를 통해 이용하거나 캐글에서 제공하는 커널에서 작업이 가능하다. 혹은 코랩에서도 가능하다. 로컬에서 하려면 CPU로는 성능이 부족할 수 있어 GPU를 사용하는 것을 추천한다. 주피터 노트북을 통해서도 작업이 가능하다. 아나콘다 프로그램을 통해 파이썬과 기타 편리한 라이브러리를 설치하여 손쉽게 사용할 수 있다.



데이터 내려받기

이 책에서 다루는 타이타닉 데이터나 주택 가격 예측 데이터는 캐글 홈페이지에서 경진대회 참가 신청을 통해 데이터를 내려받을 수 있다.


멀게만 느껴지던 데이터분석을 쉽게 알려주는 책이다.




이처럼 밑바닥부터 쉽게 데이터분석을 하는 법을 알려주기 때문에 컴맹이라고 할지라도,

코딩을 전혀 모른다고 할지라도 이 책을 통해 누구나 쉽게 데이터분석을 접하고 경험할 수 있다.

4차산업혁명이 뜨거운 감자인 지금,

데이터를 내 손으로 직접 다뤄보는 경험을 통해

한층 더 성장하고 업무 역량을 늘릴 수 있다 생각한다.


출판사로부터 도서를 제공받은 후 솔직하게 작성한 리뷰입니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo