-
-
R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지, 제3판
김권현 지음 / 숨은원리 / 2022년 1월
평점 :
데이터 전처리는 데이터분석가에게 60~70% 정도의 공수를 요구하는 업무로서, 중요하기도 하지만 시간이 많이 소요되는 힘든 작업입니다. 다르게 말하면 데이터분석 및 시각화가 빛이라면 전처리는 그림자 또는 수면 아래에서 발버둥치는 오리발이라고도 비유합니다. 힘든 일이지만 대충 처리한다면 분석과정에서 오류를 유발할 수 있습니다. 이 책 <R로 하는 빅데이터 분석>은 전처리와 시각화에 특화된 R 프로그래밍 교재로서 프로그래밍 지식이 조금 있는 분들에게 적합한 책입니다.
<R을 이용한 빅데이터 분석>는 데이터의 전처리와 시각화를 위해 가장 많이 사용되는 오픈소스 프레임워크인 R을 이용합니다. R은 스크립트 기반 프로그래밍 언어이면서 데이터를 처리할 수 있는 수 많은 오픈소스 라이브러리를 가지고 있는 프레임워크입니다. 이 책은 R 프로그래밍 언어를 배우기 위한 책은 아니며 기초적인 프로그래밍을 만들 수 있는 실력은 갖추고 난 후에 접하는 것이 좋습니다. 물론 책에서 자료구조, 행렬, 날짜처리, 변수 등을 다루지만 모두 데이터분석 전처리를 위한 문법 위주로 설명합니다.
시중의 다른 R 프로그래밍 서적들과 다른 점이 있다면, 문법과 기능을 하나씩 나열하는 것이 아니라 이런 기능들이 데이터 전처리에 어떻게 사용되는 지를 중점으로 설명합니다. 그리도 데이터 전처리의 중요성, 필요성, 목적, 기능 등에 대한 개념적인 이해를 우선적으로 설명하므로 목적을 이해하고 진행할 수 있습니다. 전처리에서 까다로운 날짜처리, 숫자처리, 문자열처리, 정규표현식 등 모두 주요 기능을 모두 따라하며 배울 수 있습니다. 그리고 패키지를 사용하는 방법도 설명하는데 dplyr를 초반에 설명하고 중반에서는 데이터 테이블 (data.table) 패키지를 설명합니다.
책에서는 데이터 전처리를 위한 함수, 기능, 정규표현식 등을 많은 분량을 거쳐서 설명하고 있습니다. 따라할 수 있는 예제도 많고 연습문제를 통해서 스스로 작성해볼 수도 있습니다. 그리고 책의 후반부에 정리되어 있는 "데이터 시각화"는 많이 사용하는 패키지인 gglot2 를 사용해서 설명합니다. 시각적 맵핑(Aesthetic mapping), 기하학적 대상(geom), 보조선(Auxillary lines), 좌표계(Coordinate system), 범례(Legends), 제목과 테마(Title and Theme) 등의 시각화 방법을 배우고 나면 어느정도 수준 이상의 데이터분석가 역량을 갖출 수 있습니다.
출판사로부터 책을 제공받고 솔직하게 쓴 글