-
-
R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지, 개정판
김권현 지음 / 숨은원리 / 2020년 1월
평점 :
구판절판
빅데이터 분석 및 인공지능의 급부상으로 오픈소스인 R과 파이썬이 각광을 받고 있다. 다양한 분석을 위한 통계 및 데이터 마이닝 패키지를 제공하면서 동시에 무료로 이용할 수 있는 장점이 있다.
저자는 R에 기본적인 자료형과 데이터 구조와 함께 알아두면 편리한 dplyr과 data.table 유틸리티 패키지를 설명하고 있다. 응용으로서 기술통계와 ggplot2를 이용한 시각화를 다루고 있다.
R의 자료형은 numeric과 character, logical(boolean), factor, Date/POSIXct를 설명하고 있다. 이 중 factor, character, Date/Time 자료형은 별도의 챕터를 두어 상세히 설명하고 있다. factor는 데이터 값에서 중복을 제거하고 오름차순으로 1부터 숫자로 표현하는 타입으로 다른 언어에서는 제공하지 않는 자료형이다.
R의 데이터 구조는 벡터, 매트릭스, 행렬, 배열, 데이터프레임, 리스트를 설명하고 있다. 벡터와 매트릭스, 행렬, 배열은 모두 동일한 자료형 묶음을, 데이터프레임과 리스트는 서로 다른 자료형 묶음을 다룬다. 데이터 분석할 때 자주 사용하는 데이터 프레임은 편리한 대신 대용량 데이터에서는 속도가 느리다. 그래서 저자는 빅데이터를 처리할 때는 data.table 패키지를 활용하여 속도를 개선하는 방법도 설명하고 있다.
저자는 비정형 텍스트 분석에서 많이 사용하는 정규식을 설명하고 있다. 정규식은 R뿐만 아니라 다른 프로그래밍 언어에서도 잘 활용할 수 있어 한 번 익혀두면 일석다조의 효과가 있다. 자료를 잘 다룬다면 시각적으로 표현하는 것도 무척 중요하다. 기본적인 히스토그램, 바이플롯에 설명하고 시각화 전문 패키지인 ggplot2 패키지를 이용하면 변수의 특성에 따라 다양하고 유용한 그래프를 마음껏 만들 수 있다.
저자는 풍부한 경험을 바탕으로 다른 책에서 놓칠 수 있는 데이터 구조, 패키지를 나름 잘 활용할 수 있도록 설명하고 있다. 저자가 만든 순서대로 책을 학습한다면 빠른 시간내에 중급 정도의 실력을 갖출 수 있다.