-
-
R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지, 개정판
김권현 지음 / 숨은원리 / 2020년 1월
평점 :
구판절판
계속 발전중인 오픈소스 R
십수년 전까지만 해도 데이터분석과 통계 업무에는 SPSS가 SAS가 사용되는 것이 일반적이었습니다. 그 당시에는 빅데이터라는 개념이 지금처럼 일상화되기 전이었는데 그 비싸고 비싼 솔루션을 쓰는 것 밖에는 선택의 여지가 없던 때였습니다. 하지만 지금은 대부분 R기반으로 기초통계부터 빅데이터분석과 시각화까지 처리가 가능한 시대가 되었고 기존의 SPSS, SAS와의 경쟁이 계속되고 있습니다. R은 오픈소스이기 때문에 사용하는 데 라이센스 비용이 들지 않는다는 것이 가장 큰 장점이고 수 많은 (진짜 말도 안 되게 많은) 공개된 분석 패키지들이 있기 때문에 내가 개발하지 않아도 이미 다 구현되어 있는 것이 또 하나의 장점입니다. 하지만, 유료 솔루션이 아닌만큼 UI가 프롬프트 기반으로 되어 있고 패키지에 대한 이해가 부족하거나 R 스크립트를 작성하지 못하면 사용하는데 불편함이 있는 것이 단점인데 이를 위해서 이 책 "R로 하는 빅데이터 분석"과 같은 Step by Step 가이드가 필요합니다
R 최신버전 기준으로 gglpot2 까지 설명
오픈소스인 R은 수시로 버전이 업데이트되고 새롱누 패키지와 기능들이 등장하고 있습니다. 따라서 2~3년 전의 R기반의 데이터분석 교재는 이미 과거의 유물이 되어버린 것이라고 봐야합니다. 이 책은 2019년 7월 5일자 R 최신버전인 R 3.6.1 기반으로 소스코드가 제공되고 상세히 설명되어 있으므로 R 입문자들에게는 반드시 최신판으로 봐야할 책이 이 서적입니다. 그리고 가장 많이 활용되고 강력한 분석 기능을 제공하지만 옵션이 너무 다양하고 많아서 사용하기에 까다로운 ggplot2 패키지를 상세하게 설명하고 있는 것이 가장 효용성이 높습니다. 기존에 R 스크립트를 약간 사용해본 경험이 있고 빅데이터분석에 개념을 갖춘 분들이라면 빠르게 필요한 정보만 발췌하여 즉시 사용해보실 수 있는 책입니다
상세한 전처리 기법과 시각화까지 포함
빅데이터분석이라는 과정은 그 화려한 빛의 이면에 전처리 과정이라는 그림자가 있습니다. 그런데 전처리 과정이라는 그림자는 길고 깊고 어둡고 아주 중요한 역할을 하고 있기 때문에 전처리를 이해하지 않거나 허술하게 진행하면 전체 분석결과가 상이하게 도출될 수 있습니다. 이 책에서는 데이터구조와 자료형, 함수 등의 기초 문법부터 dplyr 패키지를 이용한 데이터 가공 기능을 설명하고 있어서 실무에 사용할 수 있습니다. 또한 책의 후반부에서는 많은 분들이 어려워하는 정규표현식을 알려주고 있을뿐만 아니라 간력한 시각화 사례까지 제공하고 있으므로 빅데이터분석의 A 부터 Z까지 전반적으로 진행해볼 수 있는 좋은 책입니다.