R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지, 제3판
김권현 지음 / 숨은원리 / 2022년 1월
평점 :
장바구니담기


데이터분석은 이제 인공지능을 배우는 기초가 되었습니다. 인공지능을 배우려면 머신러닝과 딥러닝을 배우지만 그것을 공부하기위한 기초로 데이터분석을 할수가 있어야 합니다. 물론 데이터분석자체만으로도 매우 큰 활용성이 높기는 합니다. 데이터분석은 데이터전처리가 70% 분석이 20% 그리고 시각화가 10%정도의 비율로 중요성을 나누기도 합니다. <R로 하는 빅데이터 분석>은 분석자체보다는 데이터전처리를 좀더 원활히 할 수있도록 학습배분을 합니다. 더우기 이 책은 '제3판'으로 2019년 초판을 발행한 이후 2020년 개정판을 발행한후 2년만에 저자가 좀더 공부했으면 하는 날짜부분, 정규표현식 부분들을 수정 추가하여 데이터분석에 좀더 완성도있는 개념과 실제방법을 소개하고 있습니다.

저자 김권현 서울대 인지과학박사는 서울대 사회교육원에서 R을 가르치고 서울소재 대학에서 심리통계와 분석프로그램을 가르치고 있습니다.

R은 통계학에 최적화된 언어입니다. C나 파이썬 같은 컴퓨터프로그램과는 달리 데이터를 입력하여 처리와 출력을 하는 역할만 합니다. 사용방법은 필요한 기능을 패키지로 묶어서 install.packages()로 불러옵니다. 블러왔다고 바로 쓸수있는건 아니고 library()를 사용해서 사용할 수 있습니다. 이것이 R언어의 출발입니다. 타입, 행렬, 배열 그리고 원래 R의 강력한 기능인 data.frame을 알아야 합니다. 이기능을 파이썬에서는 판다스로 구현을 합니다. 그리고 R로 읽기(txt,excel,csv), 항상 한글이 깨지는 인코딩을 해결해야 하기에 문자열관련지식은 필수입니다. 그리고 데이터전처리에서 날짜처리에 많은 어려움을 겪는 경우가 있는데 이는 다양한 경우의 수때문입니다. 음력, 국경일, 날짜갱신문제등 실무에 들어가면 복잡한 것을 좀더 디테일하게 정리해줍니다.

통계를 위한 전처리가 끝났으면 분석을 해야 합니다. 이를 위해서는 기술통계량을 추출해야 합니다. 그때 사용하는 방법이 mean, median, mode, max,min등을 사용하고 패키지로 prettyR, psych,Hmisc, pastecs의 함수를 사용합니다. psych::describe()엄청 자주사용해서 요약통계치를 구합니다. 통계를 뽑았으면 그것을 시각화해야 합니다. 시각화는 데이터의 결과를 쉽게 이해시키는 방법이죠. 그 패키지는 ggplot2입니다. ggplot2를 이용하면 바챠트, 산점도 등 다양한 그래프를 그릴수있고 퍼시팅을 통해 변수에 따라 분리된 시각화를 만들수있습니다. 모양,크기, 색상, 비교 등 다양한 표현이 가능합니다.

프로그램은 학습을 해야 할 내용이 많습니다. 언어도 익혀야 하고 활용성도 높여야 수준있는 실력자가 될 수가있습니다. 더우기 매일해야 컴퓨터프로그램이 손에 익습니다. <R로 하는 빅데이터분석>이 기초과정이라기 보다는 좀더 수준있는 내용을 다루는 것은 확실합니다.그러기 위해서는 예시된 코딩을 손을 직접치는 것도 좋지만 저자의 github에서 전체코드를 다운을 받아서 빠르게 살펴보다는 것도 학습에 유용합니다. (저자 github는 구글에서 kwhkim/DAwR03a로 검색하시면 다운가능) 데이터는 점점 더 많아지고 있습니다. 그속에서 보석을 꺼내야 할 시간입니다.

본 도서는 출판사로부터 무상으로 제공받아 주관적인 리뷰를 했습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo