-
-
R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지
김권현 지음 / 숨은원리 / 2019년 3월
평점 :
구판절판
오래전 한참 프로그래밍을 배울 때에는 가장 유명한 통계 툴이 SPSS, SAS 같은 것이었다. 어떤 건가 호기심을 가지긴 했지만, 그때는 그다지 큰 필요성을 느끼지 못했다. 실제 우리가 알고 있는 진짜 일반적인 통계 업무에만 대부분 사용되었기 때문이다.
그런데 지금은 많은 것이 달라졌다. 통계가 요즘처럼 중요해진 적이 없었다. 인공지능, 기계학습, 빅데이터 등으로 이젠 각종 통계 계산이 없어서는 안될 존재가 된 것이다.
그러다 보니 통계 패키지에도 변화가 생겼다. IT 트렌드에 맞게 빠른 대응이 가능한 통계 프로그래밍 언어 R이 대세가 되었다. 그만큼 시중에 R 관련해서 많은 책이 나오고 있다.
그중 눈에 들어오는 책이 바로 김권현 교수의 'R로 하는 빅 데이터 분석'이다.
이 책은 많은 이들이 R을 좀 더 수월하고 효율적으로 익히기를 바라는 저자의 마음을 담아, '전체적인 맥락을 알고, 큰 그림을 볼 수 있다면, 훨씬 수월하다'라는 생각으로 쓰인 책이라 한다. 즉 단편적인 내용을 모았거나 반대로 이거저거 잔뜩 모아 담은 것이 아닌, 제대로 원리를 이해해서 다양하게 활용할 수 있는 응용력을 기르게 한 책이라는 소리다.
첫인상은 대충 떠들어 봤을 때는 딱 이거다 하는 느낌이 들지는 않았다. 내가 컬러 책을 좋아해서 그런지, 초반의 단색 구성(후반부 시각화 쪽은 컬러로 되어 있다)이 마치 대학 교재같이 딱딱해 보였고, 설명과 코드가 명확히 구분이 안돼 보였다. 뭐랄까 R 문법을 다룬 레퍼런스 가이드 같다는 느낌도 들었다. 그런데 책을 서문부터 읽어 나가면서, 느낌이 달라졌다. 다른 책에서는 아예 당연시 여기며 설명 설명조차 안 하고 넘어가는 것들을 꼼꼼히 얘기하고 있었고, 프로그래밍이나 R을 많이 써본 사람만이 잘 아는 각종 시행착오나 노하우도 다루고 있었다. 진짜 해본 사람만이 공감할 내용이 들어 있는 것이다.
그 차이는 앞 쪽에 나오는 str() 설명부터 알 수 있다. 다른 프로그래밍 언어를 써봤다면, str을 절대 structure로 생각하지 않는다. 누가 봐도 string이다. 잘못된 명명인 것이다. 이런 얘기를 주석에서 하고 있다. 보면 알겠지만, 페이지마다 많이 등장하고 있는 주석이 실질적 도움말이 되어 주고 있다.
변수 이름 붙이는 것도 프로그래머의 고민 중에 하나인데, 역시 잘 설명하고 있고, 문자열 경우, 한글 사용을 중심으로 다양한 테스트를 해서 주의할 것들을 일일이 알려주고 있다. 아울러 정규표현시도 다루고 있는데, 이런 것들은 실제 프로그래밍에서 자질구레한 것으로 애 먹지 않게 도와준다.
여러모로 저자가 얼마나 R을 가지고 놀았는지 책 속에 드러난다. 다만 이 책은 어중간한 면이 있다. 완전 초보를 위한 책이라 보긴 어렵다. 살짝이라도 R을 접해 본 분에게 어울리며, 그런 분이 이 책의 가치를 제대로 알아 볼 수 있다 생각한다. 어차피 R을 책 한권으로 마스터 하기는 힘들다 생각한다. 다른 책도 보고, 이 책을 복습하는 마음으로 본다면, 얻어 갈 수 있는 것이 많을 것이다.
'R로 하는 빅 데이터 분석'에 딱 어울리는 단어가 '츤데레'라 생각한다. 뭔가 딱딱해보이지만, 속은 R의 깊은 곳까지 친절히 설명하고 있기 때문이다. 구석구석 긁어주는 후련함이 있는 책인 만큼 R을 좀더 알고자 하는 분에게 좋은 책이다.