그것이 R고 싶다 - R스튜디오에서 클라우드까지 데이터 과학자가 꼭 알아야 할 R 패키지 활용법
양중기 지음 / 한빛미디어 / 2018년 7월
평점 :
절판


내 인생의 2번째 R 책을 읽어봤다.

 

한 권은 그야말로 프로그래밍 초보자 대상의 책이었고... 

이번 책은 그보다는 조금 더 다양하고 넓은 범위를 다루고 있는 책이다.


찬찬히 살펴보면...


이 책의 머리말에는 데이터 과학을 공부하기 위한 수단으로써 R을 추천했고, 

이 책의 대상은 R 언어를 처음 다루는 초보자와 실무자를 위한 노하우를 수록하고 있다고 적혀 있다.

그래선지, 내가 전에 스터디했던 책보다는 상당히 많은 부분을 다루고 있다.


대략 정리해 보면...


1. MRO(Microsoft R Open)에 대한 소개. (나는 이런 것이 있는 줄은 전혀 몰랐다.)

2. 각종 데이터 수집 및 다운로드 방법. (특히, API 데이터 다운받는 방법에서 감동 먹었다.)

3. 의사결정나무, 랜덤포레스트 데이터 분석 (시장조사론에서 배운 통계학에선 나오지 않는 내용이다.)

4. 관계형 데이터베이스(MS SQL 서버)와의 데이터 연동

5. ggThemeAssist 패키지를 활용한 데이터 시각화 (시각화 옵션 지정을 이렇게 편리하게 할 수 있다니...)

6. AWS(Amazon Web Service), 애저를 활용한 클라우드 환경에서의 데이터 분석

 

상당히 많은 부분을 다루고 있다.

 

그렇다 보니, 내 생각은... 

이 책은 프로그래밍 언어를 처음 공부하는 완전 초보자에겐 어려울 수 있다고 생각한다.

 

URL에 접속해서 R 소프트웨어를 다운받는 내용 등은 무척 상세히 가르쳐 주고 있지만...

패키지에 포함된 함수를 설명하는 내용이라든지 변수를 지정하고 입력하는 내용... 등

기본적인 사항에 대해선 자세히 설명하고 있지 않다.

 

하나 예를 들면...

"A_score <- c(90, 80, 75, 60, NA); A_score" 라는 코드를...

"5명 중 4명의 시험 점수가 각각 90, 80, 75, 60 이지만 5번째 사람의 점수를 모르는 경우 NA로 표현한 예제"라고 설명하고 있다.


"A_score"는 변수고 "<-"은 입력을 의미하고, "c()"함수는 데이터를 하나로 결합시키고, "90~NA"는 시험 점수다...라고 설명해야 이해할 수 있는데 완전 초보자들이기 때문이다.

 

 

물론 프로그래밍이란 것이 모든 함수를 자세히 설명하지는 못한다. (이 책에서는 주요 패키지의 치트 시트를 소개함으로써 책에서 미처 다루지 못한 내용을 참고하길 권하고 있다.)

 

그렇지만 완전한 초보자의 입장에서는 이해하지 못하는 내용이 중간에 섞여 있으면, 학습의지가 꺾일 수도 있기 때문이다.

 

차라리 독자층을 좁히고 내용을 구성하는 게 더 좋았을 것이라고 생각한다.

 

 

그리고 코드를 실습하다 보니... 

R 버전 문제인지, 아니면 다운받은 데이터 문제인지 예제대로 실행되지 않는 경우가 있었다.

 

NHIS_OPEN_GJ_2015.csv 데이터의 필드명 "신장(5Cm단위),체중(5kg단위)"에서 문제가 있었다.

csv 파일에서 필드명을 복사해서 코드에 붙여넣기하면서 해결하긴 했다.

 

참고로 내가 실습한 환경은 R 3.4.3, R 스튜디오 1.0.153 버전이었다.

 

 

이 책에 대한 내 생각을 종합해보면...

스스로 공부하길 좋아하는 독자에게 추천할 만 하다고 생각한다.


이 책에선 너무 자세한 설명보다는 스스로 찾아볼 수 있도록 유도하는 부분이 많기 때문이다.


당연히 한빛미디어 홈페이지에 가서 실습 코드를 다운받아 돌려볼 수도 있지만...


직접 코드를 입력해 보면서 공부하길 추천한다. (난 그렇게 했음에도 여전히 초보자를 벗어나지 못하고 있다. ㅠㅜ)

그리고 프로그래밍 공부는 정해진 코드를 따라하는 것만으론 충분하지 않고, 스스로 공부하고 코드를 많이 짜보는게 중요하기 때문이다.

 

반면에 약간 아쉬운 점은...

데이터 분석 프로젝트 실무 예제를 주고, 차근차근 순서대로 분석하고 결론에 이르기까지 흘러가는 프로세스에 대한 내용이 있었으면 한다.

 

이 책에서 배우는 코드나 함수 등은 결국 데이터 분석에 활용하기 위함이다.

그러므로 실제 데이터 분석 프로젝트를 통해 R을 활용한 데이터분석 (코드, 함수, 환경설정...) 등을 실습해 본다면 더욱 좋았을 것이라고 생각한다.

 

 

어쨌든 이 책 덕분에 문과생 출신 기획자가 또 한 번 R 언어를 공부해봤다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo