R 데이터 분석 머신러닝
조민호 지음 / 정보문화사 / 2021년 2월
평점 :
장바구니담기


21세기, 4차 산업혁명시대의 원유(原油)로 불리는 '데이터' !

데이터의 통계를 분석하는 대표적인 도구로 많이 사용되는 'R'은 통계 프로그래밍을 위한 핵심 기능이 주로 구현되어 있습니다.

수십에서 수백만원을 호가하는 다른 상용 프로그램(예: SPSS, SAS, Stata 등)과는 달리 무료이며, 소스코드가 모두 공개된 오픈 소스이므로 누구라도 프로그램의 정확서을 검증할 수 있고, 오류가 발견되었을 때는 스스로 수정도 가능하기에 많은 인기를 누리고 있습니다.

특히 통계 처리와 시각화 부분에서 다른 어떤 도구보다 우월하다는 평을 받고 있습니다. 최근에는 Python 라이브러리를 R에서 활용할 수 있는 패키지도 나와 Python 뿐 아니라 텐서플로(TensorFlow)까지 자유롭게 사용할 수 있게 되어 더욱 각광을 받고 있습니다.

 

 

오늘 소개해 드리는 <R 데이터 분석 머신러닝>에서는 데이터에서 특정 비즈니스 요구 성과나 목표를 달성하는 데 도움이 되는 인사이트를 발견하는 '데이터 분석가(Data Analyst)' 혹은 '데이터 과학자(Data Scientist)'가 되는 과정을 아래 3단계로 구분하고 있습니다.

1단계 : 분석을 하기 위한 도구와 분석 요령을 배우는 단계

2단계 : 분석 도구와 기법을 특정 분야(제조, 물류, 유통 등)에 접목해 적용하는 단계

3단계 : 부석 기법 자체를 연구, 개발하는 단계

당연히 본서는 이 중 1단계에 최적화된 'R'을 사용해 각종 통계 기법 들과 데이터 전처리 기법, 데이터 마이닝, 빅데이터 분석 그리고 머신 러닝에 이르기 까지 이론을 자세히 설명하고, 실무에 활용할 수 있도록 실습을 진행하고 있습니다.

특히 저자가 밝히는 본서의 차별점은 데이터 분석에서 활용되는 복잡한 수식이나 난해한 통계 이론은 제외하고, 꼭 필요한 이론을 정확히 이해할 수 있도록 예재와 함께 설명하고 있다는 점입니다. 즉, 실습을 통해 원리를 깨닫는 접근 방식이라 하겠습니다.

총 4개 파트로 나눠진 본서의 구성은 대략 아래와 같습니다.

1. R의 사용법 :

소개 및 환경 구성, 데이터 타입, 프로그래밍 기능, 데이터 조작 관련 명령어, 데이터 조작 관련 패키지 사용법 등

다양한 데이터 시각화를 위한 기본 그래프 및 다양한 그래프 소개, plot3D 패키지, lattice 패키지, ggplot2 패키지를 사용한 그래프 그리기 및 데이터 시각화 방법 정리(데이터 분석과정 데이터 시각화 방법 정리)

2. R을 사용한 통계 분석 :

표본 생성 및 기초 통계량, 독립성 및 적합성 검정, 통계 분석의 종류, 차이 & 인과(상관)관계 검정

3. R의 활용법 :

회귀분석(선형, 비선형, 중선형), 기계학습(딥러닝), 빅데이터 분석, 시계열 분석 및 몬테카를로 시뮬레이션을 포함한 특수 분석의 이론 및 실습

4. 데이터 분석 및 전처리 기법 :

데이터 분석의 유형과 데이터 탐색 과정, 데이터 클린징을 포함한 '데이터 전처리 과정 정리'(데이터 확인->데이터 형식 변경->결측값처리->이상값처리->특성 조작, 대이터 정규화와 주성분 분석(데이터 개수의 축소), 카이제곱 검정을 통한 중요 변수 선발을 포함해 효과적 분석을 위한 변수의 제거 및 선택

 

 

사실 'R'을 효율적으로 사용하기 위해서는 통계적인 지식 뿐 아니라 R의 다양한 패키지를 적시적소에 잘 활용하는게 무엇보다 중요합니다. 본서는 이 부분에 초점을 맞춰 가장 인기있는 최신 패키지를 중심으로 효과적이고 효율적인 분석 방법을 소개하고 있습니다.

또한 각종 패키지나 함수를 사용할 때 발생할 수 있는 다양한 사례들과 해결책을 그 결과와 함께 자세히 설명하고 있어, 원리 및 결과를 한 눈에 확인할 수 있는 장점이 있습니다.

데이터 분석 전문가가 알야야 하는 기술적 범위를 열거해 보자면 대략 아래와 같습니다.

1. R사용법 2.패키지 사용법 3. 데이터 분석 (통계 분석, 데이터 마이닝(머신러닝, 빅데이터분석), 응용분석)

저자가 지적하듯 본서에서 제공하는 정도 수준이면 어지간한 데이터 분석은 모두 포함한다고 생각됩니다.

또한 본서에서는 데이터 분석에 대한 전반적인 기술적 범위를 커버하고 있기에, 이를 바탕으로 각 산업 도메인에 맞는 실무 적용이 필요하다 하겠습니다. 따라서 데이터 분석을 처음 공부하는 입문자 보다는 입문을 탈출한 중급자 분들께 추천하고 싶습니다.

* 출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다. 

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo