데이터 전처리 대전 - 데이터 분석을 위한 파이썬, SQL, R 실천 기술
모토하시 도모미쓰 지음, 윤준 옮김 / 한빛미디어 / 2019년 11월
평점 :
장바구니담기


데이터 전처리 대전, 모토하시 도모미쓰 지음, 윤준 옮김, 한빛미디어, 2019


 


4차 산업혁명 기반 기술은 우리 일상생활에 빠르게 적용되고 있다. 인공지능, 빅데이터, 자율주행 등의 용어가 낯설지 않고, 근래에 사용화가 되어 우리 일상에 편리함을 제공해 줄 것으로 기대된다. 최근에 데이터 사이언스는 마케팅 분야에도 빠르게 적용되고 있다. 그동안 기업의 마케터 개인의 경험과 감각에 의존해 대중을 상대로 마케팅활동을 했다면, 이제는 빅데이터를 활용한 데이터 사이언스를 기반으로 개별 소비자의 행동을 예측하고, 상품과 서비스를 제안해 판매를 유도하고 있다.


 

맛있는 요리를 만들기 위해서는 요리사의 요리기술도 중요하지만, 좋은 원물 재료가 필요한 것처럼, 데이터 분석을 위해서는 분석 목적에 최적화된 데이터가 필요하다. 하지만 데이터는 수집단계에서 날 것 그대로의 불완전한 경우들이 많아 원물의 흙과 모난부분들을 달라내듯 전처리가 필요하다.


 

데이터 분석의 전처리를 데이터 분석의 8할을 차지한다혹은
필요 불가결한 과정이라고 합니다.
전처리 과정이 이렇게까지 중요한 이유는(
)
전처리가 데이터 분석의 품질을 크게 좌우하기 때문입니다.(7)


 

<데이터 전처리 대전>은 이러한 데이터 사이언스에 있어 가장 기본이 되는 데이터 전처리에 대해 다루고 있다. 4개의 파트로 구성되어 있으며, 먼저 데이터 전처리가 무엇인지 설명하고 있다. 그리고 데이터 구조와 데이터 내용을 전처리하는 방법에 대해 설명하고, 실전 예제와 함께 실습할 수 있도록 구성되어 있다.


 

각 데이터 전처리에 대해 파이썬, SQL, R이라는 세 가지 언어로 구현하는 방법에 대해서 설명하고 있다. 또한 각 언어의 Awesome한 코드와 Not Awesome한 코드를 함께 보여줌으로써 Not Awesome한 코드를 Awesome한 코드로 구현하는 방법 제시하고 고민하게 해준다.


 

SQL, R, 파이썬에서 각각 구현가능한 부분과 구현되지 않는 부분들이 있어 하나의 언어로만 데이터 분석을 하기보다는 여러 방법을 병행하는 것도 괜찮을 듯 싶다. 다만 세 가지 언어를 다루다 보니, 하나의 언어만 사용하고 있다면 내용이 다소 부족하다고 느낄 듯 싶다.


 

파이썬을 이용한 데이터 분석을 배우면서 예제로 제공되는 데이터는 분석을 하는데 큰 문제가 없었는데, 실전에서 데이터를 확보해 분석을 하려고 하면 불완전한 데이터가 상당히 많았다. 데이터 양이 많지 않다면 해당 데이터를 삭제하거나, 유사값으로 채워서 사용했는데, 데이터 양이 많아지면 보정하는데 너무 많은 시간이 걸려 데이터 분석 효율성이 떨어졌다. 그래서 데이터 전처리의 중요성을 깨닫게 되었고, 데이터 전처리에 대해 세세하게 알려주는 <데이터 전처리 대전>은 구세주와 같았다.


 

<데이터 전처리 대전>은 데이터 전체에 대해 추출, 집약, 결합, 분할, 생성하여 구조를 전처리하는 방법을 먼저 소개하고, 이렇게 구조 전처리된 데이터를 활용해 분석 정확도를 높이기 위해 수치형, 범주형, 일시형, 문자형, 위치정보형으로 내용 전처리하는 방법을 소개하고 있다.


 

간단한 프로그래밍을 할 수 있는 독자라면
충분히 이해할 수 있도록 구성했습니다.
프로그래밍 언어를 전혀 모르는 초보자라면
입문서와 함께 이 책을 읽어나가길 권합니다.
그러나 전처리의 흐름을 훑어보고 싶은 정도라면
프로그래밍의 세세한 부분을 몰라도 괜찮습니다.(8)

 

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo