-
-
SQL로 시작하는 데이터 분석 - 실무에 꼭 필요한 분석 기법 총정리! 실전 데이터셋으로 배우는 시계열, 코호트, 텍스트 분석
캐시 타니무라 지음, 박상근 옮김 / 한빛미디어 / 2022년 8월
평점 :
## 한줄 서평
sql 문법은 아는데, 유저 데이터, 고객 거래 데이터를 어떻게 분석해야할 지 막막하다면 추천하고 싶은 책
## 학습 후기
업무에서 hive-sql을 쓰고 있어 문법 구조가 완전히 동일하지는 않았지만, 코드를 하나하나 뜯어보고 이해하기 위한 책이라기 보다는 데이터 분석의 흐름과 관점을 이해하는 것 자체가 실무에 많이 도움이 되었다.
특히, 하나의 주제를 선정해 단기간에 분석 결과를 내고 사업부서와 소통해야하는 상황에 있었던 필자는 하기와 같은 내용에 도움을 많이 받았다.
**분석 목적에 따른 분석 방법 선택, 논리적으로 결과를 기술하는 법**
분석가의 업무 자체가 사업부서와의 소통을 기본으로 한다. 그래서 분석 결과를 상대가 이해하기 쉽도록 분석의 <배경/목적 - 내용 - 결과/결론>이 논리적으로 정리하고 그리고 비즈니스 관점에서 중요한 핵심만 선별해 전달하는 스킬이 필요하다.
예를 들어, "트렌드 분석"이라는 분석 목적이 있다고 하면 데이터를 수집하고 분석해 집계하는 방법은 하기와 같은 것들을 쉽게 떠올려 볼 수 있다.
1. 분석 대상 기간 전체의 매출액 추이를 본다.
2. 분석 대상 기간을 구간을 나눠 매출액 추이를 본다.
- 구간 비교 : 노이즈가 제거된 트렌드를 확인할 수 있다.
- 지표 : 전년 대비 증감율을 본다.vs 전월 대비 증감율을 본다. vs 현재 월의 매출을 최근 3년간 동월과 비교한다.
이러한 생각의 흐름을 단순히 하면서 정리하는 게 아니라 목적에 따라 분석 혹은 집계 방법이 달라지기 때문에 "왜 내가 이런 지표를/방법을 선택해서 사용했는 지" 분석 관점을 정리해야한다. sql로 시작하는 데이터 분석 책의 전개가 이러한 생각 흐름 정리에 큰 도움이 되었다.
필자는 고객의 거래 데이터를 다루고 있었는데, 구체적으로 도움이 되었던 것 부분은 3장과 4장이다.
3장 시계열 분석 파트는 계절성과 같은 노이즈를 제거한 트렌드 파악과 같이 전체적인 데이터의 경향을 파악함에 있어 책의 분석 흐름이 보고서 작성에 큰 도움이 되었다.
4장 코호트 분석 파트는 코호트별 차이(리텐션, 특정이벤트발생 등)를 파악하는 분석 관점을 참고해 여러가지 관점에서 그룹간 유의미한 차이를 도출해볼 수 있었다.
sql을 사용해 유저 데이터, 고객 거래 데이터를 분석하고 있다면 혹은 분석을 입문한다면 추천하고 싶은 책이다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.