-
-
비전공자도 배워서 바로 쓰는 비즈니스 데이터 분석 입문 - 엑셀부터 머신러닝까지 디지털 전환(DT) 성공 가이드
김진.최정아.유서호 지음 / 마소캠퍼스 / 2021년 3월
평점 :
첫 문장
10여년 전만 해도 흔히 볼 수 있던 동네 슈퍼마켓은 롯데마트와 이맡, 홈플러스처럼
막대한 자본을 기반으로 규모의 경제를 앞세운 유통망이 등장하면서 찾아보기 어려워졌다.
비즈니스 데이터 분석의 핵심을 짚어진 책이라고 짧게 정리해보고 시작하고 싶다. 우리 기업의 이익을 극대화하거나 올바른 의사결정을 위해서 필요한 것이 데이터 분석이라고 한다. 누가 우리 제품을 더 많이 살까에서 어떤 제품이 우리 매출에 보다 많은 영향을 미치고 있을까를 분석하여 인사이트(통찰, insight)를 도출하여 올바른 의사결정을 내리는 것을 의마한다.
분석기법에 대해선 사실, 업계에 종사하는 사람이 아니면 접하기 쉽지 않다. 하지만, 우리가 살아가면서 의사결정을 한다. 의사결정을 하지 않고서 살아갈 수 없다. 쉽게, 선택을 내린다. 버스를 타고 갈지, 걸어갈지 말이다. 목적지는 누구에게나 다를 수 있지만, 선택을 통해서 나의 행동, 생각을 결정한다.
전공을 하지 않아도 교양서적으로 이 책을 접한다면 아주 나이스한 선택이라 생각한다. 책을 4개 파트로 나뉘어 있다.
1) 현실 세계에서의 데이터를 어떻게 다루면 좋을지,
2) 데이터를 수집하는 방법을 소개하며
3) 현실적으로 기업의 의사결정을 도와줄 수 있는 도구는 무엇이며,
4) 이를 의사결정권자들이 쉽게 결정을 내릴 수 있도록 '시각화'하는 순서이다.
전공자가 아니더라도 쉽게 이해할 수 있는 수준으로 책이 적혀있어서 내용의 퀄리티가 고급이지만, 쉽게 이해할 수 있도록 되어있다.
독자 중심으로 적혀 있어서 참 고마웠다.
의사결정을 위해서 확률을 익히고 공부해야 하는데, 저자는 이를 다양한 사례와 구체적인 실무 지식, 예제를 통해서 독자에게 전해준다. 예제와 함께 읽을 수 있어서 실무지식도 함께 쌓을 수 있어서 좋았다.
<느낀점>
KPI를 도출하는 프로세스를 보여준다. 복잡하다. 복잡해서 읽어보려고 하지 않는다. 시도조차 하지 않는다. 하지 않았다. 그치만, 어떤 현상이나 이벤트에 대해서는 '알고 싶고, 깨닫고 싶고, 통찰력을 갖고 싶다.'는 막연한 희망이 있었다. 어떤 것을 공부해야 하고, 어떤 것을 익혀야 하는지에 대한 가늠자가 없었다. 정보에 홍수 속에서 살고 있지만 - 파묻혀 살고 있다고 - 그것을 활용하는데는 익숙하지 않다. 그저 살았던데로, 살아왔던데로 사는 것에 익숙하다.
그 이유는 새로운 현상과 새로운 개념을 익히기도 전에 또 다른 새로운 지식이 또 등장하고 있기 때문이다. 3,000년 동안 쌓았던 인류의 지식이 2017년도에는 불과 1시간만에 쌓인다고 하고, 2020년도에는 10초만에 쌓인다고 한다. 어마어마한 데이터 양이다.
그래서, 새롭게 익힌 지식이 쓸모없어져 버리는 것도 전혀 이상하지 않는다. 방대한 양의 지식과 데이터가 이제는 휴짓조각이 되어버리는 것은 이상한 것이 아니다. 데이터를 분석하고 데이터를 만지는 사람들이 '두려움'을 느끼는 것도 같은 이치가 아닐까?
지금 현재도 무수히 많은 데이터가 생성되고 폐기되고 있고, 이것이 반복해서 일어나고 있으니 말이다. 영화 「터미네이터」에서 스카이넷이 등장하는데, 인간이 만들어놓은 인공지능이 마치, 신처럼 행동하고, 생각하고, 결정하는 것을 보면서 '영화니까 가능하겠지...'라고 생각했었다.
그러나,
이제는 현실이 되고 말았다. 정말이다.
막연한 두려움에 빠져서 흔들려서도 안 되지만 - 곤란하지만 - 미래를 준비하면서도 ‘현재를 살아야 한다’라는 에크하르트 툴레의 말이 가슴이 와닿는다.
어제도 똑같은 하루, 내일도 똑같은 하루가 되어서는 안 되겠지만, 데이터 세계에서는 한 순간도 같은 적이 없겠지만, 우리는 현재를 살아가고 있다. 존재하는 것은 현재 뿐, 과거는 지나갔으며, 미래는 아직 오지 않았기 때문이다.
데이터 분석 입문서를 읽으면서 왜 철학적인 고민을 하고 있는지는 아이러니 하지만... 사색을 하는 것은 무엇보다 좋은 '시공을 뛰어넘는' 독후활동이 아닐까 생각한다.
이런 이유 때문에 책을 한 자라도 더 읽으려고 노력하고 있다. 갈 길이 멀게만 느껴진다. 그래도, 그럼에도 앞으로 나아가야 한다. 끝.
<내용 발췌>
전공자가 보면 '코웃음' 칠 정도의 내용 정리지만, 이 책의 독자를 감안해보면 아주 쉽게 이해할 수 있는 내용이기 때문에 제일 좋았던 부분(웃음)
1. 경향분석(Trend analysis)
: 시간의 경과에 따른 데이터의 변화를 분석하는 방법
1) 내년도 판매량은 어느 정도가 될 것인가?
2) 향후 2~3년의 판매량은 어떻게 될 것인가?
3) 내년도 제품 카테고리별 수요량은 어떻게 될 것인가?
4) 계절적 용인을 감안했을 때 원재료 확보 전략을 어떻게 수립할 수 있을까?
2. 비교분석(Comparison analysis)
: 분석 대상을 항목별로 나누어 값을 비교하는 방법
1) 가장 높은 판매금액을 발생시키는 제조사는 어떤 회사일까?
2) 어느 해에 최고의 매출이 발생했는가?
3) 어떤 제품별 하위 카테고리가 최고의 매출을 발생시켰는가?
4) 어떤 국가가 가장 낮은 이익을 기록했는가?
3. 순위분석(Ranking analysis)
: 값에 순위를 매겨 인사이트를 도출하는 방법
1) 올해 판매에 가장 큰 기여를 한 TOP3 달은?
2) 조회 조건에 따른 동적 랭킹은?
3) 연도별 최고 판매량을 기록한 국가는?
4. 기여분석(Contribution analysis)
: 데이터에서 특정 항목이 전체에서 차지하는 비율
- 제품 카테고리와 판매채널의 매출 기여도나 오프라인과 온라인의 매출 비중, 국가별 이익 기여도, 연도별, 분기별, 브랜드별 매출 기여도 등을 도출할 때
5. 빈도분석(Frequency analysis)
: 데이터나 사건이 발생한 빈도를 계산하는 방법
6. 차이분석(Variance analysis)
: 예실분석이라고 하고, 어떠한 값에 따라 차이를 분석할 때는 벤치마킹 분석이라고 함
1) 목표 판매량 대비 실질 판매량 간 차이 도출
2) 벤치마킹 목표 데이터와 비교 데이터 간 차이점 도출
3) 이전 달 실적 간 차이점과 비율 도출
- 칼럼 그래프 또는 라인 그래프로 시각화함
7. 파레토분석(Pareto analysis)
: 10세기 이탈리아 경제학자인 빌프레도 파레토의 이름에서 기원한 파레토 분석은 적은 비율로도 큰 효과를 불러일으키는 요소를 분석하는 방법이며, 전체 원인 중 20%가 전체 결과의 80%를 유발하는 것
1) 20% 이하의 고객이 회사 매출의 80%를 점유하거나 이익의 80%를 담당하는 제품이 20% 이하인 현상
8. 상관분석(Correlation analysis)
: 두 변수에 대한 데이터를 비교하여 상호 관련 여부를 도출하는 방법
1) 매출과 이익의 관련 여부 분석
2) 국가별 매출과 이익의 관련성 분석
- 분산형 그래프 또는 거품형 그래프로 시각화
9. 카이제곱검정(Chi-squared test)
: 문자와 문자데이터, 즉 범주형 변수 간의 관련성을 검증하는 방법이다. 카이제곱검정의 창시자는 피어슨 통계의 칼 피어슨(Karl Pearson)이다. 이 검정 방법은 수집한 자료의 빈도가 이론상 기대 빈도와 통계적으로 다른지 판단하고자 할 때 사용하는 추론 통계 방식이다.
10. T-검정(T-test)
: 문자와 숫자 데이터 간 관련성을 검증하는 방법이다. 윌리엄 실리 고셋(William Sealy Gossaet)으로, 필명 Student로 유명한 사람이다. 윌리엄 고셋은 기네스 맥주 회사에서 맥주의 맛과 향을 유지하면서 동시에 생산량을 늘릴 수 있는 가장 적절한 홉의 비율을 도출해내는 데이터 분석 업무를 맡았고, 이때 그가 발견한 성과를 논문에 제출하지 못해서 Student라는 가명으로 학술지에 발표하여 T-검정이라는 이름이 유래했다.
T-검정은 두 집단 간에 평균의 차이가 있는지, 있다면 통계적으로 유의한 차이인지를 분석하는 검증 방법이다.
11. 회귀분석(Logistic Regression)
: 숫자와 숫자 데이터 간 관련성을 분석하는 회귀분석은 영국의 인류학자인 프랜시스 갈톤(francis Galton)이 한 논문(출처: Anthropological Miscellanea - The Journal of the Anthropological Insitite of Great Britain and Ireland Vo. 2, (1873))에서 평균으로의 회귀 현상을 설명하며 최초로 연구하였다.
숫자와 숫자로 이루어진 변수 사이에서 나타나는 경향성을 설명한다. 변수 사이에 있을 법한 관계를 바탕으로 세운 여러 가설을 회귀 모형이라고 한다. 그리고 회귀 모형을 기반으로 데이터의 영향, 가설 실험, 인과 관계 모델링 등 통계적 예측을 회귀식을 적용할 수 있다.
한 권의 책으로 데이터 실무지식을 익히는게 100% 이해될 수준까지는 욕심이겠지만, 어느 정도 윤곽과 입문서로는 제격인 책이다. 더 자세한 공부를 하기 위해서는 따로 전공서를 탐독해야하지만, 이 책을 통해서 데이터분석을 통해 인사이트를 찾아내는 연습은 충분히 해볼 수 있을 것이다.
조금 더심화된 데이터 분석에 대한
교육을 보고 싶다면 마소캠퍼스로 고고싱~
https://www.masocampus.com/