-
-
만화로 배우는 통계학 ㅣ 만화 비즈니스 클래스 3
토모 그림, 신은주 옮김, 고바야시 가쓰히코.홍종선 감수 / 비전비엔피(비전코리아,애플북스) / 2019년 8월
평점 :
구판절판
통계학은 모든 것의 기초다.
통계학은 ‘통틀어, 즉 있는 대로 모두 모은 데이터를 계산한다’는 의미를 가진 학문이다.
통계학은 영어로 ‘스터티스틱스(statistics)’인데, ‘국가(state)’와 ‘상태(status)’라는 단어와 어원이 같다. 즉, 전쟁이나 재앙이 일어나면 정부는 대책을 수립해야 하고, 이 때 제대로 대응하기 위해서 인구의 구성과 토지 이용 상황 등을 미리 파악해야 했다고 한다. 어떻게 보면, 통계학은 정부의 주도로 발전한 학문이다.
간호사 나이팅게일이 통계를 전공했다는 것은 몰랐던 사실이다.
그녀는 전쟁터에서 사망자보다 야전병원의 열악한 위생시설로 인한 사망자가 더 많다는 사실을 통계적으로 분석해서 이를 보고했다. 그녀의 보고(로즈 다이어그램)로 인해서 야전병원의 위생은 개선되고, 사망자 수가 급격히 줄었다고 한다.
또한 회사에서 다루는 각종 데이터뿐만 아니라, 우리의 일상생활에서도 통계는 쓰인다.
시청률, 강수 확률, 야구 타율 등 다양하다.
다만 일반적인 합계, 평균, 편차 등뿐만 아니라, 좀 더 깊은 분석을 위해서는 더 많은 공부가 필요하다.
이 책은 이렇게 통계학에 대한 진입 장벽을 낮춰주는 역할을 한다.
우선 만화로 되어 있어서 읽기에 부담이 없다. 그렇다고 깊이가 없는 것은 아니다.
꽤 복잡한 이론도 다루고 있기 때문이다.
이 책의 감수를 한 고바야시 가쓰히코는 공학부 응용화학과를 졸업했고, ‘어려운 것을 쉽게, 쉬운 것을 깊이 있게, 깊이 있는 것을 재미있게, 재미있는 것을 충실하게’를 모토로 사람들이 미소 짓는 강의를 목표로 한다.
책은 총 3장으로 구성되어 있는데, 1장과 2장은 기술통계학을, 3장에서는 추론통계학을 가르친다. 이 흐름을 따라가야 실용통계학을 배울 수 있다고 한다.
이 책의 주인공은 게이트 상사 영업 2부의 에도 게이타라는 회사원이다. 그는 이미 10년차 직장인인데, 데이터 분석부로 인사 발령이 난다. 그의 동기이자 라이벌인 영업 1부의 나쓰메 후미노리는 그가 출세 코스에서 밀려났다고 놀린다.
그 곳에서 데이터 분석 부장 시부야 가즈미를 만나면서 그의 인생에 변화가 시작된다.
먼저 주인공은 평균값인 Mean, 중앙값인 Median, 마지막 최빈값인 Mode를 배운다. 이는 통계에 있어서 가장 기본이 되는 데이터다. 이들을 통계학에서 많이 쓰는 세 가지 대푯값이라고 한다.
특히 평균값과 중앙값을 잘 이해해야 하는데, 평균값이 중앙값보다 높다면 높은 수치(아웃라이어)가 많다는 의미다. 소득을 예로 들었을 때, 평균값이 중앙값보다 높다면, 고소득층이 많다는 의미이기도 하다.
평균에는 산술평균과 기하평균이 있는데, 산술평균은 덧셈의 합계를 데이터 수로 나눈 것이고, 기하평균은 데이터들을 곱해서 구하고, 증가율의 평균(제곱근)을 구한 것이다.
최빈값은 ‘데이터 가운데서 가장 많이 출현하는 값’으로서 중앙값과 마찬가지로 ‘데이터 중에서 극단적으로 큰 값’이 있어도 영향을 받지 않는다.
데이터 값이 평균값 주변에 어떤 식으로 분포되고 또 떨어져 있는지를 알아내기 위한 것도 통계학에서는 중요한 개념이다. 중심을 나타내는 지표를 ‘대푯값’, 흩어진 정도를 나타내는 지표를 ‘산포도’라고 한다. 대표적인 것이 표준편차다.
통계학에서 정규 분포는 가장 중요한 용어이고, 대부분의 통계학은 이 개념을 전제로 한다. 그래프는 좌우대칭이고, ‘종 모양’을 한다. 상대 도수 히스토그램의 계급값을 무한정 작게 만들면, 정규 분포 곡선이 나온다. 이 정규분포를 표준화 한 것이 ‘정규분포 표준화’라고 한다.
두 종류 데이터의 관계성을 분석하는 ‘상관’ 분석도 중요하다. 두 가지 변량 사이에 어떤 관계성이 보일 때 ‘상관이 있다’고 한다. 이를 나타내는 지표가 ‘상관계수’다.
상관계수 값 ‘r’은 우상향 직선 관계이면, 양의 상관관계이고 우하향 직선 관계이면, 음의 상관관계라고 한다. r이 0에 가까우면 직선관계가 없고, 1이나 –1에 가까울수록 직선적인 관계다. 강한 상관관계는 0.7 ~ 1.0 사이를 말한다.
이 외에도 추론통계학은 기술통계학에서 다루는 모든 데이터를 모으는 일이 불가능하기 때문에 생겨난 것이다. 예를 들어 시청률 조사를 할 때, 국민 전체 세대를 알 수 없기 때문에 일부만 무작위로 골라서 ‘표본조사’를 한다. 투표율을 조사할 때도 마찬가지다. 추론통계학은 확률의 개념이 들어가서, 적합도와 독립성을 검증해야 한다.
마지막으로 다변량분석의 꽃은 ‘회귀분석’인데, 이 분석을 통해서 회귀분석의 예측식에 관측 값을 대입한다. 이를 통해서 두 변량의 관계를 통계학으로 분석한다.
이 책은 어려운 통계학을 최대한 쉽게 풀어서 설명해주고, 기본 개념을 계속 설명해서, 내용을 이해하도록 유도한다. 통계학에 대한 기초 지식이 없어도 이해하는 데 그렇게 어렵지는 않다.
앞으로 빅데이터 시대를 맞아서 더 많은 이들이 데이터와 씨름을 할 것이다.
따라서 통계학은 가장 기본이 되는 학문이 될 것이고, 더욱 각광을 받을 것이라고 생각한다. 이 책이 이러한 니즈를 맞출 수 있는 가이드가 될 것이다.