뛰어난 통계 분석 능력을 기반으로 적절한 알고리즘을 이용해 대용량 데이터를 분석할 능력이 있고, 새로운 가치를 창출하며 이를 유연하게 해석할 수 있는 사람 - P68
데이터 과학자의 주된 업무가 데이터 분석에서 출발한다면 수리 통계는 데이터 과학자에게 절대적으로 중요한 소양이다. 또한 데이터 과학자는 비판적 사고를 가져야한다. 이 말은 호기심을 포괄하는 의미인데, 매우 중요한 덕목이다. - P68
결론을 정하고 데이터를 대입하는 것이 아니라 데이터를 보고 유추될 결론을 상상하는 능력 - P68
어떤 데이터라도 그것에 활용할 만한 가치를 연결하는 능력은 데이터 분석을 주된 직업으로 하는 사람들에게 큰 도움이 된다. - P68
이러한 훈련과 습관은 창의력과도 연결된다. 데이터로 보는 세상은 쳇바퀴처럼 돌고 도는 현실과 많이 다르다. 어떤 관점으로 현상을 보느냐에 따라 데이터는 완전히 새로운 방향을 제시할 수 있다. 매번 반복적인 업무와 생활 습관을 가진 사람은 그것이 당연하다고 생각하지만, 데이터로 보면 이런 생각과 흐름이 잘못됐다는 것을 알 수 있다. - P69
데이터를 다루는 주변 사람들을 보면 대체로 개혁적인 성향을 가진 사람이 많다. 모두는 아니지만 조직의 혁신과 관련된 업무에 투입되는 경우가 많은 이유일 것이다. - P69
의식적으로 다르게 보는 시각을 가져보자. 남들과 시각이 똑같다면 데이터 과학자라는 가장 섹시한 직업을 갖기에는 부족하지 않을까? 많은 분야의 서적을 읽고 생각의 폭과 시야를 충분히 넓히는 훈련을 게을리하지 말자. - P69
기준 값에서 비교하려는 대상값(확률값)이 얼마나 떨어져 있는지를 나타내는 척도가 분산이다. 다시 말해 분산은 임의의 근로자 연봉을 선택하고 해당 근로자들의 연봉이 평균에서 얼마나 떨어져 있는가를 가늠하는 숫자다. - P73
분산은 편차(확률값 - 기댓값)를 제곱한 값의 총 합을 표본의 개수로 나눈 것이다. 분산이 0에 가깝다는 것은 표본(데이터)이 기댓값에 가깝게 분포함을 의미한다. - P73
선택한 데이터가 무엇이 될지 알 수 없을 때 우리는 그 값을 ‘X‘라고 표현하고 통상 ‘변수‘라고 지칭한다. 이것이 바로 데이터 분석에서의 확률변수random variable다. 그리고 이러한 확률변수들의 평균을 기댓값이라 한다. 앞에 나온 분산은 확률변수가 기댓값으로부터 얼마나 떨어져서 나타나는지를 확인하는 척도다. 그리고 이러한 분산을 비교해 가설을 검정하는 분석을 분산분석이라 한다. - P73
확률변수는 무작위로 선택된 값을 열거해 헤아릴 수 있음을 의미하는 이산확률변수와 임의의 값을 갖는 연속확률변수로 나눌 수 있다. 전자는 ‘이산가족‘의 이산을 생각하면 쉽다. 이산확률변수는 변수 x1과 x2가 각각 1과 2의 값을 가질 때 변수 x1과 x2를 전혀 별개의 사건으로 본다. 이와 반대로 연속확률변수는 변수 x1과 x2 사이의 모든 실수가 변화하며 연속적으로 발생하는 같은 사건의 연장으로 본다. - P73
확률변수가 가질 수 있는 값(확률값)과 그 값이 나올 확률과의 관계(대응)를 확률분포라 한다. 확률분포로는 크게 이산확률분포와 연속확률분포가 있다. - P74
확률분포의 종류 : 이산확률분포, 연속확률분포
이산확률분포 : 베르누이분포, 이항분포, 포아송분포
연속확률분포 : 균등분포, 정규분포, 지수분포 - P74
상관계수는 두 개의 확률변수 x와 y가 양의 상관인지 음의 상관인지를 0을 기준으로 -1과 1 사이의 값으로 나타낸다. 이와 비슷한 개념으로는 공분산covariance이 있다. 공분산은 두 확률변수의 상관관계를 파악해 하나의 일직선 (선형)상에 표현할 때 0보다 큰 경우(정의 관계)와 0인 경우 (관계없음), 0보다 작은 경우(부의 관계)를 나타내는 척도를 의미한다. - P75
공분산 상관계수는 어떤 차이가 있을까? 공분산은 선형관계가 있는지 없는지만을 나타낼 뿐 값을 명확하게 제시하지는 못한다. 즉, 얼마만큼의 정의 관계인지 또는 부의 관계인지, 그 값이 얼마가 돼야 하는지에 대한 설명이 없다. 반면, 상관계수는 명확한 값을 제시한다. x가 n만큼 크면 y도 n+1만큼 늘어나거나 줄어든다고 설명할 수 있다. - P75
분산분석 analysis of variance, ANOVA은 가설을 검증하는 방법이다. 앞서 t-검정을 통해 가설 검증을 했지만, 분산분석으로도 가설 검증을 할 수 있다. 물론 두 방식에는 약간의 차이가 있다. - P75
t-검정은 두 집단의 검정만 가능하며, 2개 이상의 집단을 비교 검정할 때는 분산분석을 수행해야 한다. - P76
분산분석은 비교 검정하고자 하는 집단들의 평균이 다를 때 집단들의 분산을 비교해 생성된 F-분포로 가설을 검정하는 방법이다. 분산분석의 개념을 정립하고 만든 사람은 앞서 소개한 로널드 피셔다. F-분포의 F도 피셔의 이름에서 ‘F‘를 따서 명명됐다. - P77
가설검정의 종류 : 정규분포, t-분포, F-분포
정규분포 : Z-분포
t-분포 : t-검정
F-분포 : 분산분석 - P77
피셔는 그의 저서《실험 계획법》에서 농작물 비교 실험을 논하며 분산분석의 개념을 전개했다. 여기에는 세 가지 핵심적인 원리가 있다. 무작위 randomization와 반복 reitetition, 통제 blocking란 개념이다. - P77
분석 대상의 선택은 실험자가 얼마나 주관적인 생각을 배제하고 객관적으로 대상을 선정하는가의 문제다. 이것이 바로 분산분석의 첫 번째 핵심 원리인 무작위다. - P78
데이터 분석에서는 작은 요인까지 고려해야 한다. 따라서 실험 (분석)은 반복적으로 수행해야 한다. 매번 같은 조건을 만들기는 어렵다. 이를 상쇄하려면 실험을 반복해 다양한 결과를 수집, 분석하고 반복 수행한 결과에서 나온 서로 다른 오차도 수치화해 분석에 반영해야 한다. 이것이 두 번째 핵심 원리인 반복이다. - P79
대상을 분석하고 나온 결과에 대한 평가는 같은 수준과 환경에서 진행해야 한다. 따라서 평가는 제한된 상황에서 이루어질 수밖에 없다. 이러한 통제의 원리는 앞선 무작위 원리와도 상통한다. 분석 대상의 조건 역시 완벽하게 통제할 수 없기에 무작위 원리가 적용되며, 무작위 선별이 불가능한 대상은 효과적인 통제가 필요하다. - P79
(무작위, 반복, 통제-이하 제어 환경) - P79
제어 환경은 완벽하게 관리하기 어렵다. 앞서 살펴본 것처럼 제어 환경마다 다른 특성을 보이고 오차가 발생한다. 그래서 피셔는 세 가지 제어 환경에서 여러 속성이 각각 어떤 차이(오차)와 특성을 보이는지에 주목했다. 분석 대상의 선정에서 오는 차이와 특성, 실험 방법에 따른 결과의 차이와 특성, 같지 않은 환경에서 오는 평가의 차이와 특성 등이다. - P80
분산분석은 이러한 제어 환경에서 발생한 특성값의 변화(변동)를 분산으로 나타내고, 이 분산을 실험에 반영한 여러 제어 환경의 요인별로 분해해, 제어 환경에서 발생한 오차 값보다 더 큰 영향을 주는 요인이 무엇인지를 찾아내는 것이다. - P80
결국 분산분석은 특성값의 분산과 변동을 분석하고 어떤 특성이 여러 조건하에서 어떻게 차이가 나는지를 판단하는 기법이다. - P80
분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라는 점만 기억하자. 가설검정은 2개일 때 t-검정, 3개 이상일 때 분산분석을 쓴다. - P80
분산분석은 변수의 개수에 따라 일원배치 분산분석one-way ANOVA 과 이원배치 분산분석 two-way ANOVA 으로 나눈다. - P80
일원배치 분산분석은 결과(종속변수)와 연결되는 하나의 독립변수에 영향을 받는 3개 이상의 조건을 분산으로 분석해 결과(종속변수)를 도출하는 방법을 말한다. - P80
방울토마토 맛 평가 방식이 대표적인 일원배치 분산분석이다. 맛(종속변수)에 영향을 주는 변수를 비료 (독립변수) 하나로 선정하고 각기 다른 세 가지 비료(조건)로 분리한 것이다. - P80
이원배치 분산분석은 의미 그대로 두 개의 독립변수로 검정하는 것(결과인 종속변수를 도출하는 것)을 말한다. 독립변수 각각의 범주 (조건 또는 수준)에서 일어난 변화가 종속변수에 어떤 영향을 주는지를 파악하는 것이다. - P81
일원배치 분산분석은 2개의 독립변수에 따라 각각 수행된다고 생각할 수 있다. 다만, 이원배치 분산분석은 각 독립변수의 영향력을 검정하는 것은 물론 두 독립변수의 결합으로 발생하는 영향력까지 고려해 검정한다. 이 부분이 일원배치 분산분석과 이원배치 분산분석의 가장 큰 차이점이다. 단순히 독립변수의 개수가 1개인지 2개인지만으로 구분한 것이 아니다. - P81
따라서 일원배치 분산분석은 독립변수의 주된 영향력을 검정하는 것이고 이원배치 분산분석은 상호작용의 영향력까지 검정하는 것이다. 예를 들면, 한 독립변수의 변화가 종속변수에 미치는 영향이 또 다른 독립변수의 변화에 따라 달라질 수 있는가까지 보는 것이다. - P81
방울토마토 맛(종속변수) 평가를 예로 들면, 첫 번째 독립변수는 비료를, 두 번째 독립변수는 품종을 선정한다. 그리고 세 가지 비료와 3개의 방울토마토 품종(조건)을 대상으로 맛을 평가하고 비료를 3개의 품종에 골고루 투입해 나온 맛도 평가를 진행하는 것이다(반드시 독립변수마다 3개의 조건이 존재해야 하는 것은 아니다). - P81
분산분석을 수행할 때는 다음 가정이 충족돼야 한다. 첫째, 독립변수의 조건이 서로 독립적이어야 한다(독립성). 똑같은 비료는 안 된다. 환경이 다르다고 같은 비료로 재배하면 안 된다. 영향을 주는 요인은 서로 독립적이어야 한다. 같은 비료로 다른 토양이 선택됐다면 여기서 독립변수는 토양이 된다. - P82
둘째, 독립변수에 영향을 받는 결과값인 연속된 종속변수의 값들은 정규분포를 만족해야 한다(정규성). 작년에 평가한 방울토마토와 올해 새로 재배한 방울토마토의 맛은 서로 다른 평가 대상이다. 작년과 올해의 방울토마토는 전혀 관련이 없는 이산확률분포를 보인다. - P82
마지막으로 독립변수의 각 조건에 따른 결과인 종속변수의 분산은 조건마다 같아야 한다(등분산성). 맛을 평가할 때는 3개면 3개, 5개면 5개처럼 같은 개수의 방울토마토를 기준으로 해야 한다. 맛을 잘 모르겠다고 첫 번째 비료에서 재배된 방울토마토만 10개 먹으면 안 된다. - P82
종속변수는 값을 임의로 변경할 수 없다. 그래서 종속변수의 변화를 보는 것이 분석의 최종 목표가 되기도 한다. - P84
세상은 언제나 예외가 존재한다 - 비모수 검정기법 - P85
확률을 표현한 대표적인 연속확률분포이며, 세상의 모든 현상을 설명하는 정규분포를 대표하는 값은 평균과 분산이다. 이 평균과 분산을 통계에서는 모수parameter라 부른다. - P86
만약 관찰 결과가 정규분포를 따르지 않는다면 수집된 데이터가 부족하기 때문이다. 추가로 수집된 데이터의 환경이 서로 다를 수 있다. 이를 바탕으로 모수가 되기 위한 충분 조건은 다음과 같이 설명할 수 있다. 첫째, 데이터가 정규분포를 따른다. 둘째, 데이터가 정규분포로 표현될 만큼 표본 수가 많다. 셋째, 데이터가 같은 환경에 있다. - P86
세상의 모든 현상이 음과 양의 조화를 이루듯이 모수란 개념의 반대 개념 역시 존재한다. 이를 비모수 non-parameter라고 한다. 비모수는 데이터가 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 서로 독립적인 경우다. - P87
모수는 연속된 값, 비모수는 연속되지 않은 값이라고 이해해도 된다. - P87
단순 금액 비교일 때는 피어슨 상관분석을 수행하면 되지만, 정규분포를 따르지 않는 비모수일 때는 피어슨 상관분석을 수행하기 곤란하다. 이 경우 비모수적 검정 기법인 스피어만 상관분석으로 매출액에 따른 순위와 영업이익에 따른 순위를 비교해야 한다. - P88
지금까지 모수적 검정 기법과 비모수적 검정 기법이 모집단과 표본에 대한 정규분포의 가정에 따라 구별된다는 점을 확인했다. 단순히 이것뿐일까? 사실 두 검정 기법은 분석 방법에도 차이가 있다. 좀 더 정확히 말하면 기준 관점에서 명확한 차이를 보인다. - P89
모수적 검정 기법은 모집단으로부터 추출한 표본 간 평균 차이를 중심으로 분석한다. (단순한 평균 비교부터 분산을 통한 분석까지 다양하다). 하지만 비모수적 검정 기법은 평균이 아닌 서열(순위, rank) 또는 특정 기준값(평균 또는 중앙값. 대체로 중앙값을 사용한다)을 중심으로 한 부호sign에 무게를 두고 분석한다. 따라서 비모수적 검정 기법에서는 데이터의 값이 극단적이더라도 영향을 덜 받는다. 수집된 데이터 값 중 특정 데이터의 값이 아무리 커도 순위에 차이가 있을 뿐 평균의 차이와는 관련이 없기 때문이다. - P89
매출액과 같은 연속확률분포는 평균 차이가 매우 중요하지만, 이산확률분포에서는 평균 차이와 관계없이 순위 차이를 기준으로 분석한다는 얘기다. 그래서 극단적인 값이 존재해도 순위 차이만 있을 뿐 영향을 덜 받는다. - P90
|