오늘 초반에 밑줄친 내용은 본문의 내용과는 별개로 Q & A 형식으로 나오는 것인데 핵심 질문은 ‘데이터 과학자가 어떤 일을 하는 사람이냐‘는 것이고 그에 따른 저자의 답변으로 이해하면 될 듯 하다.

데이터 분석에 필요한 기본적인 역량인 수리 통계적 역량은 물론이고 데이터를 보고 유추될만한 결론을 상상해낼 수 있는 능력, 그리고 이러한 역량과 능력을 바탕으로 세상을 바라보는 독창적인 시각을 갖추는 것이 ‘데이터 과학자‘라는 직업에 적합하다고 저자는 말한다. 빅데이터에 기반한 AI가 대세가 되어가는 이 시대에 부가가치를 굉장히 많이 창출할 수 있는 업종이 데이터 분석과 관련된 분야가 될 수도 있지 않을까 조심스레 예상해본다.
.
.
.
절을 바꿔서 이어지는 내용에서는 ‘분산분석‘이라는 용어가 새롭게 등장한다. 이는 간단히 말해 분산을 비교해 가설을 검정하는 분석을 지칭한다. 앞선 포스팅에서 나왔던 t-검정도 가설을 검증하는 기법이었는데 t-검정이 2개의 대상을 기준으로 가설을 검증하는 것이었다면, 분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라고 말할 수 있다.

이 부분은 읽을 때는 대략적인 이해는 되는데, 실제로 여기서 배운 것을 실제 데이터에 적용해서 어떤 유의미한 결과물을 산출하는 수준까지는 아직은 좀 힘겨울 것 같다는 생각이 들었다. 기본적인 개념에 대한 공부와 더불어 실제 데이터에 적용해보는 연습이 많이 필요한 부분이 아닐까 생각한다. 하지만 이 책의 목적자체가 적용하는 수준까지 다루는 것이 아니고 데이터 분석에 대한 기본적인 개념이해에 초점을 맞춘 것이기에 만약 적용하는 수준으로까지 끌어올리고자 한다면 추가로 다른 책이나 매체들을 통해 학습하면 될 일인듯 하다.

어쨌든 간에 저자께서 비교적 복잡한 개념을 이해를 돕는 예시와 함께 설명해주셔서 어떤 예시 없이 단순히 개념만 나와있는 책들을 볼 때와는 다르다는 느낌을 받았다. 수학적인 수식같은 것을 사용하기보다는 뭔가 직관적으로 이해시켜주시려고 해주시는 것 같아서 좋게 느껴졌다.
.
.
.
다시 한 번 절을 바꿔서 이번에는 ‘모수와 비모수‘라는 개념이 나온다. 모수는 정규분포를 따르는 반면 비모수는 정규분포를 따르지 않는다. 이외에도 이 둘을 비교하는 몇 가지 특징들이 있는데, p.86, 87에 밑줄 친 부분을 참조바란다.

이와 관련하여 여기 일일이 밑줄치진 않았지만 회사의 매출액과 영업이익 간의 관계를 분석해보는 사례가 책에 등장하는데, 여기서는 매출액을 금액(연속확률분포)과 순위(이산확률분포)로 쪼개서 분석한다. 괄호 안에 써놓은 확률분포의 특성에 따라 분석하는 방식이 조금은 다른데, 어떤 특정 방식의 우열을 가리는 것은 의미가 없고, 단지 변량(여기서는 금액과 순위)의 확률분포 특성에 따라 검정기법을 잘 적용하여 데이터를 분석하는 것이 중요하다고 할 수 있겠다.

위 사례에서 어떤 기법을 적용해야 하느냐를 잠시 생각해본다면 먼저 매출액을 연속확률분포인 금액을 기준으로 분석할 경우 모수적 검정 기법을 적용하면 될 것이고, 이산확률분포인 순위를 기준으로 분석할 경우 비모수적 검정 기법을 적용하면 될 것이다.

다음 포스팅에서 이와 관련하여 좀 더 추가적으로 다루도록 하겠다.

뛰어난 통계 분석 능력을 기반으로 적절한 알고리즘을 이용해 대용량 데이터를 분석할 능력이 있고, 새로운 가치를 창출하며 이를 유연하게 해석할 수 있는 사람 - P68

데이터 과학자의 주된 업무가 데이터 분석에서 출발한다면 수리 통계는 데이터 과학자에게 절대적으로 중요한 소양이다. 또한 데이터 과학자는 비판적 사고를 가져야한다. 이 말은 호기심을 포괄하는 의미인데, 매우 중요한 덕목이다. - P68

결론을 정하고 데이터를 대입하는 것이 아니라 데이터를 보고 유추될 결론을 상상하는 능력 - P68

어떤 데이터라도 그것에 활용할 만한 가치를 연결하는 능력은 데이터 분석을 주된 직업으로 하는 사람들에게 큰 도움이 된다. - P68

이러한 훈련과 습관은 창의력과도 연결된다. 데이터로 보는 세상은 쳇바퀴처럼 돌고 도는 현실과 많이 다르다. 어떤 관점으로 현상을 보느냐에 따라 데이터는 완전히 새로운 방향을 제시할 수 있다. 매번 반복적인 업무와 생활 습관을 가진 사람은 그것이 당연하다고 생각하지만, 데이터로 보면 이런 생각과 흐름이 잘못됐다는 것을 알 수 있다. - P69

데이터를 다루는 주변 사람들을 보면 대체로 개혁적인 성향을 가진 사람이 많다. 모두는 아니지만 조직의 혁신과 관련된 업무에 투입되는 경우가 많은 이유일 것이다. - P69

의식적으로 다르게 보는 시각을 가져보자. 남들과 시각이 똑같다면 데이터 과학자라는 가장 섹시한 직업을 갖기에는 부족하지 않을까? 많은 분야의 서적을 읽고 생각의 폭과 시야를 충분히 넓히는 훈련을 게을리하지 말자. - P69

기준 값에서 비교하려는 대상값(확률값)이 얼마나 떨어져 있는지를 나타내는 척도가 분산이다. 다시 말해 분산은 임의의 근로자 연봉을 선택하고 해당 근로자들의 연봉이 평균에서 얼마나 떨어져 있는가를 가늠하는 숫자다. - P73

분산은 편차(확률값 - 기댓값)를 제곱한 값의 총 합을 표본의 개수로 나눈 것이다. 분산이 0에 가깝다는 것은 표본(데이터)이 기댓값에 가깝게 분포함을 의미한다. - P73

선택한 데이터가 무엇이 될지 알 수 없을 때 우리는 그 값을 ‘X‘라고 표현하고 통상 ‘변수‘라고 지칭한다. 이것이 바로 데이터 분석에서의 확률변수random variable다. 그리고 이러한 확률변수들의 평균을 기댓값이라 한다. 앞에 나온 분산은 확률변수가 기댓값으로부터 얼마나 떨어져서 나타나는지를 확인하는 척도다. 그리고 이러한 분산을 비교해 가설을 검정하는 분석을 분산분석이라 한다. - P73

확률변수는 무작위로 선택된 값을 열거해 헤아릴 수 있음을 의미하는 이산확률변수와 임의의 값을 갖는 연속확률변수로 나눌 수 있다. 전자는 ‘이산가족‘의 이산을 생각하면 쉽다. 이산확률변수는 변수 x1과 x2가 각각 1과 2의 값을 가질 때 변수 x1과 x2를 전혀 별개의 사건으로 본다. 이와 반대로 연속확률변수는 변수 x1과 x2 사이의 모든 실수가 변화하며 연속적으로 발생하는 같은 사건의 연장으로 본다. - P73

확률변수가 가질 수 있는 값(확률값)과 그 값이 나올 확률과의 관계(대응)를 확률분포라 한다. 확률분포로는 크게 이산확률분포와 연속확률분포가 있다. - P74

확률분포의 종류 : 이산확률분포, 연속확률분포

이산확률분포 : 베르누이분포, 이항분포, 포아송분포

연속확률분포 : 균등분포, 정규분포, 지수분포 - P74

상관계수는 두 개의 확률변수 x와 y가 양의 상관인지 음의 상관인지를 0을 기준으로 -1과 1 사이의 값으로 나타낸다. 이와 비슷한 개념으로는 공분산covariance이 있다. 공분산은 두 확률변수의 상관관계를 파악해 하나의 일직선 (선형)상에 표현할 때 0보다 큰 경우(정의 관계)와 0인 경우 (관계없음), 0보다 작은 경우(부의 관계)를 나타내는 척도를 의미한다. - P75

공분산 상관계수는 어떤 차이가 있을까? 공분산은 선형관계가 있는지 없는지만을 나타낼 뿐 값을 명확하게 제시하지는 못한다. 즉, 얼마만큼의 정의 관계인지 또는 부의 관계인지, 그 값이 얼마가 돼야 하는지에 대한 설명이 없다. 반면, 상관계수는 명확한 값을 제시한다. x가 n만큼 크면 y도 n+1만큼 늘어나거나 줄어든다고 설명할 수 있다. - P75

분산분석 analysis of variance, ANOVA은 가설을 검증하는 방법이다. 앞서 t-검정을 통해 가설 검증을 했지만, 분산분석으로도 가설 검증을 할 수 있다. 물론 두 방식에는 약간의 차이가 있다. - P75

t-검정은 두 집단의 검정만 가능하며, 2개 이상의 집단을 비교 검정할 때는 분산분석을 수행해야 한다. - P76

분산분석은 비교 검정하고자 하는 집단들의 평균이 다를 때 집단들의 분산을 비교해 생성된 F-분포로 가설을 검정하는 방법이다. 분산분석의 개념을 정립하고 만든 사람은 앞서 소개한 로널드 피셔다. F-분포의 F도 피셔의 이름에서 ‘F‘를 따서 명명됐다. - P77

가설검정의 종류 : 정규분포, t-분포, F-분포

정규분포 : Z-분포

t-분포 : t-검정

F-분포 : 분산분석 - P77

피셔는 그의 저서《실험 계획법》에서 농작물 비교 실험을 논하며 분산분석의 개념을 전개했다. 여기에는 세 가지 핵심적인 원리가 있다. 무작위 randomization와 반복 reitetition, 통제 blocking란 개념이다. - P77

분석 대상의 선택은 실험자가 얼마나 주관적인 생각을 배제하고 객관적으로 대상을 선정하는가의 문제다. 이것이 바로 분산분석의 첫 번째 핵심 원리인 무작위다. - P78

데이터 분석에서는 작은 요인까지 고려해야 한다. 따라서 실험 (분석)은 반복적으로 수행해야 한다. 매번 같은 조건을 만들기는 어렵다. 이를 상쇄하려면 실험을 반복해 다양한 결과를 수집, 분석하고 반복 수행한 결과에서 나온 서로 다른 오차도 수치화해 분석에 반영해야 한다. 이것이 두 번째 핵심 원리인 반복이다. - P79

대상을 분석하고 나온 결과에 대한 평가는 같은 수준과 환경에서 진행해야 한다. 따라서 평가는 제한된 상황에서 이루어질 수밖에 없다. 이러한 통제의 원리는 앞선 무작위 원리와도 상통한다. 분석 대상의 조건 역시 완벽하게 통제할 수 없기에 무작위 원리가 적용되며, 무작위 선별이 불가능한 대상은 효과적인 통제가 필요하다. - P79

(무작위, 반복, 통제-이하 제어 환경) - P79

제어 환경은 완벽하게 관리하기 어렵다. 앞서 살펴본 것처럼 제어 환경마다 다른 특성을 보이고 오차가 발생한다. 그래서 피셔는 세 가지 제어 환경에서 여러 속성이 각각 어떤 차이(오차)와 특성을 보이는지에 주목했다. 분석 대상의 선정에서 오는 차이와 특성, 실험 방법에 따른 결과의 차이와 특성, 같지 않은 환경에서 오는 평가의 차이와 특성 등이다. - P80

분산분석은 이러한 제어 환경에서 발생한 특성값의 변화(변동)를 분산으로 나타내고, 이 분산을 실험에 반영한 여러 제어 환경의 요인별로 분해해, 제어 환경에서 발생한 오차 값보다 더 큰 영향을 주는 요인이 무엇인지를 찾아내는 것이다. - P80

결국 분산분석은 특성값의 분산과 변동을 분석하고 어떤 특성이 여러 조건하에서 어떻게 차이가 나는지를 판단하는 기법이다. - P80

분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라는 점만 기억하자. 가설검정은 2개일 때 t-검정, 3개 이상일 때 분산분석을 쓴다. - P80

분산분석은 변수의 개수에 따라 일원배치 분산분석one-way ANOVA 과 이원배치 분산분석 two-way ANOVA 으로 나눈다. - P80

일원배치 분산분석은 결과(종속변수)와 연결되는 하나의 독립변수에 영향을 받는 3개 이상의 조건을 분산으로 분석해 결과(종속변수)를 도출하는 방법을 말한다. - P80

방울토마토 맛 평가 방식이 대표적인 일원배치 분산분석이다. 맛(종속변수)에 영향을 주는 변수를 비료 (독립변수) 하나로 선정하고 각기 다른 세 가지 비료(조건)로 분리한 것이다. - P80

이원배치 분산분석은 의미 그대로 두 개의 독립변수로 검정하는 것(결과인 종속변수를 도출하는 것)을 말한다. 독립변수 각각의 범주 (조건 또는 수준)에서 일어난 변화가 종속변수에 어떤 영향을 주는지를 파악하는 것이다. - P81

일원배치 분산분석은 2개의 독립변수에 따라 각각 수행된다고 생각할 수 있다. 다만, 이원배치 분산분석은 각 독립변수의 영향력을 검정하는 것은 물론 두 독립변수의 결합으로 발생하는 영향력까지 고려해 검정한다. 이 부분이 일원배치 분산분석과 이원배치 분산분석의 가장 큰 차이점이다. 단순히 독립변수의 개수가 1개인지 2개인지만으로 구분한 것이 아니다. - P81

따라서 일원배치 분산분석은 독립변수의 주된 영향력을 검정하는 것이고 이원배치 분산분석은 상호작용의 영향력까지 검정하는 것이다. 예를 들면, 한 독립변수의 변화가 종속변수에 미치는 영향이 또 다른 독립변수의 변화에 따라 달라질 수 있는가까지 보는 것이다. - P81

방울토마토 맛(종속변수) 평가를 예로 들면, 첫 번째 독립변수는 비료를, 두 번째 독립변수는 품종을 선정한다. 그리고 세 가지 비료와 3개의 방울토마토 품종(조건)을 대상으로 맛을 평가하고 비료를 3개의 품종에 골고루 투입해 나온 맛도 평가를 진행하는 것이다(반드시 독립변수마다 3개의 조건이 존재해야 하는 것은 아니다). - P81

분산분석을 수행할 때는 다음 가정이 충족돼야 한다. 첫째, 독립변수의 조건이 서로 독립적이어야 한다(독립성). 똑같은 비료는 안 된다. 환경이 다르다고 같은 비료로 재배하면 안 된다. 영향을 주는 요인은 서로 독립적이어야 한다. 같은 비료로 다른 토양이 선택됐다면 여기서 독립변수는 토양이 된다. - P82

둘째, 독립변수에 영향을 받는 결과값인 연속된 종속변수의 값들은 정규분포를 만족해야 한다(정규성). 작년에 평가한 방울토마토와 올해 새로 재배한 방울토마토의 맛은 서로 다른 평가 대상이다. 작년과 올해의 방울토마토는 전혀 관련이 없는 이산확률분포를 보인다. - P82

마지막으로 독립변수의 각 조건에 따른 결과인 종속변수의 분산은 조건마다 같아야 한다(등분산성). 맛을 평가할 때는 3개면 3개, 5개면 5개처럼 같은 개수의 방울토마토를 기준으로 해야 한다. 맛을 잘 모르겠다고 첫 번째 비료에서 재배된 방울토마토만 10개 먹으면 안 된다. - P82

분산분석과 회귀분석은 유사하다 - P83

종속변수는 값을 임의로 변경할 수 없다. 그래서 종속변수의 변화를 보는 것이 분석의 최종 목표가 되기도 한다. - P84

세상은 언제나 예외가 존재한다 - 비모수 검정기법 - P85

"통계는 확률입니다." - P86

확률을 표현한 대표적인 연속확률분포이며, 세상의 모든 현상을 설명하는 정규분포를 대표하는 값은 평균과 분산이다. 이 평균과 분산을 통계에서는 모수parameter라 부른다. - P86

만약 관찰 결과가 정규분포를 따르지 않는다면 수집된 데이터가 부족하기 때문이다. 추가로 수집된 데이터의 환경이 서로 다를 수 있다. 이를 바탕으로 모수가 되기 위한 충분 조건은 다음과 같이 설명할 수 있다. 첫째, 데이터가 정규분포를 따른다. 둘째, 데이터가 정규분포로 표현될 만큼 표본 수가 많다. 셋째, 데이터가 같은 환경에 있다. - P86

세상의 모든 현상이 음과 양의 조화를 이루듯이 모수란 개념의 반대 개념 역시 존재한다. 이를 비모수 non-parameter라고 한다. 비모수는 데이터가 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 서로 독립적인 경우다. - P87

모수는 연속된 값, 비모수는 연속되지 않은 값이라고 이해해도 된다. - P87

단순 금액 비교일 때는 피어슨 상관분석을 수행하면 되지만, 정규분포를 따르지 않는 비모수일 때는 피어슨 상관분석을 수행하기 곤란하다. 이 경우 비모수적 검정 기법인 스피어만 상관분석으로 매출액에 따른 순위와 영업이익에 따른 순위를 비교해야 한다. - P88

지금까지 모수적 검정 기법과 비모수적 검정 기법이 모집단과 표본에 대한 정규분포의 가정에 따라 구별된다는 점을 확인했다. 단순히 이것뿐일까? 사실 두 검정 기법은 분석 방법에도 차이가 있다. 좀 더 정확히 말하면 기준 관점에서 명확한 차이를 보인다. - P89

모수적 검정 기법은 모집단으로부터 추출한 표본 간 평균 차이를 중심으로 분석한다. (단순한 평균 비교부터 분산을 통한 분석까지 다양하다). 하지만 비모수적 검정 기법은 평균이 아닌 서열(순위, rank) 또는 특정 기준값(평균 또는 중앙값. 대체로 중앙값을 사용한다)을 중심으로 한 부호sign에 무게를 두고 분석한다. 따라서 비모수적 검정 기법에서는 데이터의 값이 극단적이더라도 영향을 덜 받는다. 수집된 데이터 값 중 특정 데이터의 값이 아무리 커도 순위에 차이가 있을 뿐 평균의 차이와는 관련이 없기 때문이다. - P89

매출액과 같은 연속확률분포는 평균 차이가 매우 중요하지만, 이산확률분포에서는 평균 차이와 관계없이 순위 차이를 기준으로 분석한다는 얘기다. 그래서 극단적인 값이 존재해도 순위 차이만 있을 뿐 영향을 덜 받는다. - P90


댓글(0) 먼댓글(0) 좋아요(8)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo