앞선 포스팅에서 평균, 분산, 표준편차를 비롯해 귀무가설과 대립가설 그리고 가설 오류의 허용기준을 의미하는 유의수준과 유의확률에 대해 살펴보았고 오늘은 이러한 것을 한 집단만이 아닌 서로 다른 두 집단에 적용하여 비교분석하는 t-검정(test)에 대한 내용이 이어진다.
마치 건물이 밑바닥부터 쌓여 올라가는 것처럼, 데이터 분석이라는 것도 통계의 기본 개념부터 시작해 어느 정도 단계까지 차곡차곡 쌓여 올라가는 느낌이 든다.
뒤이어 t-분포와 관련하여 이것을 개발한 윌리엄 고셋이라는 사람의 이야기도 나오는데, 그가 학자가 아닌 맥주회사에 소속된 직장인이었다는 사실과 함께 맥주 맛을 일정하게 하기 위한 효모의 양을 결정하기 위해 통계 기법을 활용하다가 현대 통계 분석의 핵심인 t-분포를 개발했다는 것을 보면서 문득 ‘필요는 발명의 어머니‘라는 말이 생각났다.
과거 통계관련 과목들에서 t-분포라는 게 있다는 것은 들어서 알고 있었지만, 이 t-분포의 주인공이 맥주회사의 직원이었다는 사실은 이번 독서를 통해 처음으로 알게 되어서 신기하기도 했고 한편으로는 흥미롭기도 했다.
무엇을 분석할지 대상을 정하고 대상에서 증명하려는 부분에 대한 가설을 세우고 참과 거짓을 구분할 기준까지 정했다면 마지막으로 분석 내용이 정해진 기준에 부합하는지를 판단할 차례다. - P47
데이터 분석은 기초 통계를 기반으로 출발한다. 분석하려는 대상집단의 최댓값과 최솟값은 얼마인지, 평균은 어떻게 되는지, 표준편차가 얼마인지를 파악하고 분석을 진행하는 것이 순서다. 반드시 과정을 따라야 하는 것은 아니지만 평균의 중요성을 생각한다면 분명 필요한 과정이다. - P47
두 집단 간 평균에 차이가 있는지를 비교해 검증하는 것을 t-검정(test)이라고 한다. 설정된 기준인 유의수준과 유의확률 내에서 분석한 내용이 포함되는지를 확인하는 방법이다. - P47
t-검정은 두 집단에서 선택된 표본의 평균이 증명하고자 하는 수준에서 몇 번이나 차이가 나는지 확률적으로 확인하기 위한 과정이다(여기서 또 한번 확률과 평균은 늘 함께한다는 사실이 확인된다. 잊지 말길). - P48
t-검정은 표본을 무작위로 선정했을 때 차이가 날 확률이 몇 %인지 검증하는 작업 정도로만 우선 이해 - P48
검정 작업은 확률분포를 확인하는 과정이다. - P48
세상의 모든 현상은 정규분포를 따른다고 했다. 정규분포를 따른다는 개념은 앞서 보았듯이 표본의 크기가 클수록 명확해지며, 정규분포를 따르지 않는다면 데이터가 부족한 것이라고 했다. - P48
정규분포를 따르는 가설을 검정하고자 할 때는 Z-검정을 한다. 이 말은 데이터의 양이 많으면 많을수록 데이터 평균값의 차이가 정규분포를 따른다는 의미다. 즉, 대용량의 데이터에서 통계 검정을 진행할 때는 Z-검정을, 데이터 양이 적을 때는 t-검정을 진행해야 한다는 뜻이다. - P49
Z 검정은 가설을 Z 분포로 검증하는 방법으로, 집단 간 차이가 있는지를 밝히는 통계 기법이다. - P48
모든 분석 대상을 정규분포로 만들려면 데이터의 크기가 커야만 된다는 말인데, 앞서 남녀의 연봉을 검증하고자 할 때 그 대상을 국민 전체로 한다면 데이터가 충분히 크다고 할 수 있지만, 특정 기업 또는 부서의 연봉 수준을 검증한다면 데이터의 크기가 충분히 크다할 수 있을까? 이것은 데이터가 적어서 정규분포를 따르지 않는 가설을 검증해야 하는 상황이 있다는 뜻이다. 그래서 t-분포를 확인하는 t-검정이 진행된다. - P49
그런데 데이터가 많다 또는 적다의 기준을 어디에 두어야 할지도 의문이 들 수 있다. 1,000건? 또는 10,000건? 아니면 더 많게 100,000건? 또한 매번 정규분포를 고려하며 분석을 진행해야 할까? 데이터가 100건이면 t-검정이고, 10,000건이면 Z-검정을 해야 하는 것일까? 결론적으로 두 검정 방법 모두 평균의 차이를 확인하고 확률범위(p-value, 유의수준)를 구하는 점은 같다. 따라서 두 집단 간 평균의 차이는 t-검정을 염두에 두고 진행하는 것이 일반적이다. 분석하고자 하는 대상의 데이터가 많아서 정규분포를 따른다고 t-검정이 불가능한 것은 아니기 때문이다. - P49
t-검정 (t-분포)을 발견한 사람은 아마도 데이터를 충분히 확보할 수 없는, 즉 표본이 충분히 확보되지 않는 상황이 아니었을까. - P49
골프를 즐기려면 세 가지 조건이 충족돼야 한다는 말이 있다. 시간과 비용, 사람이다. 이와 마찬가지로 정규분포를 따를 만한 충분한 데이터를 확보하기 위한 조건을 들자면 아마도 골프를 즐길 수 있는 조건과 같게 시간과 비용, 사람이어야 하지 않을까 생각한다. - P50
원하는 결과를 얻기에 충분한 데이터는 쉽게 얻어지지 않는다. - P50
결과를 위해 데이터를 수집하는 것이 아니라 무엇이든 데이터가 있으면 데이터를 보고 유의미한 결과를 찾는다. - P50
필자에게 근대 통계학에 가장 영향을 많이 준 학자 세 명을 뽑으라면 칼 피어슨과 로널드 피셔, 윌리엄 고셋이라 말하겠다. - P50
이 중 윌리엄 고셋 (William Seally Gosset, 1876~1937) 은 대학이나 연구실에서 공부한 것이 아니라 일반회사에 근무하며 통계를 별도로 공부했다. 일반 직장인이다 보니 학자보다 데이터를 확보하기 위한 시간과 비용, 인력이 충분치 않았을 것이다. - P50
그(윌리엄 고셋)가 취업한 기업은 지금도 흑맥주의 대명사로 유명한 아일랜드의 맥주회사 기네스 Guinness 였다. 고셋은 기네스의 양조장에서 근무하며 맥주 원료를 연구하고 수확물을 관리하고 감독했다. 그의 업무 중 맥주 원료를 연구하는 일이 데이터 분석을 하는 사람이 자주 활용하는 t-분포를 발견한 계기였다. - P51
우리가 흔히 마트에서 보는 대량 생산된 맥주와는 다르게 수제 맥주는 그것을 만드는 사람의 경험이 녹아 저마다의 맛을 낸다. 하지만 경험에 의존한 결과는 항상 일정하지 않은 게 문제였다.
고셋이 근무했던 1900년대 초반의 기네스 역시 그들의 장인정신, 즉 양조 기술자가 가진 최고의 경험을 통해 맥주를 생산하는 회사였다. 그런데 고셋은 맥주 맛이 일정하지 않아서 불만이었다. - P52
그(고셋)는 일정한 맛을 내기 위한 연구를 결심했다. 맥주 맛을 결정하는 효모를 분석해 일정한 맛을 유지하는 효모의 양을 결정하는 데 통계 기법을 활용했다. 하지만 그에게는 충분한 시간도 비용도 더 중요한 인력도 없었다. 데이터 수집을 위한 3대 요소가 결핍된 그의 표본은 역시나 작았다. 그는 어떻게든 작은 표본으로 모집단을 추론해야 했다. - P52
그때까지만 해도 표본이 작아 정규분포를 벗어나면 인정할 수 없는 오차가 나온다는 것이 정설이었다. (중략) 이 문제를 해결하고자 고셋은 작은 표본도 정규분포를 따를 거라고 가정하고 자유도*라는 개념을 통해 새로운 분포를만드는데 이게 바로 t분포다. 현대 통계 분석의 핵심이라 할 수 있는 t-분포가 맥주 맛을 위해 탄생했다니 매우 놀랍지 않은가? - P52
*자유도 : degrees of freedom, 모집단에서 선택한 표본에 포함된 자료의 수다. - P52
고셋은 논문을 발표하며 저자 이름에 실명 대신 학생 student이라고 적었다. 그 이론이 유명한 스튜던트 t-분포다. - P53
student‘s t-distribution, 학생이 발표했다고 해서 붙여진 이름이다. - P53
|