지난번 포스팅에서는 평균과 분산 표준편차에 대한 기본적인 내용에 대해서 다루었고 오늘은 모집단과 표본에 관한 얘기로 시작한다. 대부분 중고등학교나 대학교 통계 수업시간에 다루는 개념들이긴 하지만, 각각의 의미를 좀 더 곱씹어본다는 차원에서 도움이 될 듯 하다.

개인적으로 ‘장기적 사전 도수 확률‘과 ‘중심 극한 정리‘에 대해서는 대략적인 감으로만 알고 있었는데, 이번 독서를 통해 좀 더 확실하게 이해하게 된듯 하다. 읽으면서 기본이 참 중요하다는 걸 새삼 느낀다.
.
.
.
절을 바꿔서 귀무가설과 대립가설에 대한 얘기가 나온다. 이 두 용어는 오래전 통계과목을 배울 때 얼핏 들어봤던 것들인데 평상시에 잘 쓰는 용어가 아니다보니 그 개념에 대해서도 잊어버린지 오래였는데, 이번에 이 책을 통해 확실하게 머릿속에 정리가 되었다. 저자께서 직관적으로 이해하기 용이한 예시들을 사용하여 독자들의 이해를 돕고 있는데, 이 쪽 분야에 조금이라도 관심있는 분들이라면 그리 어렵지 않게 이해할 수 있을 듯 하다.

개인적으로 저자가 든 여러 예시들 중에 영화《살인의 추억》에 나왔던 대사를 통해 귀무가설과 대립가설의 개념을 직관적인 이해하는데 많은 도움이 되었다. 또한 영화《의뢰인》에 나왔던 사례를 통해 각각의 가설들이 오류가 발생한 상황을 지칭하는 ‘1종 오류‘ , ‘2종 오류‘에 대한 개념 설명부분도 인상적이었다.

(참고로 1종 오류는 실제로는 참인 것을 거짓이라고 판단하는 오류인 반면, 2종 오류는 실제로는 거짓인 것을 참이라고 판단하는 오류를 지칭한다.)


이어지는 내용에서는 위에 언급한 귀무가설의 옳고 그름을 증명하기 위한 지표인 ‘유의수준‘과 ‘유의확률‘ 개념의 이해를 돕기 위한 예시가 나온다. 유의수준은 p-value 라고도 하며, 가설에 대한 검정 결과가 잘못될 가능성의 설정 수준을 지칭하는데 이는 사전적으로 설정되는 값인 반면 유의확률은 가설을 검정한 결과 사후적으로 해당 가설이 틀린 확률을 지칭한다.

개념적으로만 보면 약간은 어려울 수도 있는 개념이지만, 저자가 책에 나온 사례에 개념들을 적용하면서 친절하게 설명을 해주셔서 제대로 이해하는데 큰 도움이 되었다. 통계시간에 교과서에 나온 개념만 보면 왠지 딱딱해서 잘 와닿지 않는 느낌도 들 수 있지만, 확실히 예시와 함께 보다보니 직관적으로 이해가 되어서 유익했던 것 같다.

여기서의 핵심은 p.46에 밑줄친 내용 중에 나오는 ‘참을 거짓으로 판명(1종 오류)하고 거짓을 참으로 해석(2종 오류)하는 오류를 방지하기 위한 경계선을 정하고자 함‘ 이라는 말이었다. 한마디로 유의수준과 유의확률은 일종의 경계선이라는 말이다. 데이터가 예상했던 경계선 범위 안에 있으면 가설이 옳은 것이고, 경계선 범위 밖에 있으면 가설이 틀린 것이라고 말할 수 있다는 얘기다.

대부분 분야에서는 데이터 분석 시 표본조사를 수행한다.
전체에서 선택된 표본은 매우 중요하다. 잘못된 표본을 선정하면 왜곡된 결과를 초래하기 때문이다. - P31

전체를 대변할 표본을 선정할 때에는 몇 가지를 유념해야 한다. 첫째, 분석 대상이 명확해야 한다. 국가 또는 지역인지, 사람이 대상인지 동물이 대상인지, 기업인지 또는 그에 포함된 제품이나 품질인지 등이다. - P31

둘째, 전체 대상에서 어느 부분을 표본으로 구성할지를 정하고 추출 방법을 선택한다. 즉, 표본을 추출하는 기준을 명확히 세워야 한다. 홀수인지 짝수인지, 선입선출인지 무작위인지 등이 있다. - P31

셋째, 표본의 구성과 추출 방법을 정한 다음에는 표본의 크기를 결정해야 한다. 이때도 역시 전체 집단을 가장 효율적이고 효과적으로 대표하는 크기를 산정해야 한다. 표본 추출 방법과 표본 크기는 시간과 비용, 조사 목적, 방법을 면밀히 검토하고 고민해 선택한다. - P31

당연히 표본은 전체를 대변하고 시간과 비용을 최소화하며 목적과 분석 방법이 고려돼야 한다. 표본을 선정하는 데 표본 추출 방법과 크기도 중요하지만, 분석하고자 하는 대상을 명확히 설정하는 게 가장 중요하다. - P31

데이터 분석은 우리 생활에서도 이루어진다. 기업의 전문적 시장 분석만이 아니라 물건을 하나 살 때도 머릿속에서는 쉴 새 없이 분석을 한다. 이때 대상이 정확하면 경험적 분석을 바탕으로 좀 더 효율적인 정답을 유추할 수 있다. - P32

우리의 일상은 불확실한 상황을 유연하게 대처하도록 판단하는 사고(데이터 분석)의 연속이다. - P32

선택된 자료(표본)로부터 전체(모집단)의 특성을 추출할 때 해당 표본이 전체를 얼마나 잘 대표하는지를 판단하는 데 확률은 매우 중요한 작용을 한다. 이러한 확률은 절대적 또는 상대적인 개념으로 접근할 수 있다. - P32

절대적 확률은 직관적으로 알 수 있고 예측 또한 가능하다(사전적 확률). - P33

쉬운 예로 ‘러시안 룰렛‘이 있다. 권총에 총알을 한 개만 넣고 총알의 위치를 알 수 없게 탄창을 돌린 후 참가자들이 머리에 총을 겨누고 방아쇠를 당기는 게임이다. 총알 6개가 들어가는 총에 총알을 한 발만 장전하면 이 게임에서 누군가 죽을 확률은 1/6이다. 여기에 이론의 여지는 없다. - P33

상대적 확률은 어떨까? 동전을 던져 앞면이 나올 확률은?
주사위를 던져 1이 나올 확률은? 전자는 1/2, 후자는 1/6이다. 그런데 정말 동전을 두 번 던지면 앞면이 반드시 한 번은 나올까? 주사위 역시 6번 던지면 반드시 한 번은 1이 나올까? 결론은 그럴 수도 있고 아닐 수도 있다. 이러한 결과는 직관적이기보다는 경험 또는 실험 및 관측의 결과로 확률이 계산된다(장기적 상대도수 확률). - P33

동전을 몇 번을 던지면 1/2, 즉 50% 확률이 될까? 100번? 1,000번? 10,000번? 확실한 것은 던지는(실험) 횟수를 늘려 반복하면 할수록 우리가 기대하는 50% 확률을 수렴해간다는 점이다. - P34

동전 던지기의 실험을 10,000번할 때 1,000번 만에 앞면이 504번 나왔다면 그 확률은 50%를 충족하게 된다. 그러면 10,000번을 실험하지 않아도 1,000번의 실험을 통해 이미 상대적 확률 50%를 확인한 셈이 된다. 여기서 실제 실험 횟수인 1,000번은 10,000번을 대표하는 표본이 되며, 1,000번의 실험으로 그 결과를 정확히 도출한 게 된다.
따라서 표본이 전체를 대표하는 실험과 관찰은 확률에 의존적이며 영향을 많이 받는다. - P34

어떤 확률을 구하기 위해 실험과 관찰 횟수가 많아지면 얻고자 하는 확률을 수렴할 것이다. 이러한 확률을 평균이라 부른다. 확률에 따른 평균은 한두 번의 관찰만으로 얻기 어렵다. 관찰 범위가 많아질수록 주사위나 동전의 확률처럼 높아질 것이다. - P34

데이터 분석은 표본을 통해 전체를 이해해야 하므로 전체로부터 표본을 선택하는 과정이 매우 중요하다. 표본 선정 과정에는 자연스럽게 확률이 적용되고 확률은 평균과도 연결된다. - P35

거래처 1,000곳에서 표본 100개를 뽑는 경우의 수는 매우 많다.

여기서 경우의 수는 순서를 고려하지 않는 무작위 추출(조합) 1000 Combination 100로, 6.38505×10^139를 의미한다. - P35

전체로부터 표본을 추출하는 과정은 확률의 개념이 자연스럽게 결합돼 있다. - P35

어떤 과정을 따라 어느 부분을 표본으로 추출하든 표본 역시 해당 표본만의 특성(표본 통계)을 가진다. 표본의 다양한 특성 중에서도 표본의 중심 성향을 파악하는 표본 평균은 매우 중요하다. - P36

일반적으로 모집단의 규모가 클수록 해당 모집단의 평균을 미리 알기 어렵다. 이런 이유로 표본을 추출해 분석하는데, 특이하게도 모집단에서 추출한 표본 평균은 모집단의 평균을 기준으로 좌우 대칭으로 분포한다. 이는 모집단의 평균이 무엇이든 상관없이 모집단으로부터 추출한 여러 표본의 각 평균은 모집단의 평균을 중심으로 좌우 대칭 형태로 분포한다는 것이다. 이러한 표본평균의 분포 특성을 설명한 이론이 중심극한정리 Central limit theorem다. - P36

드무아브르가 즐겨 하던 주사위 놀이는 주사위 두 개를 동시에 던져 나오는 수의 합을 미리 예측하는 것이었다. 그는 놀이와 휴식을 위해 주사위 던지기를 했지만그 순간에도 예측한 수가 나오는 확률을 끊임없이 고민했다 그리고 꾸준하게 기록으로 남겼다. - P37

주사위 두 개를 동시에 던져 나오는 수의 합을 매번 기록하고, 꽤 긴 시간 기록된 결과를 바탕으로 전체의 평균을 구했다. 그 후 매일 그날의 주사위 놀이 평균을 구하였고 며칠 뒤 매일 진행한 주사위 놀이의 평균이 앞서 기록한 전체 평균을 중심으로 좌우 대칭 형태로 분포돼 나타남을 확인했다. 또한 주사위를 던지는 횟수가 많은 날은 더욱더 전체 평균에 가깝게 분포된다는 사실을 알게 됐다. 이것이 그(드무아브르)가 최초로 발견하고 정리한 ‘중심극한정리‘다. 그(드무아브르)는 논문에서 시행 횟수가 많을수록 이 공식이 정확해지지만 100번 정도만 시행해도 충분히 좋은 결과를 얻을 수 있다고 했다. - P38

놀라운 것은 표본의 크기(표본에 포함된 관측 값의 개수)가 커질수록 표본들의 평균값은 모집단의 평균값에 더욱 근접해 분포한다는 점이다. 100개에서표본 10개를 뽑는 것보다 30개를 뽑으면 더 정확하게 전체 평균이 근접해 대칭 분포를 형성한다. 100개 중 90개를 표본으로 삼으면 거의 전체 평균의 중심에 붙어 표본의 평균이 좌우 대칭을 이룬다. - P38

중심극한정리는 데이터 분석의 가장 기본적인 이론이다. 이것은 모집단에서 추출한 표본이 충분히 전체를 반영해 설명할 수 있다는 근거가 된다. 다시 말해, 모집단의 성격과 분포가 어떠하든 상관없이 표본평균의 분포는 모집단의 평균을 기준으로 좌우 대칭이 되며, 이를 통해 충분히 전체를 대변할 수 있다. - P38

표본은 전체에서 추출한 확률이다. 따라서 표본평균의 분포를 이론적으로 설명한 중심극한정리는 확률분포에 의거하며 이러한 확률분포를 ‘정규분포‘라 부른다. - P38

세상의 모든 현상은 정규분포를 따른다. 기업의 매출, 시장의 공급과 수요, 키와 몸무게도 모두 정규분포 형태를 띤다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면 그것은 자료가 부족하기 때문이다. - P38

통계학에는 다음과 같은 속설이 있다. ‘통계는 틀린 것은 증명할 수 있어도 맞는 것은 증명하기 어렵다.‘ 수학을 기반으로 한 통계학에서 나온 속설치고는 역설적이다. 그만큼 이미 정설로 굳어진 진리는 번복하기 어렵다는 표현일 것이다. - P40

가설假說을 한자 그대로를 해석하면 ‘거짓 또는 임의로 정한 이야기‘다. 일상에서 비슷한 개념으로 ‘가정假定‘ 이라는 용어를 사용한다. - P40

데이터 분석에서 가설은 ‘탐구 대상이 되는 과학적 자료를 바탕으로 실험과 관찰을 통해 논리적으로 증명해 나가는 이론‘을 뜻한다. - P41

중요한 것은 과학적 자료와 논리적인 증명이다. 가설이 과학적 자료의 실험과 관찰을 통해 논리적으로 증명되면 진리로 굳어진다. - P41

반드시 과학적 자료가 존재해야 하며 이를 실험하고 관찰해 논리적인 증명이 이루어저야 가설이 성립된다. 적어도 통계에서는 말이다. - P41

가설은 꼭 내가 얻고자 하는, 증명하고자 하는 상황만을 설정해야 하는 것일까? 결론부터 이야기하면 항상 그렇지는 않다. - P41

가설은 내가 얻고자 하는 상황을 설정한 ‘대립가설‘과 이와 반대되는 상황인 얻고자 하는 진실과는 반대의 상황을 설정한 ‘귀무가설‘로 나눌 수 있다. - P41

이미 진실로 굳어진 사실 (대립가설)은 증명하기가 어렵다. 그래서 데이터를 분석할 때는 일반적으로 귀무가설을 세우고 해당 가설이 틀렸다는 것을 증명해 본인의 이론을 논리적으로 확정한다. - P42

가설의 설정과 증명 과정은 꼭 숫자를 통한 데이터 분석이 아닌 일상에서도 유용하다. 내가 알고 있는 사실이 진실이라는 점을 증명하고 싶다면 그 반대인 귀무가설을 설정하고 그것이 거짓임을 증명하면 어떨까? - P43

내 머릿속에 자리 잡은 사실은 그것이 진실이든 아니든 간에 쉽게 바뀌지 않는다는 점 - P43

가설을 세우고 증명하는 과정에서는 조심해야 할 부분이 있다. 이것은 대립가설이든 귀무가설이든 해당 가설이 맞고 틀린지를 누구나 공감할 수 있어야 한다는 점이다. - P43

"하나, 둘, 셋을 세면 저 문으로 죽은 부인이 등장할 겁니다." - P44

"여러분도 아직 부인이 죽었다고 믿지 않는데, 심증만으로 남편을 범인으로 몰아가는 것은 문제가 있습니다." - P44

변호사의 노력에도 불구하고 남편은 진짜 무죄지만, 유죄 판결을 받아 수감된다면 어떨까? 이는 귀무가설이 거짓이 되는 경우로, 여기서 얻고자 하는 결과를 도출한 것이 된다. 즉, 대립가설이 선택된 경우다. 그러나 이것은 가설 검정에서 발생할 수 있는 첫 번째 오류 (제1종 오류)로, 귀무가설이 참임에도 거짓으로 오판한 경우다. - P44

두 번째 오류 (제2종 오류)는 반대의 경우다. 남편이 진짜 범인임에도 무죄를 선고받았다면 어땠을까? 이러한 제2종 오류는 귀무가설(남편은 무죄다)이 거짓이지만 참으로 선택하면서 발생한 오류다. - P45

이를 좀 더 쉽게 설명하면 귀무가설의 참과 거짓을 반대로 선택한 경우로, 참일때 거짓을 선택하고 거짓일 때 참을 선택한 오류라고 보면 된다. - P45

옳고 그름을 판단할 기준 - 유의수준과 유의확률 - P45

"네, 믿을 수 있습니다. 우선 하반기 공급량은 1,500대가 넘을 것으로 예상했습니다. 따라서 ‘공급량은 1,500대가 넘지 않는다‘라는 귀무가설을 정하고 유의수준 5%를 설정했습니다. 검정 결과 유의확률이 2%로 나와서 해당 귀무가설을 버리고(기각) 대립가설(1,500대가 넘을 것이란 예상)을 채택했습니다" 도대체 이게 무슨 소리일까? 유의수준(P value라고 하며 p로 표기)은 무엇이고 또 유의확률은 무엇이란 말인가? - P45

유의수준 5%는 가설에 대한 검정 결과가 잘못될 가능성을 5%로, 반대로 신뢰할 수 있는 수준을 95%로 설정하겠다는 뜻이다. - P46

분석 결과에서 유의확률은 공급량이 1,500대가 넘지 않을 확률을 5%까지만 허용하며, 95%는 확실히 1,500대가 넘을 것으로 예측한다는 것 - P46

설정한 귀무가설인 ‘공급량은 1,500대가 넘지 않는다‘가 참일 가능성이 2%로 나왔으므로 설정한 유의수준인 5% 미만이 돼 (98%가 거짓) 해당 귀무가설을 기각한 것이다. - P46

그러면 이 유의수준과 유의확률은 왜 정하는 것일까? 그것은 바로 앞서 영화 「의뢰인」에서 설명한 오류, 즉 귀무가설이 참인데 거짓으로 판명하고 거짓인데 참으로 해석하는 (제1종 오류와 제2종 오류는 상층적 관계) 오류를 방지하기 위한 경계선을 정하고자 함이다. - P46

유의수준 5%는 검정 결과의 유의확률이 5% 미만이면 유의미한 결과를 얻는 것이고, 그 반대로 5% 이상이 되면 무의미한 결과가 된다. 따라서 유의수준의 값이 낮으면 낮을수록 해당 검정 결과는 더욱 정밀해지며 결과의 신뢰도는 높아진다. - P46

법정에서 유의수준은 무엇이며 유의확률은 무엇일까? 유의확률까지는 아니어도 유의수준과 기준점은 있어야 하지 않을까? 재판에서는 ‘판례‘가 유의수준과 기준점 역할을 담당하며 중요하게 작용한다. 이처럼 반드시 숫자가 아니어도 된다. - P46

우리가 정한 가설이 옳고 그름을 판단할 기준이 되는 유의수준은 앞선 사례와 지금까지의 패턴, 흐름 등으로 충분히 설정할 수 있다. - P46


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
북마크하기찜하기 thankstoThanksTo