지난 포스팅의 마지막 부분에서 모수적 검정 기법과 비모수적 검정 기법에 대해 살짝만 살펴 봤었는데, 오늘은 이에 대해 좀 더 살펴본다. 두 검정 기법에 대한 개념적인 것들은 지난번 포스팅에서 어느정도 다루었기에 오늘은 어떤 상황에 적용하는지에 대해 먼저 알아보고 이어서 뒤에 나오는 내용들로 넘어가고자 한다.

(이 책의 맨 앞에 나왔던 평균, 분산, 표준편차 그리고 귀무가설, 유의수준 정도까지는 그럭저럭 괜찮았던 거 같은데 지금 나오는 모수와 비모수 검정부터는 뭔가 조금씩 머리가 지끈지끈 해지는 느낌이 슬슬 올라온다. 이해하려고 애써 보겠지만 역시 통계라는 게 결코 호락호락하지 않음을 느낀다. 그래도 저자분께서 가급적 친절하게 설명해주시니 믿고 가봐야 겠다.)
.
.
.
이어지는 내용에서는 윌콕슨 순위합 검정과 만-위트니 검정이라는 것이 나오는데, 개인적으로 둘 다 처음보는 개념이라 생소하기는 했지만 저자께서 이해하기 쉽게 예시를 들어 설명해주셔서 낯설긴 했지만 이해하는데는 크게 무리가 없었던 것 같다.

또한 위의 두 검정에 더해 크루스칼-왈리스 검정이라는 것도 나오는데 이것은 모수적 검정에서 3개이상의 그룹을 비교분석하는 분산분석에 대응되는 비모수적 검정이라고 한다. 책에 간단한 사례가 나오는데 이 또한 초심자가 이해하기에 무난하도록 저자께서 배려를 많이 해주셔서 잘 이해할 수 있었다.


p.109, p.110에 밑줄친 내용은 데이터 분석가 혹은 과학자가 되기 위해 무엇을 공부해야 하는가에 대한 저자의 답변 중 일부이다. 여기에 더해 저자는 사람들과의 원만한 커뮤니케이션 능력을 갖추는 것의 중요성도 역설한다.
.
.
.
절을 바꿔서 이어지는 내용에서는 분류와 군집이라는 개념이 등장하는데 이 둘의 가장 핵심적인 차이는 체계가 정해져 있는가 아닌가이다. 이미 정해진 체계 혹은 기준이 있으면 분류라고 하고, 아직 정해진 체계 혹은 기준이 없을 때 새롭게 체계나 기준을 확립하고 유사한 속성끼리 그룹을 구성하는 것은 군집이라고 한다. 저자는 많은 사람들이 이 두 용어를 혼동해서 사용하고 있기에 구체적인 개념을 설명하는데 지면을 일정부분 할애한 것으로 보인다.


분류와 군집에 대한 개념 설명 이후에는 유사도 similarity 라는 것과 함께 이것을 측정하기 위한 ‘유클리드 거리‘가 소개된다. 여기 일일이 밑줄치진 않았지만 다양한 사례들을 통해 어렵지 않게 개념을 익힐 수 있었다. 추가적으로 맨해튼 유사도, 코사인 유사도 같은 개념들도 소개되어서 유사도를 측정하는 방식이 한 가지만 있지 않고 여러가지 방식이 존재함을 알 수 있었다.

모수적 검정 기법과 비모수적 검정 기법의 선택은 어느 쪽이 우월하고 어느 쪽이 정확도가 높은지가 아니라 상황에 적절한 검정 기법이 무엇인가의 문제다. - P90

일단 데이터가 적은 상황은 배제한다. 데이터 홍수의 시대에 데이터가 적은 상황은 그리 흔치 않기 때문이다. 그래서 모든 분석에 앞서 데이터가 충분히 확보된다고 가정하고 모수적 검정을 수행한다. 그렇게 해서 나온 분석 결과를 2차 데이터로 재활용해 분석하는 경우에는 이 데이터가 반드시 정규분포를 따른다고 가정할 수 없으므로 비모수적 분석을 수행한다. 그러나 1차 분석에서 관측이나 실험의 결과가 서로 다른 환경에서의 독립된 표본이라면 당연히 비모수적 검정을 수행해야 한다. - P90

서열과 부호를 기준으로 한 비모수적 검정은 수학 지식의 깊이나 특별한 통계 지식을 요구하는 경우가 적다. 또한 순위가 명확하므로 잘못된 분석 결과를 도출할 가능성이 적다. 하지만 비모수적 검정은 정규분포를 가정해 나타내지 않기 때문에 표본이 모집단을 대변한다 하기에는 부족하다. - P91

또한, 분석 대상이 정규분포를 따르지 않으면 심각한 오류를 범하게 된다고 오랫동안 믿어 왔기 때문에 비모수적 검정은 모수적 검정보다 개발된 방법론이 극히 적다. - P91

지금까지 설명한 모든 통계 검정은 모수적 검정이었다. - P91

스피어만 상관계수Spearman‘s rank correlation coefficient 또는 Spearman‘s rho는 영국의 심리학자인 찰스 스피어만 (Charles Edward Spearman, 1863~1945)이 고안한 비모수적 상관분석 기법이다. - P91

스피어만 상관분석은 두 변인(변수) 간의 순위를 부여하고 연관성을 검정하는 기법으로, 피어슨 상관분석과 같이 -1 에서 1 사이의 값(계수)을 갖는다. 보통 피어슨 상관분석을 곱적률 상관분석이라고 하며 스피어만 상관분석을 순위 상관분석이라고 한다. 간단히 표현하면 전자는 두 변인 간의 선형관계를 계수로 표현한 것이고, 후자는 변인 간의 순위를 부여한 값을 기반으로 분석을 한다. - P92

두 분석(피어슨 상관분석, 스피어만 상관분석)모두 두 변인 간의 연관성 정도를 -1에서 1까지의 값으로 표현한다는 점은 비슷하지만, 들여다 보면 약간의 차이가 있다. 단순히 모수와 비모수를 다루는 기법과 선형과 순위를 기반으로 한다는 점뿐 아니라 결괏값, 즉 상관계수에서도 그 차이를 찾을 수 있다. - P92

비례적 연관성을 검증하는 피어슨 상관계수 - P92

순위 비교를 통한 스피어만 상관계수 - P92

선형관계를 파악하는 피어슨 상관분석과 단순 순위 비교를 진행하는 스피어만 상관분석의 차이 - P93

같은 범주 내에서의 비교는 같은 환경이라 할 수 있지만, 다른 범주 간의 비교를 같은 환경이라 가정할 수 있을까? 즉, 언어 능력과 수리 능력의 상관관계가 같은 환경이라 할 수 있느냐 하는 문제다. 그래서 스피어만은 언어 능력의 순위를 정하고 다시 수리 능력의 순위를 정해 서로를 비교함으로써 상관관계가 존재하는지를 파악했다. 이것이 바로 G 요인general factor (인간이 어떠한 문제를 해결할 때 공통으로 작용하는 능력)을 발견하는 과정에서 비모수적 상관관계를 검정하는 스피어만 상관분석의 시작이었다. - P95

비모수적 검정 기법인 윌콕슨 순위합 검정wilcoxon rank sum test과 윌콕슨 부호 순위 검정wilcoxon signed rank test - P97

모수적 양측 검정 기법인 t-검정에 대응하는 비모수적 양측 검정의 하나가 윌콕슨이 정립한 순위합 검정이다. - P97

도출된 각 실험의 순위합을 비교한다. 두 실험의 결과가 비슷하면 순위합도 비슷하겠지만 결과가 서로 다르면 실험 결과가 한쪽으로 치우쳐 (중략) 두 순위합이 차이가 난다고 할 수 있다. 이것이 바로 윌콕슨 순위합 검정의 기본적인 배경이다. 물론 논리적인 전개는 단순 순위합을 비교하는 것으로 끝나지 않는다. 다만 이러한 발상으로 양측 검정이 충분히 가능함을 정립한 것은 실로 대단하다. - P99

때로는 단순함이 복잡함을 설명한다. - P99

윌콕슨의 순위합 검정은 독립된 집단의 결과를 통합해 정리하고 순위를 부여한 뒤 각각의 집단에 대한 순위합을 구해 비교하는 방식이다. - P99

순위합 검정은 아니지만 유사한 통계량을 사용하는 비모수양측 검정 기법이 있다. 바로 만-위트니 U 검정 Man-Whitney U-test, (이하 만-위트니 검정)이다. - P99

윌콕슨 순위합 검정은 전체 순위를 정하고 집단별로 순위의 합을 비교하지만, 만-위트니 검정은 두 집단의 관측값을 모두 일대일로 상대 비교한다. - P102

월콕슨 순위합은 말 그대로 순위의 총합을 구해 검정하고, 만-위트니 검정은 값들을 비교해 값이 큰 경우 해당하는 개수의 총합을 구해 검정한다. 두 기법은 비모수적 양측 검정 기법으로 관측하거나 실험한 값이 서로 다른 환경의 독립적인 결과여야 하고, 어느 쪽이 크다는 서열을 표시할 수 있어야 한다. - P103

모수적 검정에서도 확인했지만 세상에 비교 대상이 두 집단만 있는 건 아니다. 비모수적 검정에서도 2개 이상의 집단을 비교해야 하는 일은있다. t-검정을 상대할 윌콕슨 순위합 검정과 만-위트니 검정이 있다면, 분산분석을 상대하는 데는 크루스칼-왈리스 검정 Kruskal-Wallis test이 나선다. - P104

앞서 소개한 윌콕슨 순위합 검정과 만-위트니 검정, 여기서 소개할 크루스칼-왈리스 검정의 장점을 한 단어로 표현하면 ‘단순함‘이다. 관측값의 순위만으로 집단 간의 차이점을 검정한다는 사실은 대단한 발견이 아닐 수 없다. - P104

하지만 ‘복잡함‘에 대한 이해 없이 ‘단순함‘을 찾을 수는 없다 - P104

세상의 모든 아름다움은 어려운 문제의 정답을 찾는 과정에서 나온다고 한다. 단순함 역시 복잡한 문제의 정답을 찾는 과정에서 나온다. - P105

크루스칼-윌리스 검정은 일원배치 분산분석의 비모수적 검정 기법으로, 서로 독립적인 환경에서 관측된 3개 이상의 집단을 검정하는 방법이다. 크루스칼-왈리스 검정의 기본 흐름은 윌콕슨 순위합 검정과 유사하다. - P106

크루스칼-왈리스 검정은 관측된 값들의 중앙값을 기본으로 한다는 점에서 윌콕슨 순위합 검정이나 만-위트니 검정과 유사하다. - P108

데이터 분석을 하는데 가장 중요한 것은 수학도 통계 기법도 알고리즘도 아닌 비즈니스에 대한 이해다. 유통, 제조, 마케팅, 서비스 등 산업 분야의 형태를 알아야 하고, 여기에 그 회사만이 가진 특성도 알아야 한다. 이런 비즈니스 특성을 충분히 이해해야 분석 내용이 설득력을 얻게 된다. - P109

중요한 것은 어떤 경우에 어떤 기법을 써야 하는지를 아는 것이다. 그 이전에 비즈니스 환경과 데이터 분석의 기본 원리를 이해하는 게 필요하다. - P110

데이터 분석에서는 특징 또는 속성에 따른 분류와 분리, 그룹화가 매우 중요한 기법으로 쓰이고 있다. - P114

분류는 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것을 말한다. 반면 군집은 체계 (속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한) 속성끼리 묶어 그룹을 구성하는 것이다. - P115

즉, 분류란 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것이다. 군집은 이와는 반대로 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업을 의미한다. - P115

분류는 이미 개수가 정해져 있지만, 군집은 최종 개수를 사전에 알 수 없다. 그래서 분류는 정해진 기준을 대상에 ‘적용‘해 나누는 것이고, 군집은 기준을 ‘탐사‘하고 대상을 나누는 것이다. - P115

군집화는 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 행위다. 여기서 개체는 분석대상이며, 속성은 분석 대상의 특성이다. 그러면 이제 유사한 속성이 무엇인가만 남았다. 유사성, 다른 말로 유사도similarity 라고도 하는데, - P118

데이터 분석은 수학을 기반으로 한 확률이고, 수학은 수를 다루는 학문이다. 군집화 분석을 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것이다. - P118

절대값은 무엇일까? 일반적으로 수가 가질 수 있는 속성 중에는 방향과 거리가 있다. 그래서 양수와 음수로 수를 표현하는 것은 방향을 나타낸다. +3은 정방향으로 3칸, -3은 역방향으로 3칸 떨어진 것이다. 즉, 0을 기준으로 정방향이든 역방향이든 모두 3칸 떨어졌단 의미다. 이 방향성을 뺀 값을 ‘거리‘라 하고, 그 값을 절대값이라고 부른다. - P119

거리는 군집과 어떤 관계가 있을까? 앞부분에서 유사도를 언급했는데, 바로 이 유사도를 측정할 때 거리가 가장 훌륭한 조력자가 된다. - P120

거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도측정에 가장 많이 활용하는 기법이다. 거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리다. - P120

유사도 측정 공식 중 거리를 이용한 가장 대표적인, 우리가 학창시절 수학시간에 들어 봤음직한, 유클리드 거리 Euclidean distance - P121

유클리드 거리 계산을 쉽게 표현하면 공간상에 찍힌 두 점 사이의 거리를 계산하는 공식이다. - P122

유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식이다. 이 공식은 피타고라스의 정리와 매우 유사하다. - P123

유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있다. 이 공식은 최댓값이 정해져 있지 않아 유사도, 즉 ‘가깝다‘, ‘가깝지 않다‘의 기준을 정하기 어렵다. 실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵다. 그래서 유클리드 거리로 계산된 값이 0에서 1 사이의 값이 되게 정규화를 해야 한다. - P124

•유클리드 거리 유사도=1/(1+ Ed) - P124

계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취한다. 그러면 이 값은 0에서 1사이의 값이 나온다. 유사도 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. - P124

거리를 활용한 유사도 이외의 또 다른 방법으로 맨해튼 거리 Manhattan distance  공식이 있다. 여기서 맨해튼은 모두 아는 뉴욕의 지명이다. 유클리드 거리는 거리를 계산할 때 장애물을 고려하지 않는다. 즉, 유클리드 거리는 최단 거리라 할 수 있다. 그러나 실생활에서는 최단 거리만을 이용할 수 없다. 맨해튼은 서울, 아니 그보다 도심이 더 복잡하다. - P127

맨해튼 거리 공식은 유클리드 거리 공식보다 매우 간단하다. 맨해튼 거리는 두 좌표 값의 차이에 절대값을 취해 구한다. - P127

거리를 기반으로 한 유사도 공식만 있는 것은 아니다. 다음으로 소개할 유사도 공식은 거리가 아닌 각도에 따라 유사도를 측정한다. 코사인 유사도 cosine similarity는 삼각함수에서 나오는 코사인cosine, cos을 이용한다. - P128

피타고라스의 정리에 등장하는 삼각형은 오로지 직삼각형 (직각 삼각형)만 다룬다. 그러나 세상에는 직삼각형 외에도 많은 삼각형이 있다. 코사인은 이 직각이 아닌 일반 삼각형에 적용하는 공식이다. 코사인은 피타고라스의 정리와 유클리드 거리 공식으로 충분히 증명할 수 있다. - P128

코사인은 익히 아는 삼각함수의 하나다. 더 정확히 표현하면 코사인은 2차원 평면에서 볼 때 한 지점에서 출발한 방향을 가진 두 값(벡터)의 길이에 대한 비율을 의미한다. - P129

유사도는 0과 1 사이의 값을 수렴하므로 코사인 유사도는 두 값의 방향이 0도일 때와 90도일 때를 기준으로 한다. 따라서 두 값의 방향성이 정확히 일치하는 0도일 때 값이 1이므로 가장 유사도가 높고 각도가 늘어날수록 보다 값이 작아지며 0이 유사도가 가장 낮다고 판단한다. - P129

피어슨 상관계수 역시 유사도를 측정하는 매우 훌륭한 도구다. 그리고 뒤에서 설명할 패턴 분석에 유용한 분석 방법의하나인 연관규칙의 신뢰도와 중첩 비중에 따른 지수 활용 Inclusive index, Jaccard Index 으로도 유사도를 구할 수 있다. - P129


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
북마크하기찜하기 thankstoThanksTo