모수적 검정 기법과 비모수적 검정 기법의 선택은 어느 쪽이 우월하고 어느 쪽이 정확도가 높은지가 아니라 상황에 적절한 검정 기법이 무엇인가의 문제다. - P90
일단 데이터가 적은 상황은 배제한다. 데이터 홍수의 시대에 데이터가 적은 상황은 그리 흔치 않기 때문이다. 그래서 모든 분석에 앞서 데이터가 충분히 확보된다고 가정하고 모수적 검정을 수행한다. 그렇게 해서 나온 분석 결과를 2차 데이터로 재활용해 분석하는 경우에는 이 데이터가 반드시 정규분포를 따른다고 가정할 수 없으므로 비모수적 분석을 수행한다. 그러나 1차 분석에서 관측이나 실험의 결과가 서로 다른 환경에서의 독립된 표본이라면 당연히 비모수적 검정을 수행해야 한다. - P90
서열과 부호를 기준으로 한 비모수적 검정은 수학 지식의 깊이나 특별한 통계 지식을 요구하는 경우가 적다. 또한 순위가 명확하므로 잘못된 분석 결과를 도출할 가능성이 적다. 하지만 비모수적 검정은 정규분포를 가정해 나타내지 않기 때문에 표본이 모집단을 대변한다 하기에는 부족하다. - P91
또한, 분석 대상이 정규분포를 따르지 않으면 심각한 오류를 범하게 된다고 오랫동안 믿어 왔기 때문에 비모수적 검정은 모수적 검정보다 개발된 방법론이 극히 적다. - P91
지금까지 설명한 모든 통계 검정은 모수적 검정이었다. - P91
스피어만 상관계수Spearman‘s rank correlation coefficient 또는 Spearman‘s rho는 영국의 심리학자인 찰스 스피어만 (Charles Edward Spearman, 1863~1945)이 고안한 비모수적 상관분석 기법이다. - P91
스피어만 상관분석은 두 변인(변수) 간의 순위를 부여하고 연관성을 검정하는 기법으로, 피어슨 상관분석과 같이 -1 에서 1 사이의 값(계수)을 갖는다. 보통 피어슨 상관분석을 곱적률 상관분석이라고 하며 스피어만 상관분석을 순위 상관분석이라고 한다. 간단히 표현하면 전자는 두 변인 간의 선형관계를 계수로 표현한 것이고, 후자는 변인 간의 순위를 부여한 값을 기반으로 분석을 한다. - P92
두 분석(피어슨 상관분석, 스피어만 상관분석)모두 두 변인 간의 연관성 정도를 -1에서 1까지의 값으로 표현한다는 점은 비슷하지만, 들여다 보면 약간의 차이가 있다. 단순히 모수와 비모수를 다루는 기법과 선형과 순위를 기반으로 한다는 점뿐 아니라 결괏값, 즉 상관계수에서도 그 차이를 찾을 수 있다. - P92
비례적 연관성을 검증하는 피어슨 상관계수 - P92
순위 비교를 통한 스피어만 상관계수 - P92
선형관계를 파악하는 피어슨 상관분석과 단순 순위 비교를 진행하는 스피어만 상관분석의 차이 - P93
같은 범주 내에서의 비교는 같은 환경이라 할 수 있지만, 다른 범주 간의 비교를 같은 환경이라 가정할 수 있을까? 즉, 언어 능력과 수리 능력의 상관관계가 같은 환경이라 할 수 있느냐 하는 문제다. 그래서 스피어만은 언어 능력의 순위를 정하고 다시 수리 능력의 순위를 정해 서로를 비교함으로써 상관관계가 존재하는지를 파악했다. 이것이 바로 G 요인general factor (인간이 어떠한 문제를 해결할 때 공통으로 작용하는 능력)을 발견하는 과정에서 비모수적 상관관계를 검정하는 스피어만 상관분석의 시작이었다. - P95
비모수적 검정 기법인 윌콕슨 순위합 검정wilcoxon rank sum test과 윌콕슨 부호 순위 검정wilcoxon signed rank test - P97
모수적 양측 검정 기법인 t-검정에 대응하는 비모수적 양측 검정의 하나가 윌콕슨이 정립한 순위합 검정이다. - P97
도출된 각 실험의 순위합을 비교한다. 두 실험의 결과가 비슷하면 순위합도 비슷하겠지만 결과가 서로 다르면 실험 결과가 한쪽으로 치우쳐 (중략) 두 순위합이 차이가 난다고 할 수 있다. 이것이 바로 윌콕슨 순위합 검정의 기본적인 배경이다. 물론 논리적인 전개는 단순 순위합을 비교하는 것으로 끝나지 않는다. 다만 이러한 발상으로 양측 검정이 충분히 가능함을 정립한 것은 실로 대단하다. - P99
때로는 단순함이 복잡함을 설명한다. - P99
윌콕슨의 순위합 검정은 독립된 집단의 결과를 통합해 정리하고 순위를 부여한 뒤 각각의 집단에 대한 순위합을 구해 비교하는 방식이다. - P99
순위합 검정은 아니지만 유사한 통계량을 사용하는 비모수양측 검정 기법이 있다. 바로 만-위트니 U 검정 Man-Whitney U-test, (이하 만-위트니 검정)이다. - P99
윌콕슨 순위합 검정은 전체 순위를 정하고 집단별로 순위의 합을 비교하지만, 만-위트니 검정은 두 집단의 관측값을 모두 일대일로 상대 비교한다. - P102
월콕슨 순위합은 말 그대로 순위의 총합을 구해 검정하고, 만-위트니 검정은 값들을 비교해 값이 큰 경우 해당하는 개수의 총합을 구해 검정한다. 두 기법은 비모수적 양측 검정 기법으로 관측하거나 실험한 값이 서로 다른 환경의 독립적인 결과여야 하고, 어느 쪽이 크다는 서열을 표시할 수 있어야 한다. - P103
모수적 검정에서도 확인했지만 세상에 비교 대상이 두 집단만 있는 건 아니다. 비모수적 검정에서도 2개 이상의 집단을 비교해야 하는 일은있다. t-검정을 상대할 윌콕슨 순위합 검정과 만-위트니 검정이 있다면, 분산분석을 상대하는 데는 크루스칼-왈리스 검정 Kruskal-Wallis test이 나선다. - P104
앞서 소개한 윌콕슨 순위합 검정과 만-위트니 검정, 여기서 소개할 크루스칼-왈리스 검정의 장점을 한 단어로 표현하면 ‘단순함‘이다. 관측값의 순위만으로 집단 간의 차이점을 검정한다는 사실은 대단한 발견이 아닐 수 없다. - P104
하지만 ‘복잡함‘에 대한 이해 없이 ‘단순함‘을 찾을 수는 없다 - P104
세상의 모든 아름다움은 어려운 문제의 정답을 찾는 과정에서 나온다고 한다. 단순함 역시 복잡한 문제의 정답을 찾는 과정에서 나온다. - P105
크루스칼-윌리스 검정은 일원배치 분산분석의 비모수적 검정 기법으로, 서로 독립적인 환경에서 관측된 3개 이상의 집단을 검정하는 방법이다. 크루스칼-왈리스 검정의 기본 흐름은 윌콕슨 순위합 검정과 유사하다. - P106
크루스칼-왈리스 검정은 관측된 값들의 중앙값을 기본으로 한다는 점에서 윌콕슨 순위합 검정이나 만-위트니 검정과 유사하다. - P108
데이터 분석을 하는데 가장 중요한 것은 수학도 통계 기법도 알고리즘도 아닌 비즈니스에 대한 이해다. 유통, 제조, 마케팅, 서비스 등 산업 분야의 형태를 알아야 하고, 여기에 그 회사만이 가진 특성도 알아야 한다. 이런 비즈니스 특성을 충분히 이해해야 분석 내용이 설득력을 얻게 된다. - P109
중요한 것은 어떤 경우에 어떤 기법을 써야 하는지를 아는 것이다. 그 이전에 비즈니스 환경과 데이터 분석의 기본 원리를 이해하는 게 필요하다. - P110
데이터 분석에서는 특징 또는 속성에 따른 분류와 분리, 그룹화가 매우 중요한 기법으로 쓰이고 있다. - P114
분류는 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것을 말한다. 반면 군집은 체계 (속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한) 속성끼리 묶어 그룹을 구성하는 것이다. - P115
즉, 분류란 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것이다. 군집은 이와는 반대로 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업을 의미한다. - P115
분류는 이미 개수가 정해져 있지만, 군집은 최종 개수를 사전에 알 수 없다. 그래서 분류는 정해진 기준을 대상에 ‘적용‘해 나누는 것이고, 군집은 기준을 ‘탐사‘하고 대상을 나누는 것이다. - P115
군집화는 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 행위다. 여기서 개체는 분석대상이며, 속성은 분석 대상의 특성이다. 그러면 이제 유사한 속성이 무엇인가만 남았다. 유사성, 다른 말로 유사도similarity 라고도 하는데, - P118
데이터 분석은 수학을 기반으로 한 확률이고, 수학은 수를 다루는 학문이다. 군집화 분석을 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것이다. - P118
절대값은 무엇일까? 일반적으로 수가 가질 수 있는 속성 중에는 방향과 거리가 있다. 그래서 양수와 음수로 수를 표현하는 것은 방향을 나타낸다. +3은 정방향으로 3칸, -3은 역방향으로 3칸 떨어진 것이다. 즉, 0을 기준으로 정방향이든 역방향이든 모두 3칸 떨어졌단 의미다. 이 방향성을 뺀 값을 ‘거리‘라 하고, 그 값을 절대값이라고 부른다. - P119
거리는 군집과 어떤 관계가 있을까? 앞부분에서 유사도를 언급했는데, 바로 이 유사도를 측정할 때 거리가 가장 훌륭한 조력자가 된다. - P120
거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도측정에 가장 많이 활용하는 기법이다. 거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리다. - P120
유사도 측정 공식 중 거리를 이용한 가장 대표적인, 우리가 학창시절 수학시간에 들어 봤음직한, 유클리드 거리 Euclidean distance - P121
유클리드 거리 계산을 쉽게 표현하면 공간상에 찍힌 두 점 사이의 거리를 계산하는 공식이다. - P122
유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식이다. 이 공식은 피타고라스의 정리와 매우 유사하다. - P123
유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있다. 이 공식은 최댓값이 정해져 있지 않아 유사도, 즉 ‘가깝다‘, ‘가깝지 않다‘의 기준을 정하기 어렵다. 실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵다. 그래서 유클리드 거리로 계산된 값이 0에서 1 사이의 값이 되게 정규화를 해야 한다. - P124
•유클리드 거리 유사도=1/(1+ Ed) - P124
계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취한다. 그러면 이 값은 0에서 1사이의 값이 나온다. 유사도 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. - P124
거리를 활용한 유사도 이외의 또 다른 방법으로 맨해튼 거리 Manhattan distance 공식이 있다. 여기서 맨해튼은 모두 아는 뉴욕의 지명이다. 유클리드 거리는 거리를 계산할 때 장애물을 고려하지 않는다. 즉, 유클리드 거리는 최단 거리라 할 수 있다. 그러나 실생활에서는 최단 거리만을 이용할 수 없다. 맨해튼은 서울, 아니 그보다 도심이 더 복잡하다. - P127
맨해튼 거리 공식은 유클리드 거리 공식보다 매우 간단하다. 맨해튼 거리는 두 좌표 값의 차이에 절대값을 취해 구한다. - P127
거리를 기반으로 한 유사도 공식만 있는 것은 아니다. 다음으로 소개할 유사도 공식은 거리가 아닌 각도에 따라 유사도를 측정한다. 코사인 유사도 cosine similarity는 삼각함수에서 나오는 코사인cosine, cos을 이용한다. - P128
피타고라스의 정리에 등장하는 삼각형은 오로지 직삼각형 (직각 삼각형)만 다룬다. 그러나 세상에는 직삼각형 외에도 많은 삼각형이 있다. 코사인은 이 직각이 아닌 일반 삼각형에 적용하는 공식이다. 코사인은 피타고라스의 정리와 유클리드 거리 공식으로 충분히 증명할 수 있다. - P128
코사인은 익히 아는 삼각함수의 하나다. 더 정확히 표현하면 코사인은 2차원 평면에서 볼 때 한 지점에서 출발한 방향을 가진 두 값(벡터)의 길이에 대한 비율을 의미한다. - P129
유사도는 0과 1 사이의 값을 수렴하므로 코사인 유사도는 두 값의 방향이 0도일 때와 90도일 때를 기준으로 한다. 따라서 두 값의 방향성이 정확히 일치하는 0도일 때 값이 1이므로 가장 유사도가 높고 각도가 늘어날수록 보다 값이 작아지며 0이 유사도가 가장 낮다고 판단한다. - P129
피어슨 상관계수 역시 유사도를 측정하는 매우 훌륭한 도구다. 그리고 뒤에서 설명할 패턴 분석에 유용한 분석 방법의하나인 연관규칙의 신뢰도와 중첩 비중에 따른 지수 활용 Inclusive index, Jaccard Index 으로도 유사도를 구할 수 있다. - P129
|