빅데이터 시대, 올바른 인사이트를 위한 통계 101×데이터 분석 - 데이터는 다뤄도 통계까지 배울 시간은 없었던 당신에게
아베 마사토 지음, 안동현 옮김 / 프리렉 / 2022년 10월
평점 :
장바구니담기


통계학은 데이터 분석의 근간이다. 아베 마사토의《통계 101×데이터 분석》(프리렉, 2022)은 이과생과 문과생 모두를 위한 통계학적 사고방식과 다양한 통계분석 방법에 대한 최적의 입문서다. 데이터 분석에 반드시 필요한 추론통계부터 가설검정, 상관과 인과 간 차이 및 인과 추론 방법, 통계 모형화, 베이즈 통계, 기계학습, 수리 모형에 이르기까지 폭넓은 주제를 망라했다. 

데이터 분석의 목적은 크게 세 가지다. 데이터를 요약하는 것, 대상을 설명하는 것, 그리고 새로 얻을 데이터를 예측하는 것이다.

"통계학에 의거한 데이터 분석은, 데이터를 정량적이고 객관적으로 평가하여 대상이 가진 성질과 관계성을 올바르게 찾고자 하는 시도입니다."(19쪽)

데이터 분석에서 말하는 관계성은 인과관계와 상관관계가 있다. 통계는 수집한 데이터를 정리하고 요약하는 기술통계와 수집한 데이터로부터 데이터의 발생원을 추정하는 추론통계가 있다. 추론통계는 데이터에서 가정한 확률 모형의 성질을 추정하는 통계적 추론과 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여 가설을 채택할 것인가를 판단하는 가설검정이 있다. 

가설검정에서는 'p값'이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다. 밝히고자 하는 가설의 부정 명제를 귀무가설이라고 하고, 밝히고 싶은 가설을 대립가설이라고 한다. 신약 효과 연구를 예로 들면, '신약이 효과가 없다'가 귀무가설이고, '신약이 효과가 있다'가 대립가설이다. 가설검정의 기본은 다음과 같다.

"①확인하고 싶은 대상에 따라 귀무가설과 대립가설을 설정한다.

②데이터로 가설검정에 필요한 검정통계량을 계산한다.

③귀무가설이 옳다는 가정하에 통계량의 분포를 생각하고, 데이터로 계산한 통계량이 분포의 어느 위치에 있는지를 구하여 p값을 계산한다."(149쪽)

다양한 추론통계 분석 방법에 익숙할 필요가 있지만, 그보다 중요한 것은 가설검정의 문제점에 대해 경각심을 갖는 일이다. 통계분석 소프트웨어의 발달로, 세세한 계산과 분석이 무척 쉬워졌지만, 논문들의 '재현성의 위기'가 끊이지 않는 것은 학술윤리를 소홀히 한 탓이다. 가령 의도하든 의도하지 않든 p값을 원하는 방향으로 조작하는 'p-해킹'이 대표적이다. 가설검정 원리의 p값은 "귀무가설이 옳다고 가정할 때 실제 관찰한 데이터 이상으로 극단적인 값을 얻을 확률"을 뜻한다. 이 값이 작으면 귀무가설과 관찰한 데이터 사이에 괴리가 크다는 것을 뜻하며, α=0.05와 같은 유의수준을 밑도는 때(p<0.05)에는 귀무가설을 기각하는 판단을 내리게 된다. 그런데 연구자가 표본크기를 늘리는 등의 방식으로 p<0.05가 되도록 조작하는 경우가 있다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo