3일 만에 끝내는 코딩 통계 - R언어 설치부터 코딩까지
박준석 지음 / 사회평론아카데미 / 2021년 10월
평점 :
장바구니담기




한 줄의 코딩으로 열 배 쉬워지는 통계라니, 통계학에 관심 있는 이들이라면 입문서로 제격인 책입니다. 무엇보다 고등학교 확률과 통계 개념을 R을 이용해 직관적으로 이해할 수 있으니 확률과 통계 단원을 헤매는 고등학생부터 통계학을 처음부터 배우고 싶은 성인까지 두루 읽기 좋습니다.


오하이오의 낚시꾼을 운영하며 통계학의 최신 흐름을 소개하고, 시사 이슈에 숨은 통계 오류를 짚어내는 데이터과학자 박준석 저자는 일반인의 데이터 문해력 증진과 통계학 대중화를 위해 <3일 만에 끝내는 코딩 통계>를 내놓았습니다.


요즘은 데이터 분석을 하려면 컴퓨터를 사용합니다. 수학적 공식은 실제 현장에서 손으로 계산하지 않는 거죠. 통계학 전공자가 아닌 이상 컴퓨터가 알아서 하고 사람은 명령어를 실행하기만 하면 됩니다.


프로그래밍 언어인 파이선, R 같은 것들을 한 번쯤 들어본 분도 계실 텐데요. 다양한 분야에서 쓰이는 범용 언어인 파이선보다 이미 통계에 특화된 프로그래밍 언어인 R로 시작하면 좋다고 합니다. 무료이기도 하고요. 이 책은 R을 이용해서 고등학교 확률과 통계 개념을 알려주고, 코딩을 통한 통계학 학습을 돕습니다.


수열의 규칙을 손으로 일일이 푸는 근성을 보여준 사례가 인터넷에서 화제가 되었을 만큼 (무식하게 풀어본 경험, 한 번쯤 있지 않나요) 교과서로는 직관적인 개념 이해를 하기 힘든 파트이기도 합니다. 2022년 수능부터는 확률과 통계가 선택과목으로 빠지면서 오히려 AI와 데이터과학 붐과는 역행하는 길을 걷는다고 말할 수도 있지만 여전히 확률과 통계를 선택하는 학생이 많을 겁니다. 그런데 학교에서 배우는 확률과 통계 단원이 낡은 방식이라는 것! 실제 현장의 데이터분석과는 동떨어져 있습니다.


<3일 만에 끝내는 코딩 통계>에서는 코딩을 통해 확률과 통계를 배웠을 때 어떤 장점이 있는지, 납득하기 어려운 설명도 시뮬레이션으로 보여주면서 확률과 통계에 대한 장벽을 낮춥니다.


수식이 있을 때 그것을 실제로 어떻게 계산해야 하는지 구체적으로 생각하게 하고 명료한 사고를 강제하는 효과를 가진 게 코딩입니다. 알고리즘적 사고라고 하죠. 아이 학교에서도 코딩을 배우긴 했지만, 시간 채우기식으로만 다루는 느낌이라 아쉬웠는데 확률과 통계를 R 언어로 접근하면서 자연스럽게 기초 코딩 교육도 배울 수 있다는 점이 좋아 보입니다.


<3일 만에 끝내는 코딩 통계>는 명령어 몇 가지로 간단한 조작만으로 확률과 통계 문제를 풀어내는 과정을 보여줍니다. 복잡한 수식이 한 줄의 코딩으로 정리되니 신기하더라고요.


넷플릭스 드라마 <D.P>에서 등장하며 눈길을 끌었던 몬티홀 문제도 등장합니다. 세 개의 문 중 하나엔 자동차가, 나머지 두 문 뒤에는 염소가 있습니다. 참가자는 세 개의 문 중 하나를 선택합니다. 문 뒤에 자동차가 있으면 상으로 받고 염소가 있으면 꽝입니다. 그런데 참가자가 문을 하나 선택했을 때 진행자는 참가자가 고르지 않은 문 중 염소가 있는 문을 열어서 보여줍니다. 그러고는 참가자에게 선택한 문을 바꿀 기회를 줍니다. 당신이라면 바꾸겠습니까, 바꾸지 않겠습니까.


정답은 바꾸는 것이 낫다 쪽인데 머리 좋은 사람도 항의 서한을 보낼 정도로 풀이를 읽어봐도 납득하지 못하는 사람이 많은 악명 높은 문제입니다. 저자는 이 문제를 몬테카를로 방법으로 R 프로그래밍을 활용해 시뮬레이션 합니다. 복잡한 수학적 계산 없이도 문제에 대해 올바른 답을 얻을 수 있다는 것을 보여주는 겁니다.


코로나19 검사의 정확도, 위양성비율 등에서도 활용되는 베이즈 정리를 통한 조건부 확률, 2022 대선을 앞두고 매일 기사로 만나는 여론조사 결과 등 이처럼 확률을 현실에 본격적으로 응용하는 실용 학문인 통계학의 효용성에 대해 짚어주기도 합니다.


전체집단 통계가 필요한데 실제로는 그중 일부에 대해서만 자료를 얻을 수 있기에 통계학이 필요합니다. 수식으로는 루트가 등장하면서 복잡해지지만 R로 시뮬레이션하니 깔끔하게 정리된다는 걸 시각적으로 확인할 수 있습니다. 수학적 사고방식을 가진 이들에겐 R 코드를 보면 무척 아름다워 보일듯합니다.


기초 확률과 통계부터 수학적 공식 없이 컴퓨터에게 일임 가능한 강력한 통계적 추론 기법인 부트스트랩까지 현대 통계학에서 필요한 개념을 모두 정리한 <3일 만에 끝내는 코딩 통계>. 교과서에서는 분량이 늘어나 다루지 못한 통계적 가설 검정도 수학공식 없이 수행해낼 수 있음을 보여줍니다.


통계학에 좀 더 관심 있는 이들을 위한 공부 가이드까지, R을 이용해 개념부터 응용까지 실생활 통계학의 모습을 보여준 의미 있는 책입니다.




댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo