데이터를 부탁해 - 세상을 움직이는 데이터의 힘 한빛 리얼타임 Hanbit Realtime 149
전익진 지음 / 한빛미디어 / 2019년 4월
평점 :
장바구니담기


내가 이 책을 읽은지는 실은 꽤나 되었다. 독서노트 기록을 보니 작년 봄과 여름 사이에 읽었으니 말이다. 원래 예전부터 간단하게라도 정리차원에서 리뷰를 써보고자 했는데 본의아니게 미루고 미루다가 오늘에서야 써보게 되었다.

잡설은 이 정도로 하고 이 책에 대해 간략히 소개해보자면 중고등학교에서 배웠던 통계관련 기본 개념에 더해 대학교 관련 전공학부 수준 정도에서 배우는 각종 통계기법들을 비교적 부담없이 접해볼 수 있게 구성된 책이라고 말할 수 있다. 여기서 내가 '부담없이' 라는 말을 덧붙인건 수학적 수식이 가급적 배제되어 있기 때문이다.

본문에 나오는 구체적인 통계관련 개념들은 여기서 내가 별도로 언급하기보다는 저자께서 초심자들도 가급적 이해하기 쉽도록 본문에 잘 써주셨기에 이 분야에 관심있으신 분들은 책을 직접 구해서 읽어보시기를 권하는 바이다. 여기서는 내가 느꼈던 이 책의 장점들을 몇가지 끄적여보는 정도로 리뷰해보고자 한다.

일단 본문에서 저자는 낯설게 느껴지는 통계관련 개념들을 직관적으로 이해할 수 있는 예시나 사례를 통해 독자들의 이해를 돕는다. 내 경우 이 책에서 특별히 좋았던 점은 중고등학교나 대학교 학부에서처럼 어떤 기호나 산식이 곁들여진 개념만을 단순히 소개하고 넘어가는 것이 아니라 통계학의 개념이 나오게 된 배경 스토리에 대해서 보다 상세히 알 수 있었다는 것이었다.

예를 들어 t-검정이라는 것을 개발한 윌리엄 고셋이라는 사람은 원래 통계학자가 아니라 맥주회사의 직원으로 일하던 사람이었는데 맥주 맛을 일정하게 하기위한 효모의 양을 결정하기 위해 통계기법을 활용하다가 t-분포를 개발했다고 한다.

참고로 t-검정이란 두 집단 간 평균에 차이가 있는지를 비교해 검증하는 것으로서 두 집단에서 선택된 표본의 평균이 증명하고자하는 수준에서 몇 번이나 차이가 나는지 확률적으로 확인하기 위한 과정이다. (역시나 개념적인 것은 이쪽에 관심있는 분이 아닌 이상 다소 복잡하게 느껴질 듯하다.)

다시 돌아와서, 또다른 예로 프란시스 골턴은 유전자 관련 연구를 하다가 모든 현상이 평균으로 회귀한다는 회귀분석을 발견했으며, 귀무가설이라는 용어는 영국에서 귀부인들이 차(tea) 맛을 감별할 줄 아는지 여부를 '피셔'가 검증하는 과정에서 나왔다고 전해진다. 또 뒷부분을 읽다보면 푸아송 분포라는 것이 나오는데 이 분포가 나오게 된 계기가 푸아송이라는 사람이 헤어진 옛 연인에게서 30년만에 편지를 받게 된 것이 계기가 되었다는 것을 알고 참으로 놀라움을 금할 수 없었다.

책에 나온 수많은 사례들 중 몇 가지만 끄적여봤지만, 다소 난해해 보일수도 있는 통계 관련 개념들을 이런 식으로 스토리와 함께 접하다보면 조금이나마 통계관련 개념들에 흥미를 가질 수 있겠다는 생각이 들었다.

다음으로 내가 생각하는 이 책의 장점 중 하나는 각 상황에 따라 어떤 통계기법을 사용해서 데이터 분석을 하는 것이 좋을지에 대한 노하우를 저자가 친절하게 설명해준다는 것이었다. 예를 들어, 데이터의 양이 많고 적음에 따라 Z-검정과 t-검정을 각각 사용할 수 있다거나, 분석 대상의 개수가 2개냐 혹은 3개 이상이냐에 가설검증 방법을 t-검정을 사용할지 아니면 분산분석을 사용할지를 선택할 수 있다는 식이다.

뒤이어서 이 책이 데이터 분석관련 책이다보니 이 분야와 관련된 직업 중 하나인 '데이터 과학자' 라는 직업에 대한 간략한 소개와 함께 이 직업에 필요한 역량에는 어떤 것들이 있는지에 대한 얘기도 나오는데, 혹시라도 이쪽 분야에 관심이 있으신 분들이 있다면 한 번 참조해볼만한 가치가 있다고 생각한다.

본문의 후반부에는 비교적 최근에 많이 등장하는 빅데이터 분석을 비롯해 자연어 처리, 텍스트 마이닝, 머신 러닝, 딥 러닝 등에 대한 기본적인 개념들을 간단하게나마 접할 수 있었다. 이 책이 데이터 관련 서적치고는 비교적 초심자들에게 맞춰서 핵심만 쓰다보니 세부적으로 들어가지는 않지만 일단 이 정도의 기본 개념만 알고 있어도 좀 더 심화된 다음 단계로 나아가는 데 도움이 될 듯 하다.

이외에도 이 리뷰에서 일일이 다루지 못한 통계관련 기본적인 개념들이 본문에 많이 나온다.

이 책은 데이터 관련분야에 대해 관심이 있으나 어디서부터 시작해야할지 도무지 감이 잡히지 않는 분들이 읽어보시면 도움이 될만한 책이다. (책의 페이지 수도 216쪽으로 크게 부담이 되는 분량은 아니다.) 데이터 관련업계에 종사하시는 분들이나 통계학 전공자 분들에게는 매우 기초적인 내용일 것이기에 그분들의 경우 이 책보다는 보다 심화된 내용이 담긴 서적을 추천드린다.

댓글(0) 먼댓글(0) 좋아요(18)
좋아요
북마크하기찜하기 thankstoThanksTo