비즈니스 데이터 과학 - 비즈니스 의사결정을 위한 통계학, 경제학, 인공지능의 만남
맷 태디 지음, 이준용 옮김 / 한빛미디어 / 2022년 6월
평점 :
장바구니담기


이달에 접하게 된 책은 <비즈니스 데이터 과학>이다. 한빛 덕분에 다양한 책들을 보게 된다.


우선 시작 부분(14쪽)에서 표기에 대한 안내를 표로 깔끔하게 정리해줘서 책을 읽는데 도움이 되었다.



회귀, 분류, 군집화, PCA, 텍스트 데이터 처리, 트리기반 알고리즘 그리고 마지막으로 인공지능에 대한 기본적인 설명까지 코드와 수식, 이미지를 적절히 넣어서 잘 보여주고 있다. 물론 R을 사용해서 파이썬 기반인 나에게 당혹감을 선물한 것은 덤....이지만, "이 책은 R 사용법을 배우기 위한 책이 아니다....이 책은 데이터 과학을 수행하는 방법에 관한 책이다" 라는 말에 힘을 얻고 읽어 보았다.


1장의 불확실성, 5장의 실험, 6장의 제어라는 제목이 좀 특이하게 느껴져서 그 부분을 먼저 살펴보았다. (나머지 제목들은 너무나 익숙한 제목들이다)


아, 통계에 대한 기본 지식이 없으면 1장부터 읽기가 버겁다^^(그래서 2.4부터 읽고 다시 돌아오기를 권하기도 한다) 먼저 빈도주의 관점에서 불확실성에 중점을 두고 부트스트랩을 이용한 리샘플링, 가설 검정, 거짓 발견 비율(FDR, false discovery rate) 의 조절에 대해 설명해주고, 다음으로는 빈도주의에 비해서는 비즈니스 데이터 과학에서 더 큰 역할을 하고 있으며, 반복적인 시행 보다는 주관적인 믿음을 바탕으로 한 베이지안 추론에 대해서 설명한다.


앞장에서 설명한 회귀, 분류의 경우 과거 데이터에서 패턴을 발견해 내고 있고, 이런 패턴은 미래가 대부분 과거와 비슷하다는 가정 하에서 미래를 예측하는 데 유용하게 사용된다. 그런데 비즈니스나 경제 시스템에서는 현재의 행동이 미래를 바꾸기 때문에 과거와는 다른 미래를 예측할 수 있어야 한다며 [5장 실험]을 시작한다. 반사실적인 예측, 즉 '만일 ~라면'이라는 질문에 대해 대답하길 원한다. 가격을 P0 대신 P1로 변경하면 매출이 어떻게 달라질까에 대해 답하는 문제이다. 이 방법으로 무작위 대조 시험에 대해 설명한다. 다음으로는 두 가지 유사한 상황에 대한 시나리오를 만들어 실험을 한다. "비록 다른 장소지만 두 장소의 처리 전 차이를 모델링 할 수 있드면 처리 후 변화에 대한 인과적 해석을 할 수 있지 않을까?" 하는 가정에서 만든 시나리오(이중차분 분석), 사회보장제도 혜택을 아쉽게 놓치는 사람(처리군)과 간신히 자격이 되어서 혜택을 보는 사람(대조군)의 두 그룹을 만들어 비교하는 시나리오(회귀불연속성 추정)이다. 그리고 마지막으로 '도구 변수'의 개념으로 설명한다.


[6장 제어] 안타깝게도 현실에서는 '실험' 없이 과거 데이터를 기반으로 향후 활동에 대해 결정을 내려야만 한다. 그래서 처리를 설정하는 실험을 하는 대신 과거에 무슨 일이 있었는지를 '관찰'한다. 이 장에서는 어느 정도 믿을 수 있다고 알려진 방법과 원칙, 머신러닝 도구 등을 사용해서 분석하는 방법을 다루고 있다. 조건부 무시가능성과 선형처리 효과, 고차원 교란 조정, 표본 분할과 직교 머신러닝, 이종 처리 효과, 합성 제어 등에 꽤 많은 분량을 할애한다. 이 부분은 사실 좀 더 시간을 두고 다시 읽어봐야 할 것 같다.


마지막으로 한 가지 웃음 포인트는 '인수분해'라고 하는 아련한 단어였다. 얼마만에 들어보는 단어인지^^ 중고등학교 수학 시간에 거의 기계적으로 인수분해를 했었는데, 7장을 시작하며 써있었던 "이 장에서는 각 x에 대한 기댓값을 적은 수의 인수의 합으로 나누는 다양한 인수분해 방법을 살펴본다"는 문구를 읽는 순간 머릿속에 어떤 그림이 그려지면서 머리가 단순해지는 신기한 기분을 느꼈다.

통계에 대한 지식이 없거나 통계용어에 익숙하지 않은 사람들은 [10장 인공지능]을 먼저 읽고 앞부분을 봐도 좋을 것 같다.




댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo