-
-
데이터 과학 - 더 나은 의사결정을 위한 통찰의 도구 ㅣ DEEP & BASIC 시리즈 2
존 켈러허.브렌던 티어니 지음, 권오성 옮김 / 김영사 / 2019년 10월
평점 :

이제 데이터가 제일 중요한 사회가 열렸다.
예전만 하더라도, 숙련자, 경험이 많은 이의 감, 촉이라고 불리우는 설명할 수 없는 요소에 의지하는 경우도 있었지만 이제는 데이터가 모든 것을 결정하는 전제 조건이 되고, 데이터 위주로 의사결정을 하며, 데이터를 통해 의사 결정이 맞았는지를 확인한다.
말그대로 Data-Driven 시대가 열린 것이다.
데이터가 말하게 하고, 데이터로만 말해야 하는 세상이다.
그럼 데이터를 모아서 그걸 기반으로 이야기 하기만 하면 되는가?
똑같은 의사 결정에 필요한 데이터라고 해도 데이터를 어떻게 수집했는지, 어떤 데이터를 사용하는지에 따라 너무나 다른 데이터들이 수집될 수 있다. 또한 데이터의 양이 많지 않을 수 있다.
그리고 데이터가 그냥 무조건 많다고 좋은 결정을 내릴 수 있는 것도 아니고, 데이터의 검증과 어떻게 판단을 내려야 하는지에 대한 방법, 데이터 분석법도 중요하다.
그렇기에 데이터 과학이 필요하고, 이 업무를 수행할 데이터 과학자가 필요하다.
데이터 과학은 현대 사회의 거의 모든 부분에서 의사결정을 이끄는 동력이 되고 있다.
하지만 데이터 과학이 많은 이점을 가져다 줄 수 있는 것도 사실이지만, 데이터 과학에 대한 오해와 과장도 역시 많다. 따라서 데이터 과학을 제대로 이해하고, 한계를 잘 알아야 정확히 알아야 한다.
가장 큰 오해는 데이터만 있으면 자동으로 모든 문제의 답이 나온다는 것이다. 아직까지는 데이터 과학에서 노련한 인간 전문가가 필요하고, 전문가가 문제를 규정, 데이터의 설계, 준비, 알고리즘 선택, 분석, 결과, 결과 해석, 실행등에 이르는 과정을 진행해야 한다. 아직까지 노련한 인간 전문가가 꼭 필요하다.
두번째 오해는 모든 경우에 빅데이터가 필요하고 인공지능, 딥러닝 기술을 써야만 한다는 것이다.
일반적으로 더 많은 데이터가 있으면 좋은 게 사실이지만, 그것보다는 정확한 데이터를 가지고 있는 것이 중요하고, 작은 데이터와 컴퓨터 연산력으로도 데이터 과학의 혜택을 볼 수 있다.
앞에서 이야기 했듯이 데이터 과학에는 노련한 인간 전문가, 데이터 과학자가 필수이다.
데이터 과학자는 현실 세계의 문제를 표준적인 데이터 과학 업무의 틀에 잘 맞추어 넣는 것인데, 대부분의 데이터 과학 프로젝트는 네가지 가운데 하나에 속한다.
- 수 많은 사람들 중 해당되는 고객을 찾기 위해 비슷한 고객들을 그룹으로 묶어주는 군집화 (또는 세분화)
- 수 많은 거래, 데이터 중 이상한 데이터를 찾아 사기 혹은 오류인지를 확인하는 이상(또는 아웃라이어) 탐지
- 하나의 결과와 연관된 결과를 찾아 내는 연관 추천을 위한 연관 규칙 마이닝
- 고객이 될지 안될지, 구매를 할지 안할지 예측하거나, 비용, 숫자등을 예상하는 예측 (분류의 하위문제와 회귀까지 포함)
책은 이처럼 데이터와 데이터 과학에 대한 기본적인 이해와 개념, 오해, 역사와 같은 기본적인 것 부터 현장에서 어떻게 사용되는지, 데이터를 이용한 방법 중 요새 가장 인기있는 인공지능, 기계학습에 대해서도 언급을 하고 있다.
데이터 과학이 어떻게 사용되는지, 데이터 과학자는 무슨일을 하는지에 대해 궁금함이 있었다면 이 책이 해답을 줄 수 있을 것이다. 다만 미국인 저자라 우리나라와는 조금 다른 상황이 있기에, 그 부분은 감안하고 읽으면 원론적인 부분에서는 크게 중요하지 않을 것이다.