-
-
그림으로 배우는 데이터 사이언스 ㅣ 그림으로 배우는 시리즈
마스이 토시카츠 지음, 김성훈 옮김 / 영진.com(영진닷컴) / 2024년 6월
평점 :
‘이제 점점 기본 소양이 되어가는 것’
_

은 데이터 리터러시(Data Literacy)라고 자주 말씀드린바 있습니다. 불과 3년전만 해도 데이터와 관련된 업무를 하는 사람은 컴퓨터공학과나 관련 이공계 혹은 통계학 베이스를 가진 사람으로 생각한 경우가 많았지만, 변화는 훨씬 생각보다 빨리 진행되고 있습니다. 코로나 전까지 실무레벨에서의 기본저인 역량이 MS기반의 문서툴을 사용하는 것이었다면 이제는 점점 더 파이썬이나 노코딩 베이스의 툴을 사용할 수 있는 것도 이러한 추세를 반증한다고 봅니다. 역으로 앞으로 점점 더 데이터 리터러시가 부족한 사람은 자기만의 특화된 생존역량이 있어야 할 것이며, 만일 데이터 리터러시에 접근하고 싶다면 관련 서적을 보는 것을 시작으로 ‘프로젝트’에 참여하는게 가장 빠릅니다. <그림으로 배우는 데이터 사이언스>는 전자에 해당합니다.
본서는 전형적인 일본식 매뉴얼 서적입니다. 서적의 제목과 연관된 대주제를 바탕으로 몇가지 소주제를 나열한뒤, 해당 소주제에 저자가 전달하고 싶은 10가지의 내용들을 기재합니다. 이러한 매뉴얼 구조의 장점은 넓고 얇게 해당 분야의 트렌드와 중점적인 내용을 살펴볼 수 있다는 점이며 단점은 그 어떤 내용도 깊이있게 다가갈 수 없다는 점입니다. 이러한 장단점이 뚜렷하기에 정독으로서도 적합하지 않고 발췌독을 하거나 특정 소주제 부분만 탐독하는게 바람직할 수 있습니다. 하지만, 데이터 사이언스 분야의 초심자라면 가급적 정독을 하면서 해당분야에 대표적인 키워드가 무엇인지를 확인하는게 나을 겁니다.

<그림으로,.,>의 총 6가지 소주제 중에 제가 인상깊게 본 내용은 다음의 3가지입니다. 첫째, 데이터 시각화입니다. 이미 대한민국에도 데이터는 무수히 쌓여있습니다. 문제는 이 데이터를 활용하는 비용자체가 어마어마하게 듭니다. 현 시점에도 데이터 분석과 이를 통한 모델링에 필요한 비용의 70% 이상이 데이터 전처리에 들어가는 점은, 현업자라면 공감할 것입니다. 전처리가 되어 데이터 활용을 위한 표준화 이후에는 의사결정과 실행참고를 위한 시각화(Visualization)이 중요합니다. 둘째, 통계학 지지식입니다. 엄청 대단한 통계학 지식이 아니라 기댓값, 확률분포와 표준 정규분포, 회귀분석정도만 알아도 데이터 시각화와 연계하여 데이터 사이언스를 활용하기에는 부족함이 없습니다. 이 장점은 정량적인 문제점을 바로 개선할 수 있어 신뢰성을 획득할 수 있다는 점입니다. 마지막은 개인정보입니다.개인정보와 데이터는 연결되어있지만, 아이러니하게도 개인정보의 노출도가 떨어질수록 데이터로서의 가치는 하락합니다. 이에 따라 식별하기 힘든 데이터지만 다수의 개인정보를 활용했다는 것을 증명하는게 앞으로 더욱 중요해 질것입니다.
데이터리터러시가 앞으로 기본 소양이 될것이라 얘기한 것이 현실이 된 지금, 이제는 너무 많은 곳에서 데이터의 중요성을 언급합니다. 하지만 세상의 기대와 현실은 다릅니다. 데이터가 세상을 엄청나게 바꿀것이라고 입으로 떠드는 사람보다, 실제 많은 데이터를 전처리하고, 모델링하고, 시각화를 만들고, 고객에게 해당 데이터로 무언가를 팔아보고, 실증을 해본 사람만이 진정 데이터 분야의 전문가로 나아갈 수 있습니다. 본서는 그 시작의 첫발에 있는 서적이고, 중요한 몇가지 소주제는 반드시 확인해야할 부분이 있으니 일독을 추천드립니다.

‘통계학의 지식을 늘려가세요’
*출판사를 통해 도서를 지원받아 작성한 리뷰입니다.