데이터 과학자의 가설 사고 - 종이와 연필로 익히는 데이터 분석
고추 다이스케 외 지음, 김지윤 옮김 / 비제이퍼블릭 / 2024년 2월
평점 :
장바구니담기


AI를 공부하며 제가 느꼈던 점은 ‘데이터도 모델만큼 중요하다’였습니다. 데이터를 얼마나 잘 분석하고 정제하는지에 따라 성능이 크게 달라졌기 때문이죠. Open Ko LLM 보드에서 상위권 모델들의 백본 모델을 만든 업스테이지의 기술 블로그 글에서 ‘AI 서비스를 출시 할 때 데이터가 모델만큼 중요하고, 데이터가 모델보다 중요하다’라고 언급했던 것을 보면 오히려 데이터가 더 중요해보이기도 합니다. 하지만, 시중에 있는 대부분의 강의는 데이터보다 모델 또는 AI 기법에 집중하고 있어 갈증을 느끼고 있었던 찰나에 ‘데이터 과학자의 가설사고’라는 도서의 서평단을 모집한다는 글을 보게되었고, 운이 좋게 기회가 되어 서평단 자격으로 글을 읽을 수 있는 기회를 얻게 되었습니다.


📚 책의 구성

책은 크게 6개의 챕터로 구성되어 있습니다. 1장에서 6장은 순서대로 데이터 리터러시가 필요한 이유, 데이터를 읽는 힘, 데이터를 해석하는 힘, 데이터를 분류하는 힘, 데이터에서 법칙을 발견하는 힘, 데이터를 보고 예측하는 힘에 대해서 다룹니다. 각 챕터는 이론적인 설명에 치중하지 않고, 쉬운 예시를 통해 기초적인 통계 개념(대푯 값, 이상치, 상관관계)과 머신러닝 분석 기법(의사 결정 나무, K-means)을 직관적인 이해를 도와줍니다. 그리고 각 장의 마지막 부분에서는 별로 내용을 요약하여 핵심 내용을 놓치지 않도록 정리해줍니다.


✍🏻 인상적인 부분

1. Data Driven 사고력을 기를 수 있는 방법


이 책에서 얻을 수 있는 가장 큰 장점인 것 같습니다. 모델링을 하거나 데이터 분석을 할 때 적용할 때 우선시 되어야 하는 것은 ‘데이터’이어야 합니다. 하지만, 데이터에 대한 깊은 통찰 없이 데이터 분석 기법을 적용하는 것을 많이 보았습니다. 이 책에서는 데이터에 접근할 때 고려해야하는 부분은 무엇인지, 어떤 순서로 데이터 분석 기법을 적용해야하는지 제공합니다. 그런 관점에서 Data Driven 사고력을 기를 수 있는 실질적인 적용 방법을 제시해준다고 생각합니다.

 

2. 퀴즈를 통한 이야기 전개


이 책은 개념을 설명하기 전에 주제와 관련된 퀴즈를 예시로 던집니다. 따라서 퀴즈를 풀어보며 본인의 데이터 리터러시를 점검하는 동시에 개념에 대해 먼저 생각할 기회를 줍니다. 그리고 이후에 해설과 함께 핵심 내용을 설명하는데 직관적으로 개념이 잘 와닿았습니다. 수식적이거나 이론적인 깊은 내용이 없어서 처음 접하는 분들에게 많이 유용할 것이라고 생각해습니다.


3. 일본에서 생각하는 데이터 과학


대부분 제가 공부하며 접할 수 있었던 자료는 영어 또는 한국어 자료였습니다. 비록 번역된 자료지만, 일본에서 어떻게 AI 사회에 대비하고 있는지 확인할 수 있었고, 어떤 역량을 기초 역량을 생각하고 있는지 파악할 수 있어 신선했습니다.


이 책에 대해 총평을 하자면 머신러닝 및 데이터 분석에 필요한 툴이나 이론적인 설명을 제공하지 않습니다. 하지만, 그 보다 더 중요한 Data-centric하게 사고할 수 있는 기본적인 방향성를 제시한다는 점에서 충분히 읽을만한 가치가 있다고 생각합니다. 아직, AI 공부를 시작하는 초심자나, 데이터 분석이나 머신러닝에 대해 이론적인 공부는 했으나 어떻게 적용해야할지 어려움을 겪으신 분들에게 이 책을 추천합니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo