데이터 과학자의 가설 사고 - 종이와 연필로 익히는 데이터 분석
고추 다이스케 외 지음, 김지윤 옮김 / 비제이퍼블릭 / 2024년 2월
평점 :
장바구니담기


AI를 공부하며 제가 느꼈던 점은 ‘데이터도 모델만큼 중요하다’였습니다. 데이터를 얼마나 잘 분석하고 정제하는지에 따라 성능이 크게 달라졌기 때문이죠. Open Ko LLM 보드에서 상위권 모델들의 백본 모델을 만든 업스테이지의 기술 블로그 글에서 ‘AI 서비스를 출시 할 때 데이터가 모델만큼 중요하고, 데이터가 모델보다 중요하다’라고 언급했던 것을 보면 오히려 데이터가 더 중요해보이기도 합니다. 하지만, 시중에 있는 대부분의 강의는 데이터보다 모델 또는 AI 기법에 집중하고 있어 갈증을 느끼고 있었던 찰나에 ‘데이터 과학자의 가설사고’라는 도서의 서평단을 모집한다는 글을 보게되었고, 운이 좋게 기회가 되어 서평단 자격으로 글을 읽을 수 있는 기회를 얻게 되었습니다.


📚 책의 구성

책은 크게 6개의 챕터로 구성되어 있습니다. 1장에서 6장은 순서대로 데이터 리터러시가 필요한 이유, 데이터를 읽는 힘, 데이터를 해석하는 힘, 데이터를 분류하는 힘, 데이터에서 법칙을 발견하는 힘, 데이터를 보고 예측하는 힘에 대해서 다룹니다. 각 챕터는 이론적인 설명에 치중하지 않고, 쉬운 예시를 통해 기초적인 통계 개념(대푯 값, 이상치, 상관관계)과 머신러닝 분석 기법(의사 결정 나무, K-means)을 직관적인 이해를 도와줍니다. 그리고 각 장의 마지막 부분에서는 별로 내용을 요약하여 핵심 내용을 놓치지 않도록 정리해줍니다.


✍🏻 인상적인 부분

1. Data Driven 사고력을 기를 수 있는 방법


이 책에서 얻을 수 있는 가장 큰 장점인 것 같습니다. 모델링을 하거나 데이터 분석을 할 때 적용할 때 우선시 되어야 하는 것은 ‘데이터’이어야 합니다. 하지만, 데이터에 대한 깊은 통찰 없이 데이터 분석 기법을 적용하는 것을 많이 보았습니다. 이 책에서는 데이터에 접근할 때 고려해야하는 부분은 무엇인지, 어떤 순서로 데이터 분석 기법을 적용해야하는지 제공합니다. 그런 관점에서 Data Driven 사고력을 기를 수 있는 실질적인 적용 방법을 제시해준다고 생각합니다.

 

2. 퀴즈를 통한 이야기 전개


이 책은 개념을 설명하기 전에 주제와 관련된 퀴즈를 예시로 던집니다. 따라서 퀴즈를 풀어보며 본인의 데이터 리터러시를 점검하는 동시에 개념에 대해 먼저 생각할 기회를 줍니다. 그리고 이후에 해설과 함께 핵심 내용을 설명하는데 직관적으로 개념이 잘 와닿았습니다. 수식적이거나 이론적인 깊은 내용이 없어서 처음 접하는 분들에게 많이 유용할 것이라고 생각해습니다.


3. 일본에서 생각하는 데이터 과학


대부분 제가 공부하며 접할 수 있었던 자료는 영어 또는 한국어 자료였습니다. 비록 번역된 자료지만, 일본에서 어떻게 AI 사회에 대비하고 있는지 확인할 수 있었고, 어떤 역량을 기초 역량을 생각하고 있는지 파악할 수 있어 신선했습니다.


이 책에 대해 총평을 하자면 머신러닝 및 데이터 분석에 필요한 툴이나 이론적인 설명을 제공하지 않습니다. 하지만, 그 보다 더 중요한 Data-centric하게 사고할 수 있는 기본적인 방향성를 제시한다는 점에서 충분히 읽을만한 가치가 있다고 생각합니다. 아직, AI 공부를 시작하는 초심자나, 데이터 분석이나 머신러닝에 대해 이론적인 공부는 했으나 어떻게 적용해야할지 어려움을 겪으신 분들에게 이 책을 추천합니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
캐글 메달리스트가 알려주는 캐글 노하우 - 정형, 이미지, 자연어텍스트 데이터로 알아보는 Kaggle 대회 공략 팁
김태진 외 지음 / 길벗 / 2023년 7월
평점 :
장바구니담기


[서평]캐글 메달리스트가 알려주는 캐글 노하우

AI에 입문하고 AI 부트캠프 과정에서 리더보드를 활용한 프로젝트를 진행하며 자연스럽게 Dacon 및 Kaggle과 같은 AI 대회형 플랫폼에 관심을 갖게 되었습니다. 캠프가 마무리될 무렵 길벗 출판사에서 "캐글 메달리스트가 알려주는 캐글 노하우"라는 책을 출판했다는 소식을 접했습니다. 제가 참여했던 부트캠프에서 강사님으로 강의를 해주셨던 안수빈님과, 머신러닝/딥러닝 커뮤니티에서 활발하게 활동하시는 많은 뛰어난 실력자분들이 함께 책을 집필하였기에 그들의 노하우를 배우고 싶은 마음에 해당 책을 구매해서 읽어야겠다고 마음을 먹었습니다. 그러던 중 "21차 개발자 리뷰어"를 모집한다는 공고를 보고 해당 도서를 선택하여 신청서를 제출하였는데, 운이 좋게 리뷰어로 선발되어 도서를 지원받아 서평을 작성할 기회를 얻게 되었습니다. 책을 읽어보니 다른 도서를 선택했다면 후회가 될 정도로 알차고 풍부한 내용으로 가득했습니다. 솔루션에 대한 구체적인 내용을 설명하기 전에 Kaggle이라는 플랫폼에 대해서 어떤 대회가 열리고 어떤 기능이 있는지 등 매우 상세하게 설명하여 어떻게 하면 효과적으로 유용하게 플랫폼을 본인의 성장에 활용할 수 있게 알려주었습니다. 솔루션은 단순히 솔루션만을 주입식으로 설명하는 것이 아니라, 연역적으로 사고하여 독자가 작가가 같은 결론에 이를 수 있도록 충분한 설명과 자료를 제공합니다. 또한 한가지 데이터가 아니라 다양한 형태의 데이터의 솔루션을 제공하고 작가분들의 본인의 솔루션뿐만 아니라 여러 가지 솔루션을 제시하였는데, 이를 통해 다양한 관점을 통해 생각해보고 고민해보며 많은 인사이트를 얻을 수 있었습니다. 

📚 책의 구성

책은 크게 8개의 챕터로 구성되어 있습니다. 1장에서 Kaggle이라는 대회형 플랫폼이 무엇인지 어떤 기능이 있는지 알려주고 2장~7장에서는 순서대로 Instant Gratification, IEEE-CIS Fraud Detection, Quick, Draw! Doodle Recognition, Bengali.AI Handwritten Grapheme Classification, SIIM-ACR Pneumothorax Segementation, Jigsaw Unintended Bias in Toxicity Classification 총 6가지 Competition의 Overview(대회 목적, 평가지표, 데이터, EDA)와 대회 솔루션을 소개해주었습니다. 8장에서는 Kaggle Notebook의 작성법에 대한 가이드라인을 제시하며 책의 마지막 장을 꾸몄습니다. 모든 내용은 간결한 문장을 사용하면서 일목요연하고 세세하게 설명을 해주어 이해하기 편했습니다. 그리고 모든 솔루션들에는 코드와 코드를 따라갈 수 있을 정도의 설명이 제공되어 있어 따라가기 어렵지 않았고 Kaggle Notebook의 링크나 Github 링크가 제공되어 있어서 필사하며 공부하기 수월하게 구성되어 있었습다. 

✍🏻 인상적인 부분

1. 책의 전체 가이드라인이 되는 서문


1장에 들어가기 전에 작가가 책이 어떤 식으로 구성되어 있는지, 또한 어떤 목적을 가지고 집필했는지 적어두었습니다. 책이 380쪽으로 긴 편인데 해당 가이드라인을 통해 미리 어떤 부분에서 어떤 내용이 제공되고, 어떤 의도를 가지고 집필했는지 알 수 있었고 그 부분을 고려하여 생각하며 읽을 수 있어서 많은 도움이 되었습니다. 그리고 "이 책의 활용법"을 통해서 GitHub/Kaggle Notebook으로 어떤 솔루션들을 직접 코드를 필사하며 공부할 수 있는지 알려주어 책을 읽으며 코드를 짤 때 많은 도움이 되었습니다. 


2. 다양한 데이터에 대한 솔루션과 ML/DL 기법들


이 책에서는 정형, 이미지, 자연어 텍스트 데이터를 모두 다루고 있습니다. 그리고 단순히 하나의 솔루션만 재공하지 않고, 본인의 팀이나 본인이 소개하는 솔루션 외에도 추가로 다른 솔루션을 제공해주어 많은 ML/DL 기법을 살펴 볼 수 있었습니다. 물론 하나하나 기법을 깊게 이해할 정도로 설명이 되어 있지는 않지만, 어떤 경우에 활용해야 하고 어떤 근거로 해당 기법을 사용하였는지는 알 수 있을 정도의 설명은 제공하고 있기 때문에 전체적인 흐름에서 이해하기 어렵지는 않았습니다. 오히려 깊게 이해하고 싶은 기법들은 책을 가이드라인 삼아 인터넷으로 찾아보면서 공부할 수 있어서 학습하는 재미를 느끼면서 책을 읽을 수 있었습니다. 


3. 독자와 작가가 호흡하는 방식의 책


앞서 언급드렸던 것처럼 주입식으로 설명하는 것이 아니라, 연역적으로 사고하여 독자가 작가가 같은 결론에 이를 수 있도록 충분한 설명과 자료를 제공해주었습니다. 그리고 친절하게 어떤 부분을 고려하며 실험을 진행했는지 솔루션을 짰는지, 어떤 목적을 가지고 이런 실험을 진행했는지 어떤 부분을 더 생각해볼 수 있는지 안내를 해주며 함께 솔루션을 찾아가는 듯한 느낌이 들었습니다. 덕분에 하나의 솔루션을 읽었을 때 작가와 호흡하며 지식을 배웠을 뿐만아니라 대회에 임하는 태도, 분석하고 접근하는 방식도 배울 수 있었습니다. 


21차 개발자 리뷰어 활동을 하며 좋은 퀄리티의 책을 읽게 되었습니다. 책을 통해 얻은 지식과 통찰력은 앞으로의 데이터 경진대회나 프로젝트에서 큰 도움이 될 것이라 믿습니다. 더불어, 커뮤니티 내에서 활동하시는 다른 집필진 분들의 경험과 노하우를 접할수 있었던 유익한 시간이었습니다. 이 책은 저에게 캐글과 같은 대회 플랫폼에서의 성장을 위한 소중한 지침서가 될 것 같습니다. AI 대회를 준비하는 사람 더 나아가 진정한 데이터 분석가들을 꿈꾸는 분들에게는 이 책이 큰 도움이 될 것이라고 생각합니다. 충분히 소장가치가 있는 책입니다. 


*길벗 출판사에서 책을 제공받아 작성된 리뷰임을 밝힙니다!(길벗 21차 개발자 리뷰어)


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo