[알라딘서재]EDA는 데이터분석의 8할

글보기ｌ서재브리핑ｌ서재관리ｌ북플

- 서제훈

EDA는 데이터분석의 8할ｌ리뷰/페이퍼

서제훈 () l 2021-05-15 14:05

https://blog.aladin.co.kr/710972283/12618431

데이터 과학을 위한 통계 : 데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념 - 2판 피터 브루스.앤드루 브루스.피터 게데크 지음, 이준용 옮김 / 한빛미디어 / 2021년 5월 평점 :

- 데이터 분석에 관심이 생겨 T아카데미, 오픈랩 등 대외활동을 통해 데이터 분석 대회에 몇가지 참가하게 되었는데, 항상 대회 초입에 들어갔을 때 가장 큰 문제가 분석 시작을 어떻게 해야하는가?에 대한 문제였다.

- 그 원인으로는 첫번째로는 도메인 지식의 부족(금융데이터를 분석하는데 이평선을 모른다면?)이 있을 것이다. 이 부분에 대해서는 보통 모르는 용어를 찾아보는 정도로 진입장벽을 넘어서는 것은 가능할 것이라고 본다. 그 이상의 심도 있느 분석에는 그만큼의 지식이 더 필요하겠지만...

- 두번째로는 데이터를 어떻게 다루어야 할 지를 모른다는 것이다. 데이터 분석이라는 분야에서는 이 문제가 가장 크게 작용할 것이라고 생각한다. 단순히 Pandas, Numpy를 쓸 줄 모른다는 문제가 아니다. 빈 데이터를 어떻게 처리해야 할지, 데이터 분포의 추세나 반복이 어떠한 의미를 갖게 될지 등을 해석하는 문제라고 할 수 있겠다.

- 특히나 이 부분에서 통계적 지식은 데이터를 다루는 데 빛을 발하게 해주는 요소라고 할 수 있겠다. 데이터 시각화를 통해 missing value나 데이터 추세만 보던 분석법에 멈추지 않고, 상관계수나 데이터 분포, 편차 등을 분석할 수 있다면 모델 정확도에도 긍정적 영향을 주지만, 일정한 추세를 알아내는 데 도움을 주어 머신러닝의 중요점 중 하나인 일반화된 모델을 구성하는데에도 많은 도움이 될 것이라고 생각한다. 각 통계분석 기법들을 도표 위에 표현하는 연습을 해본다면 시각화 연습은 덤으로 챙겨갈 수 있지 않을까?