엑셀로 시작하는 데이터과학 실무
하야마 히로시 지음, 최서희 옮김 / 영진.com(영진닷컴) / 2021년 1월
평점 :
장바구니담기


 

 

 

스킬업을 위해 이번에 고른 책은 영진닷컴에서 출판한 <엑셀로 시작하는 데이터과학 실무>!

우선 작업을 하다보면 가장 많이 사용하는 오피스 프로그램이 단연코 엑셀이고, 엑셀만 잘해도 업무에 80% 이상은 먹고들어간다고 생각한다.

(엑셀 잘하는 사람은 이해력도 높고 업무 우선순위나 스킬도 좋다!)

그래서 배워보고자 <엑셀로 시작하는 데이터과학 실무>를 시작했다.

책 제목부터 알 수 있듯이 '엑셀'이 포인트이다.

데이터 관련 일을 하다보니 엑셀은 당연하고 R 이나 파이썬같은 빅데이터 프로그램도 잘 다루면 더더욱 좋다. 하지만 아직 엑셀로도 배울 것이 많고 엑셀만 잘해도 활용할 수 있는 길이 무궁무진하니, 이 책은 걱정할 것 없이 파이썬이나 R 같은 컴퓨터 언어를 몰라도 누구나 충분히 할 수 있는 오직 엑셀만으로 배울 수 있는 고마운 책이다.

사실 책 제목과 목차를 보고 이것은 중급 이상의 스킬이겠구나 하는 느낌이 딱 왔다.

하지만 책을 읽다뵈 알게 되었는데 물론 엑셀 완전 왕초보 급은 아니지만 초급에서부터 중급~고급까지 따라할 수 있게끔 차근차근 단계별로 친절하게 설명해준다. 가벼운 그래프와 표부터 시작해서 그동안 나는 써먹어보지 않았던 히스토그램이나 분선, 회귀분석까지 멋지게 다룬다!

달러, 달러 표시로 셀참조 바꾸는 기본적인 것도 알려주니까 초급자분들도 쉽게 따라할 수 있을 것 같다.

통계를 공부해야지 하면서 어느덧 시간이 흘렀다.

통계는 옛날에 고등학교 때 배우고 다시 대학교때 경제경영수학때 잠깐 다루다가 이제는 피벗정도만 사용하고 있으니 통계를 배워야겠다는 마음보다 시간이 더 빠르게 흘러버렸네.

통계만 잘해도 논리력과 설득력, 그리고 분석력에 도식화까지 모두 가능하다.

실습파일을 영진닷컴 홈페이지를 통해 다운받아서 진짜 내껄로 만들어야지.

<엑셀로 시작하는 데이터과학 실무> 책의 컨셉도 참 재밌다.

이곳은 '영진제과' 회사. 그 중에도 차바울 주입(입사 3년차)에게 미션이 주어진다. 바로 매년 열리는 사네 논문 콘테스트!

대상자인 차바울 주임에게 데이터 분석의 전문가 최윤정 대리(경영기획실 팀장)이 사수로 붙어서 전격 알려준다. 와, 나도 이런 사수가 있으면 얼마나 좋을까 싶다.

자, 이정도 소개와 함께 차바울 주임은 과연 어떻게 영진제과 데이터를 분석하고 인사이트를 도출할 수 있을지 챕터별로 따라가본다.


 

 

 

 

-전체 이미지를 시작화하여 특징을 잡자 -히스토그램 작성

도수분포표를 그래프화한 것이 히스토그램입니다. 히스토그램은 막대그래프와 비슷하지만, 일반적으로 막대와 막대 사이에 공간을 넣지 않으며 세로축은 도수, 가로축은 계급을 나타냅니다.

-분포의 흩어진 정도를 수치로 나타내 보자

*표본 표준편차 - 샘플로 모집단의 흩어진 정도를 추정한 값

* 표준편차 - 샘플 그 자체가 모집단일 때의 모집단의 흩어진 정도의 값

일반적으로 표준편차는 분산의 제곱근입니다(표준편차를 2제곱 하면 분산이 됩니다). 현재로서는 모두 흩어진 정도를 나타낸 값이라고 이해하면 됩니다.

-트렌드와 계절 변동을 발견해 매출 예측에 도움을 얻자

시간적인 변화를 볼 때는 꺽은선 그래프가 적절합니다. 꺾은선 그래프는 기본 중의 기본!

시계열 분석으로 미래의 값을 예측하려면

ㄴ통계 레시피

일정한 기간마다 반복되는 기복을 발견해봅시다.

방법: 시계열 분석을 시행하고 계절 변동 주기를 구한다

이용하는 함수: FORECAST.ETS.SEASONALITY 함수

-상품 평가에 차이가 있는지를 검정하자

샘플을 바탕으로 모집단 2개의 평균값에 차이가 있는지를 조사하려면, t검정이라는 계산을 합니다. 이용하느 함수의 이름도 역시 T.TEST입니다. 하지만 대응하는 데이터인지, 모집단의 분산이 같은지에 따라 인수 지정 방법도, 결과도 다릅니다. 이제부터 시행할 분석이 어떤 경우인지를 제대로 이해한 후에 함수를 사용할 필요가 있습니다.

ㄴ통계 레시피

두 집단의 평균값에 차이가 있는지를 검정해봅시다 (대응하는 데이터의 경우)

방법: t검정을 한다.

이용하는 함수: T.TEST 함수([검정의 종류]에 1을 지정)

전제: 모집단이 정규분포를 따르고 있다.

귀무가설: 두 모집단의 평균값은 같다.

솔직히 엑셀도 진짜 잘만 쓰면 엄청난 프로그램인데 맨날 쓰는 함수만, 쓰는 단축키만 사용하게 되는 게 많이 아쉬웠다.

필요할 때마다 함수도 구글링하면서 검색하고, 엑셀 팁은 네이버 블로그에서 배우고는 했는데 나처럼 데이터나 통계를 다루면서 실제 실무에서 어떻게 써먹으면 좋을지 찾아보는 사람들에게는 <엑셀로 시작하는 데이터과학 실무>가 많은 도움이 될 것 같다.

추이 분석도 막대그래프와 꺾은선 그래프 혼합형 정도로만 사용했는데 이 책에서는 시계열 분석으로 시즈널 이슈도 잡아낼 수 있다니 당장 써먹고 싶어졌다. 그리고 매출액도 보통 막대그래프로만 나타낼 터인데 히스토그램으로 도수와 계급표로 나눠볼 수 있다니 정말 유용하다.

과연 차바울 주임은 사내 콘테스트를 무사히 마치고 루키가 될 수 있을 것인가?

<엑셀로 시작하는 데이터과학 실무> 마지막에는 친절한 용어집도 실려있으니 실습을 하면서 그때그때 앞뒤로 찾아봐도 좋을 것 같다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo