엑셀로 시작하는 데이터과학 실무
하야마 히로시 지음, 최서희 옮김 / 영진.com(영진닷컴) / 2021년 1월
평점 :
장바구니담기


나름 엑셀을 오랫동안 사용해 와서 대부분의 기능을 알고 있다는 착각을 했었다. 내가 사용하지는 않지만 언제든 찾아서 쓸수 있다고 생각했었는데, 이 책을 읽으면서 내 생각이 어리석었음을 다시금 깨닫게 되었다.

엑셀로 데이터 분석이 가능하다고? 의아했다. 엑셀은 분석도구가 아니라고 생각했으니까.


분석을 위해서는 전문적인 분석프로그램이 필요한게 당연한 것이라고 여겼다. 


그런데, '엑셀로 시작하는 데이터과학실무'는 우리에게 익숙한 엑셀을 활용하여 '데이터분석'을 할 수 있다는 것을 알려준 특별한 책이었다. 


'데이터를 분석하시 위해서는 데이터 형식의 차이를 명확하게 이해하여 데이터가 어떤 것인지를 알아둘 필요가 있습니다. 분석 목적이나 관점이 명확해지면 수집하는 데이터의 형식도 거의 결정됩니다. Excel등의 소프트웨어를 사용해 분석을 시행하려면 분석에 적합한 형식의 데이터를 입력하는 것이 작업의 출발점입니다. p.22


수많은 엑셀 자료들을 입력하고 관리해왔지만 내가 입력한 데이터를 분석하기위해서는 항상 전문 프로그램을 사용해야 한다고 생각했다. 그런데 사실 프로그램을 하나 배운다는게 쉽지 않아서 포기해왔다.


시각화- 도수분포표, 히스토그램


데이터로 히스토그램을 만들는 작업을 해본적은 있지만 도수분포표는 만들어볼 생각을 못했다. 왜? 


조금만 응용하면 엑셀이 참 할수 있는게 많은데 생각지 못했던 이유는 무엇일까 ? 


도수분포표를 그래프화하면 히스토그램이다. 즉 더 보기좋고 눈에 쏙 들어오는 히스토그램. 계급설정으로 변경하니 더 선명하게 보인다. 그동안 불규칙하게 보이던 단계가 더욱 선명해지고 시각화가 잘 되어 보기도 좋다.


상관관계, 회귀분석, 중회귀분석, 시계열 분석


평균값에 진짜 차이가 있는지, 흩어진 상태에 정말 차이가 잇는지를 근거를 가지고 판단하는 방법의 하나가 검정입니다. 감각에 의존하지 않는 판단을 할 수 잇으므로 설득력도 높아집니다. p.185


파이썬이나 R과 같은것은 컴퓨터 언어를 몰라도 내가 갖고 있는 엑셀 데이터를 활용하여 분석이 가능했다! 


 논문을 쓸때 많이 듣던 용어들인데, 엑셀에서 듣게 되다니 참 어색하다. 엑셀에 이런 기능이 있었던가? 하는 생각으로 책을 펼쳤다. 너무 너무 신기할 정도로 이 모든게 간단한 함수로 가능했다. (난 그동안 뭔짓을 한거지?)


​총 8개의 장으로 구성되어 있는 본 책은 '데이터의 중요성'과 '시각화'를 필두로 하여 우리가 갖고 있는 데이터를 활용하여 다양한 분석이 가능함을 보여주었다. 특히 우리의 실제생활에서 필요한 '면적과 집세의 관계'라든지 '인기와 실력의 관계', '역까지 도보시간과 건축년수, 면적을 통한 집세 예측'등은 궁금증을 유발하기에 충분하다. 이런 궁금증을 토대로 '부동산의 넓이와 집세의 상관관계'를 검정해보도록 함으로써 데이터분석이 데이터 과학임을 입증해 주고 있다. 


책의 뒷부분에는 통계언어들을 소개하고 있어서 모르는 용어나 어려운 통계용어들을 찾아볼 수 있다. 설명을 보고도 무슨 뜻인지 잘 이해가 되지 않는다면 검색찬스!! ^^


영진닷컴 홈페이지에서 예제자료들도 다운받을 수 있다고 하니  포기하지 말고 하나씩 실습해보도록 하자.


(예제파일로 따라해 보니 어려운 함수가 들어가는 것이 아니라 생각보다 어렵지 않다.)


이책은 흔히 접할 수 있고 쉽게 입력가능한 엑셀데이터를 활용하고 있다는 점에서 직장인들 뿐아니라 논문을 작성하는 학생들, 개인사업자들에게도  많은 도움이 될거같다. 

‘데이터를 분석하시 위해서는 데이터 형식의 차이를 명확하게 이해하여 데이터가 어떤 것인지를 알아둘 필요가 있습니다. 분석 목적이나 관점이 명확해지면 수집하는 데이터의 형식도 거의 결정됩니다. Excel등의 소프트웨어를 사용해 분석을 시행하려면 분석에 적합한 형식의 데이터를 입력하는 것이 작업의 출발점입니다"

p.22 - P22


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo