빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 - 그래프와 도표만 바라보는 당신에게
카시와기 요시키 지음, 강모희 옮김 / 프리렉 / 2021년 2월
평점 :
장바구니담기


 데이터가 홍수처럼 넘치는 시대다. 과학 기술의 발전으로 기업은 이전보다 훨씬 더 쉽게 수많은 데이터를 수집하고, 이것을 활용하려고 한다. 그런데, 이를 미처 소화하기도 전에 또 다른 데이터가 흘러온다. 데이터에 치여 사는 것이다. 그렇다보니, 데이터를 깊게 바라보고 생각하기 보다는 피상적인 수치에 빠져서 섣부른 결론을 내려고 한다. 


 저자는 이러한 현상에 대해서 분석보다는 활용, 결과가 아닌 ‘결론’을 내려야 한다고 주장한다. 


 그렇다면 데이터를 제대로 분석하기 위해서 가장 먼저 필요한 것은 무엇인가? 바로 ‘문제 정의’다. 문제를 정확히 정의하는 것이 우선이다. 그 다음이 문제에 대한 ‘원인’ 규명이다. 마지막으로 ‘해결 방안’이다. 


 “문제 → 원인 → 해결 방안” 


 그런데, 사람들은 우선 ‘해결 방안’을 데이터에서 먼저 찾으려고 한다. 정확히 문제가 무엇인 파악하지도 못한 상태에서 말이다. 


 저자는 이 책에서 다양한 예시를 들어서 문제 정의가 무엇인지 좀 더 정확하게 알려준다. 또한 ‘데이터 활용 프로세스’가 무엇인지 가르쳐준다. 


 “A 겉으로 드러난 현상, 목적/문제 정의(B 목적 및 문제를 정의 C 지표를 결정), 현상파악/평가(D 현재 상태를 파악, E 평가), 원인(F 원인을 부석), 방법(G 해결 방안을 모색)” 


 A, 먼저 겉으로 드러나는 현상이 있을 것이다. 예를 들어서 동네에 아이들이 늘었다는 지, 또는 노인이 증가했다는 지, 눈에 보이는 현상이 있을 것이다. 

 B, 이 때 문제를 정의해 본다. 아이가 많은 동네에서 가장 큰 문제는 무엇일까? 여러 가지가 있을 것이다. 어린이집 부족, 초등학교 부족, 선생님 부족이 가장 클 것이다. 실제로 지인 중의 한 명은 어린이집을 구하기 힘들어서 다른 동네로 이사 가기도 했다. 그렇다면 이것이 문제의 전부인가? 


 좀 더 깊게 들여다보면, 선생님 1인당 학생 수 증가로 교육의 질이 떨어질 수 있다. 아무래도 관심을 둬야할 학생이 늘어나면, 세부적인 관리가 안 되기 때문이다. 학부모들은 결국 아이들의 교육을 학원에 의지할 수밖에 없다. 


 역시 가장 큰 문제는 아이들의 학업 능력 저하다. 그렇게 되면, 부모들은 교육의 질이 더 좋은 동네로 이사를 가면서 부동산 가치가 떨어질 것이다. 전반적으로 도시의 세수가 줄어들고, 복지혜택도 감소할 수 있다. 너무 비약한 이야기라고 생각할 수도 있지만, 하나의 문제는 또 다른 문제를 낳기 때문이다. 


 C, 지표를 결정한다. 아무래도 선생님 1인당 학생 수를 먼저 확인하고, 이를 다른 교육열이 높은 지역과 비교해 본다. 다음은 학업 성적이다. 가 도시와 나 도시의 학생들 성적을 비교한다. 초등학생은 비교가 힘들기 때문에 중학생, 고등학생의 모의고사 성적을 통해서다. 물론 선생님 1인당 학생 수와 성적이 상관관계를 보이지 않을 수 있다. 사실 아이의 학업 수준에 미치는 더 다양한 원인들이 있기 때문이다. 맞벌이 부부 비율, 좋은 학원 비율, 부모의 소득 수준, 교육 관심도 등 다양하다. 


 “짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 합니다. 지표를 무조건 하나만 정해야 하는 것은 아닙니다.” - p64


 이러한 과정을 통해서 현상파악 및 평가를 한다. D, 현재 상태를 파악, E, 평가를 한다. 


 이 때 저자는 ‘올바른 데이터’를 가려내는 것이 필요하다고 말한다. 즉, 오늘 처음 만난 사람에게 데이터를 보여주면서 ‘이것이 문제입니다.’라고 이야기할 때, 과연 어떤 데이터를 사용할지 고민해야 된다는 것이다. 이 때 데이터를 통해서 ‘목적’과 ‘문제’를 제대로 전달할 수 있는 것이 중요한 포인트다.


 무엇보다 데이터의 ‘결과’와 ‘평가’는 다르다고 저자는 강조한다. ‘결과’가 곧 ‘결론’이 아니라는 이야기다. 또한 평가를 객관화시키기 위해서 필요한 것은 ‘비교’라고 한다.


 “평가를 객관적으로 만드는 것은 바로 ‘다른 것과의 비교’입니다.” - p86 


 앞서 언급한 아동 수가 감소하는 것에 대해서 타 지역과 비교하는 것은 데이터를 보다 객관화시키기 위함입니다. 예를 들어서 현재 동네의 인구가 4,000명, 아동 수가 1,000명이라고 한다면, 그 자체로는 아무 의미가 없다. 다른 동네와도 비교를 해서, 인구 대비 아동 수의 비율, 아동 수의 증가 또는 감소 비율을 비교해 봐야 한다. 이 때 중요한 것은 나의 주관적인 해석이 과하게 들어가면 안 된다.


 데이터를 활용해서 결과물을 만들 때, 자신의 생각과 주관을 전하면 안 됩니다.” - p88


 현상파악과 평가 후 원인 후보(F)를 두고, 여기에 대한 지표를 찾아봐야 한다. 동네 아동 수 감소를 ‘교육의 질’ 하락 때문이라고 섣부르게 판단하면 안 된다. 물론 여기에 대한 지표도 위에 언급한 것처럼 찾아봐야겠지만, 다른 원인 후보도 생각해야 한다. 예를 들어서 동네의 전세 가격이 급등해서 좀 더 싼 지역으로 가족이 이동할 수도 있다. 즉 원인 후보가 ‘교육’뿐만 아니라, ‘부동산’ 영향도 있다. 또한 ‘교통’이 원인일 수도 있다. 


 이렇게 원인을 나열해서 지표를 확인한 후 최종적으로 해결 방안(G)을 모색해야 한다. 


 무엇보다 ‘해결 방안’을 고민하는 것이 마지막 단계라는 저자의 말에 공감이 간다. 그 전에 ‘원인 분석’이 철저하게 이루어져야 한다. 


 이 책을 통해서 데이터를 어떻게 생성하고 활용할지, ‘목적’있는 데이터 산출이 중요함을 배웠다. 비단 회사뿐만 아니라, 개인의 삶에도 충분히 적용할 수 있는 프로세스다.


 - 한 줄 감상평: 데이터로 ‘해결 방안’을 서두르지 말고, 문제와 원인 분석을 우선해야 한다. 

 - 생각과 실행 : 데이터의 수치를 먼저 산출하고 생각하기 보다는, 문제 정의와 원인 분석을 우선시 하자. 해결 방안을 서두르는 ‘방법맨’이 되지 말자. 


 * 이번 서평은 출판사에서 제공받은 책으로 주관적으로 작성했습니다. 




댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo