경험치가 필요한 첫째 단계는 기획이다. 어떤 종류의 문제를 풀기 위해 어떤 방법을 써야 할지 선택하는 단계다. 기획 단계에서 경험이 부족하면 잘 맞지 않는 방법을 사용하게 된다. 이를 단기간에 극복하는 방법은 지금 해결하려는 문제와 최대한 비슷한 사례를 찾아서 그 해법을 적용해보는 것이다. - P105
데이터를 변형하는 데도 경험치가 필요하다. 새로운 프로젝트에서 보유한 데이터를 있는 그대로 사용하는 경우는 별로 없다. ...(중략)... 새로운 분석을 위해 기존의 데이터들을 조합하거나 데이터를 만들어내는 경우들이 생긴다. 이때 원하는 결과를 얻기 위해 어떻게 데이터를 바꿔야 하는지 결정하는 것은 이제 막 데이터 분석을 시작한 사람에게는 어려운 문제가 될 수 있다. - P106
경험치가 가장 많이 요구되는 단계는 데이터 해석이다. 데이터 분석 결과를 다른 사람들과 공유하고 실제 시장에 도움이 되는 모습으로 옷을 입히는 단계다. 이 단계에서 경험이 부족하면 사람들이 뭘 원하는지 알기가 어렵다. 사람들이 원하는 얘기와 맞닿아 있는 부분을 발견해 지금은 그저 숫자로만 존재하는 분석의 결과물을 의미 있는 표현으로 해석해줘야 한다. 이 해석 단계는 지름길을 찾기가 정말 어렵다. 경험을 쌓는 시간이 꼭 필요하다. - P106
수비는 경험에서 나온다. 경험으로 상대가 어떻게 할지 예측하고 수비하는 것이다. - P107
현실과 데이터를 연결하고 분석한 뒤 다시 데이터를 현실로 연결하는 과정 속에서 스스로 해석해온 경험이 필요하다. 한번이라도 비슷한 분석을 한 경험이 있다면 그 경험을 기반으로 해석의 대략적인 방향을 잡을 수 있다. 그런데 해석을 처음 접하는 사람이라면 갈피를 잡기 힘들다. - P108
인공지능이 모든 분석을 대신해주는 세상이 된다 해도 그 결과의 해석은 인간이 하게 될 것이다. 기계가 의사결정까지 한다고 해도 마찬가지다. 기계의 의사결정을 따르기로 하는 것도 인간이고, 의사결정을 재해석하기로 하는 것도 인간이다. 어떤 경우에도 최종 해석을 하는 역할은 인간이 맡게 된다. 분석이 아무리 간소화되고 쉬운 세상이 된다 해도 결과를 해석하는 경험은 반드시 필요하다. - P108
경험을 늘리기 위해서는 남들이 해놓은 분석 케이스를 많이 보는 것도 중요하지만 꼭 ‘직접‘ 분석을 해봐야 한다. 말로 훈수를 두는 것은 쉽지만 직접 해보면 경험하는 바가 다르다. 데이터 분석을 꼭 한번이라도 직접 해보고 이 과정에서 새로운 해석 가능성들을 찾아보는 시간을 가져야 한다. - P108
해석은 데이터 사이언티스트의 일 가운데 화룡점정이라 해도 과언이 아니다. 데이터 분석 결과 중 의미 있는 일을 가려내는 경험, 사람들이 받아들일 수 있는 얘기로 전달해보는 경험은 많으면 많을수록 좋다. 해가 거듭될수록 데이터 안에서 더 풍성한 얘기를 찾아낼 수 있게 된다. - P108
데이터가 우리를 위해 일하도록 만든다는 건 무슨 뜻일까? 데이터에서 가치를 찾는다는 것이다. 가치는 정의하기 나름이기도 하고 사람마다 가치를 느끼는 지점도 달라서 설명하기 애매한 개념이긴 하지만 대체로 가치가 있는 일들은 다음과 같다. 기업이 데이터로 돈을 벌 수 있게 하는 일, 데이터에서 소비자의 마음을 찾는 일, 데이터가 조직의 의사결정을 돕도록 하는 일 등 데이터로 우리 삶을 나아지게 하는 일들이다. - P112
데이터는 조금 더 합리적인 의사결정을 도와준다. - P112
데이터는 간접적 방법으로도 유동 인구 정보를 줄 수 있다. 공공기관에서 제공하는 사이트, 예를 들어 소상공인시장진홍공단(www.semas.or.kr)에서 제공하는 무료 데이터를 통해서도 카드사나 통신사 등과 협력해 통계 처리한 정보를 볼 수 있다. 특정 통신사와 카드사의 데이터이다 보니 전체 인구를 반영하지는 못하지만, 통계 처리한 데이터가 대표성이 있을 것이라는 가정하에 사용하는 데에는 무리가 없다. - P113
데이터는 당신의 감을 좀 더 정확하게 지지해주고 실패를 줄여줄 것이다. 또 미처 알아차리지 못한 채 숨어있던 소비자의 필요까지도 발견하도록 도와줄 것이다. - P114
데이터를 분석하는 일은 때로 금광에서 금을 찾는 일과 같다. 한없이 파는데도 필요 없어 보이는 흙만 나올 때도 있고, 도무지 뭐가 나올지 알 수 없는 시간을 보낼 때도 있고, 결국 금을 발견했는데 정제가 필요할 때도 있다. 그리고 마침내 순도 높은 금을 조금이라도 발견하면 큰 희열을 느끼게 된다. 그 순도 높은 금이 바로 소비자와 기업에 도움을 줄 수 있는 발견들이다. - P115
금은 금인데 사금처럼 정제를 해야 금을 얻는 경우도 많다. 정말 귀찮고 어려운 일이지만 사금도 금이다. 손이 많이 가는 데이터도 때로는 귀한 가치를 지닌다. - P115
통계를 조금이라도 알고 있어야만 데이터 분석이 가능하다. 데이터가 어떻게 쌓여 있고 어떻게 활용될 수 있는지 숫자의 구조를 이해하지 못하면 분석 후에도 의미 없는 숫자를 만들어낼 확률이 높다. - P116
통계적 감각은 평소에 익혀두지 않으면 한꺼번에 습득하기어려운 역량으로 일의 구석구석에 영향을 미친다. 데이터를 몇 개의 그룹으로 만들 것인지, 이 그룹과 저 그룹을 비교할 때 기준을 어떻게 세울 것인지, 어떤 사례에 어떤 데이터모델을 써야할지 등 데이터 분석 단계마다 필요한 역량이기 때문이다. - P116
초심자라면 데이터로 차트를 만드는 책을 탐독하면서 좀 더 빨리 (통계적) 감각을 기를 수도 있을 것이다. - P116
(데이터를 다루는) 기술보다 더 중요한 것은 코딩한 내용이 가지고 있어야 할 기본적인 ‘논리‘ 혹은 데이터 처리 기술로 얻을 수 있는 결과물의 ‘이해‘라고 생각한다. 코딩 기술 자체는 변할 수 있지만 그 원리는 변하지 않을 것이기 때문이다. - P117
데이터를 어떻게 분석하면 좋을지 스스로 데이터분석 주제를 찾아내는 사람은 프로젝트에서 주도적인 역할을 할 수 있다. 수동적으로 남의 요청에 응답하는 사람과 달리 분석 주제를 잡아내면 데이터에 관한 이해를 바탕으로 독보적인 결과물들을 만들어낼 수 있다. - P119
(데이터 사이언티스트는) 현재 보유하고 있는 데이터의 구조를 알기 때문에 효율적인 데이터 생성 방법을 찾고 데이터 결과물에 관한 이미지까지 구상할 수 있어 데이터를 필요한 곳에 좀 더 빠르게 전달할 수 있다. - P119
프로젝트는 크게 2가지 유형으로 나눠볼 수 있다. 데이터의 분석 결과가 의사결정자나 타 부서 등에 전달되어 ‘인사이트를 사람에게 전달하는 경우‘, 그리고 데이터가 IT서비스에서 움직일 수 있도록 알고리즘 등의 형식으로 ‘데이터를 실제 IT서비스에 반영하는 경우‘다. - P120
‘인사이트‘ 중심의 프로젝트를 진행하는 순서는 일반적으로 다음과 같다.
• 프로젝트 초반: 기획
1. 프로젝트의 목적을 정한다.
2. 유관 부서의 현황과 궁금증을 듣는다.
3. 프로젝트와 관련된 데이터를 최대한 끌어모은다.
• 프로젝트 중반: 분석
4. 목적에 맞는 가설들을 검증한다.
5. 검증한 가설들의 조각을 모아 하나의 얘기를 만든다.
6. 실제 개선할 수 있는 구체적 방향을 제언한다.
• 프로젝트 후반: 실행
7. 유관 부서와 개선 방안을 논의하고 실행을 돕는다.
8. 실행 효과를 데이터로 검증한다.
9. 분석 - 실행 - 분석을 통해 확인한 것들로 다음 실행을 준비한다. - P122
현황 청취에서 무엇보다 중요한 것은 현재 상태에 불편함을느끼는 부분은 없는지 파악하는 것이다. 만족 또는 불만족의 이유를 알면 기회를 잡기가 더 쉬워진다. - P124
그들의 구매 패턴과 우리 제품/서비스가 얼마나 일치하는지 그리고 그들의 구매 패턴에서 우리가 아직 준비하지 못한 것이 있다면 무엇인지 등 연구 문제나 가설을 만들어 분석하고 검증한다. - P126
회사 안에서 관심을 얻지 못한다면 제품이 시장으로 나갈 확률은 줄어든다. 데이터 분석 결과를 토대로 회사 사람들을 설득하는 것이 중요하다. - P127
실행 결과 기존 판매와 어떤 차이가 있었는지, 어떤 고객층이 움직였는지, 효과가 전혀 없었다면 왜 그랬는지 검증할 수있는 방법을 미리 설정해둔다. ...(중략)... 검증 방법을 미리 고민하지 않고 실행하면 나중에 성패의 원인을 파악할 수 없게 된다. - P129
성공과 실패의 시사점은 데이터로 정리해둔다. - P129
프로젝트를 시작할 때는 당면한 문제가 무엇인지 탐색해야 한다. 새로운 제품이나 서비스를 기획하는 단계인지, 특정 고객들에 대한 이해가 필요한 시점인지, 특정 상권 탐구가 필요한지, 이 모든 것들을 조금씩이라도 포함하는 큰 규모의 프로젝트인지 결정한다. - P130
너무 작은 단위의 문제는 실행하기가 어렵고, 너무 큰 프로젝트는 시간과 에너지를 낭비하게 될 가능성이 있다. - P130
데이터 프로젝트는 처음부터 목적과 방향성을 갖고 있어야 한다. - P130
프로젝트 초기에는 커뮤니케이션 역량과 논리적 상상력이 필요하다. 경영 관점에서 정의한 문제가 데이터로 접근 가능한 것인지 데이터 사이언티스트의 머릿속에서 대략적으로라도 그려져야 한다. - P130
일반적으로 데이터는 목적을 가져야만 제대로 활용될 수 있다. 프로젝트의 목적이 뚜렷하지 않고 ‘뭔가 재밌는 것‘, ‘뭔가 새로운 것‘, ‘데이터와 분석할 사람이 있으니 성과를 낼 만한 것‘을 찾는다면 몇 년이 흘러도 손에 잡히는 결과를 얻지 못할 수도 있다. - P131
단순히 ‘새로운 기술이나 도구를 도입하는 것‘이 프로젝트의 목적이 되면 도입으로 만족해야 하는 경우가 많다. 미리 활용처를 생각해두지 않으면 기술 도입이 향후 어떤 성과를 가져오는지 확인하기 어려워지기도 한다. - P132
타인에게 공유받은 문서만으로 멋대로 상상하지 말고, 현장에 직접 가보거나 실제로 일하는 사람들의 얘기를 들어봐야 한다. 그 얘기 가운데 중요한 분석 주제가 나올 수도 있고 때로는 해결을 위한 실마리까지 발견할 수도 있다. - P132
현장에서 일어나는 문제점의 원인을 파악하고 싶다면 어떤 데이터로 그 문제점을 증명하고 어떤 데이터로 해결책을 찾을 수 있을지 상상해야 한다. - P133
데이터 사이언티스트가 직접 유관 부서 사람들의 얘기를 듣고 가설을 세우는 것이 무엇보다 중요하다. "XX가 궁금하니이런저런 숫자들을 만들어주세요"라고 답이 정해진 상태에서 데이터 분석 결과만을 추출하는 것은 빅데이터 전문가가 아니어도 할 수 있는 일이다. - P133
데이터 안에서 더 나은 가치들을 발견하기 위해서는 데이터사이언티스트가 직접 문제를 만들어낼 수 있어야 한다. 실무자들의 소중한 경험을 존중하며 경청하는 단계도 필수적이지만 그저 요청에 대응만 하는 것은 훗날 인공지능이 대체할 수 있는 일이 될 것이다. - P133
프로젝트와 관련된 데이터는 무엇이 있고, 그 데이터를 얻으려면 어떻게 해야 하는지 프로젝트 주제가 정해지자마자 파악해야 한다. 데이터를 모으는 데 시간이 꽤 걸릴 수도 있으니 반드시 포함되거나 미리 요청할 수 있는 데이터들을 어떻게 분석가능한 환경으로 끌고 들어올지 계획해놓아야 한다. 더 필요한 데이터가 생기면 그때 추가로 데이터를 확보해나가면 된다. - P133
SPSS(Statistical Package for the Social Sciences) : 사회과학을 위한 통계 패키지. 광범위한 분류와 자료 수정, 변형 기능이 있어 실험적인 자료나 시계열 자료, 데이터베이스 관리 패키지로 폭넓게 사용되고 있다. - P135
SAS(Statistical Analysis System) : 통계 분석 시스템. 최근에는 기능이 통합 발전되어 전략적 응용시스템 (Strategic Application System)의 약자로 쓰이고 있다. 자료 관리와 효율성이 다른 패키지에 비해 높지만 가격이 비싸고 용량이 커서 개인이 사용하기에는 부담이 있다. - P135
‘빅데이터‘, 일반적인 분석 도구 안에 담기지 않는 용량의 큰 데이터와 그 데이터를 다룰 수 있는 기술 및 언어 (파이선*, R**, SQL*** 등)를 알고 있다면 분석 범위와 깊이가 달라진다. 마치 삽과 굴삭기의 차이처럼, 데이터의 처리 용량과 속도에서도 차이가 난다. 분석 주제가 무엇인지에 따라 쓸 수 있는 통계 모델이 다르고 사용할 수 있는 기술도 달라진다. - P136
* python : 프로그래밍언어의 하나. 다양한 분야에 활용할 수 있으며 머신러닝, 그래픽, 웹개발 등 여러 업계에서 선호하는 언어로 꾸준히 성장하고 있다. - P136
** R : 빅데이터 통계분석 및 그래프를 위한 언어. 주로 연구 및 산업별 응용프로그램으로 많이 사용되고 있다. - P136
*** SQL(Structured Query Language) : 구조화 질의어. 데이터베이스와 소통하기 위한 언어로 ‘Structured‘가 의미하듯 이미 정해진(구조화된) 질의 언어다. 데이터베이스에서 쓰이는 언어 중 가장 많이 사용되고 있으며, ‘SELECT, FROM, WHERE‘ 구조로 특징지을 수 있는 관계 사상을 기초로 한다. 예를 들어 마케팅 팀 직원의 이름, 주소, 전화번호를 검색한다고 할 때 SELECT는 ‘이름, 주소, 전화번호, FROM은 ‘직원‘, WHERE은 ‘마케팅‘으로 볼 수 있다. - P136
데이터 분석 결과 예상했던 것과 같은 내용도 있고 다른 내용도 있을 것이다. 프로젝트 전체에서 원하는 답을 하나의 데이터 분석을 통해 얻을 수는 없다. 각 가설에 맞는 다양한 분석을 통해 답을 얻었다면 이제 다시 프로젝트 전체의 큰 그림을 봐야 할 때다. 이 그림은 사람들이 공감할 수 있게끔 그려야 한다. 프로젝트 초기에 기획한 방향에 따라 전체적인 구조를 만든다. - P137
하나하나의 데이터 분석을 마친 것은 퍼즐의 조각들을 모으기만 한 상태다. 이제 퍼즐 조각을 맞춰볼 차례다. 각 조각들은 논리적으로 끼워 맞춰져야 하며 앞의 분석과 뒤의 분석이 앞뒤가 안 맞는 내용이라면 왜 그런지도 설명할 수 있어야 한다. - P137
하나의 분석 단위 문장들에 연결 고리를 끼워 넣어 얘기를 만들어낸다. 이 얘기의 방향성에 따라 실제 기업이 만들 수 있는 제품이나 서비스의 색채가 달라진다. - P137
세부 방안을 만드는 것은 실무자들의 몫이다. 하지만 데이터를 해석하고 방향성까지 얘기해줄 수 있다면 데이터 사이언티스트로서 더 많은 가치를 만들 수 있다. - P137
query language, 질의어 : 데이터를 검색하기 위한 언어라고 볼 수 있다. 데이터 분석을 위한 기술 역량을 배울 때 쿼리를 학습한다. - P138
실제로 제품과 서비스가 나오는 과정에도 데이터가 얘기하는 바가 적용되고 있는지, 적용해본 결과 어떤 성공과 실패를 했는지, 실패했다면 그 원인은 무엇인지 다시 분석하는 과정이 있어야 한다. 여기까지 해야 진정으로 ‘데이터가 일하는 회사‘가 된다. - P138
|