좋은 기회가 되어 읽어볼 수 있게 되었다. 데이터에 대한 관심과 흥미를 끌어올리는데 조금이나마 도움이 되면 좋겠다.

‘상상하는 것 중에서 불가능한 건 없다.‘ - P8

개개인의 고유한 장점을 어떻게 잘 활용할 수 있을지 고민해야 다 함께 성장하는 기회가 된다 - P8

자신의 성향이나 장점을 아는 것이 더 중요하다. - P9

기록은 훌륭한 데이터가 된다. - P20

다른 데이터와 연결해 분석을 해볼 수 있다. - P20

시계열을 가지고 있는 데이터는 다른 데이터와 연결해 분석하기가 좋다. 대표적인 예로 매출 데이터에는 시계열 정보가 담겨 있어 동일 시계열 정보를 가진 데이터와 연결할 수 있다. - P21

데이터에는 사람들이 주장을 객관적으로 받아들이게 하는 힘이 있다. 반드시 어려운 숫자를 보여주지 않더라도 논리적인 사고의 흐름 속에서 의문이 생기는 부분을 데이터가 채워줄 수 있다. - P21

만물은 수數다. - P29

현실과 데이터를 연결하는 데 중점을 두는 데이터 전문가가 데이터 사이언티스트다. 기업에 필요한 비즈니스 인사이트나 마케팅 아이디어를 얻기 위해, 혹은 웹/앱에서 판매를 높일 수 있는 모델을 만들기 위해 데이터를 활용할 줄 알아야 한다. 현장 실무에 대한 사업 감각도 있어야 하고 통계 지식도 있어야 하며 데이터 분석을 구현해내는 기술까지 이해할 수 있어야 한다. - P35

데이터 사이언티스트는 3가지 영역 즉, 데이터를 분석하는 ‘기술‘, 상황에 맞게 ‘통계‘를 적용할 수 있는 지식, 분석의 결과를 해석하고 전달하는 ‘인문‘학적 역량을 각각 일부라도 갖춰야 한다. - P35

얼마나 논리적으로, 이해하기 쉽게 숫자를 설명하는지가 중요하다. - P40

열심히 분석한 결과가 소비자와 시장에 영향을 주기 위해서는 내 옆자리 동료와 임원들을 먼저 설득해야 한다. - P40

분석한 사람이 보고까지 직접 ‘잘‘하는 것은 데이터 프로젝트의 성공 가능성을 높인다. 다른 사람이 한 일은 아무리 잘 이해했다고 해도 완벽하게 전달하기 힘들다. 또 직접 분석을 하지 않으면 의사결정자나 담당자의 질문에 바로 답하기도 어렵다. 이런 측면에서 데이터 분석가가 의사소통을 잘하면 얻게 되는 이득이 생긴다. - P41

‘분석부터 보고서 작성, 보고까지 직접 한다‘ - P41

데이터가 정말 도움이 될 수 있도록 전달하고 설득하고 성과 분석까지 함께해야만 진짜 데이터가 일했다고 볼 수 있다. - P42

장점을 더욱 극대화하고 강화하라 - P47

문과 전공 데이터 사이언티스트라면 뒤늦게 기술을 접하고배우는 시간도 반드시 필요하다. 하지만 내 경우 데이터 사이언티스트로서의 강점과 차별성은 소비자 심리학을 전공하면서 얻은 통찰력에서 비롯됐다. - P48

자신만의 전공과 관점을 소중히 여기길 바란다. 전공을 잘못 선택한 것 같다고 후회하지 않아도 된다. 언젠가 그 공부가 당신만의 장점이 될 날이 올 것이다. - P48

데이터 사이언티스트가 하는 일의 핵심은 숫자와 현실의 연결이다. 현실을 바라보는 인간의 언어와 데이터 사이를 잇는 가교 역할을 한달까. - P48

답을 데이터에서 찾을 수 있으려면 먼저 관련 데이터가 존재해야 한다. 일치하는 데이터가 없다면 논리적으로 추리할 수 있는 다른 데이터를 찾아야 한다. 그리고 그 데이터들을 의미 있게 분석할 수 있어야 한다. - P49

데이터 사이언티스트의 일은 현실을 정의하는 데서부터 시작한다. 현실을 어떻게 정의하느냐에 따라 데이터와의 연결 고리도 구상할 수 있다. - P49

데이터 분석의 첫 단계는 인간의 언어에서 시작된 질문을 어떻게 숫자로 만들어낼지 탐색하는 일이다. 데이터 사이언티스트가 갖고 있는 것은 이미 정리된 데이터가 아니라 작은 단위의 데이터인 경우가 많다. 말하자면 월 매출이 아니라 영수증 단위의 데이터가 주어진다. 데이터 사이언티스트는 이 영수증을 어떻게 조합해야 원하는 결과물을 얻을 수 있을지 아이디어를 내야 한다. 그리고 이를 직접 코딩으로 풀어낼 수 있어야 한다. - P50

처음에는 사람의 언어와 데이터 사이에 관계가 없다. 둘 사이의 연결 고리를 만드는 것, 둘 사이에서 통역을 해주는 것이 데이터 사이언티스트의 역할이다. - P51

한 문장에 들어 있는 여러 아이디어와 조건을 해당 부서와 함께 커뮤니케이션하면서 정리한 뒤에는 실제로 데이터 결과물을 확인해가며 코딩하는 작업이 필요하다. - P52

무엇보다 아이디어를 숫자로 확인하는 습관을 가져야 한다.
이를 위해 간단한 문장부터 구체화할 필요가 있다. - P52

[소비자가 자주 구매하는 게 무엇일까요?]
여기에서 소비자는 한 개인인가, 구매한사람 전체인가? 자주는 하루에 한 번인가, 일주일에 몇 번인가? 한 종류의 제품을 자주 구매하는 것일까, 아니면 그냥 우리 회사 제품 전체를 자주 구매하는 것일까? - P52

데이터로 확인할 수 있는, 가능한 많은 경우의 수들을 고민해보고 질문한 사람과도 이런 조건에 관해 많은 대화를 나눠야 한다. 그래야 진짜로 궁금했던 내용의 해답을 찾을 수 있다. - P52

문과생에게 희소식이 있다면 데이터 사이언티스트에게는 인문학적 소양도 반드시 필요하다는 것이다. 데이터 사이의 맥락을 파악하고 어떤 목적을 위해 어떻게 데이터를 구성할지 아이디어를 낼 수 있어야 하기 때문이다. - P53

텍스트 마이닝Text Mining 즉, 사람이 언어로 말하는 것들을 데이터로 변환해 분석할 수 있는 기술 - P53

crawling : 소프트웨어 등이 웹을 돌아다니며 원하는 정보를 찾아 특정 데이터베이스로 수집해오는 작업이나 기술. - P54

아직 인공지능으로는 모든 단어의 맥락을 정확히 판별하기어렵다. 이런 단어들의 의미나 활용을 ‘학습‘시켜야 하는데(머신러닝), 그 학습 자체에 관한 아이디어를 당신이 결정해야 할 수도 있다. - P55

숫자를 학습하고 예측하고 얼마나 맞는지 말해주는 것은 기계가 하는 일이지만 어떤 숫자들을 학습하도록 제공할지에는 데이터 사이언티스트의 아이디어가 필요하다. - P57

어떤 단어들은 단어 자체만으로는 의미를 정확히 파악하기 어렵다. 함께 있는 단어를 연결해서봐도 마찬가지다. 말의 뉘앙스는 직접 듣고 있는 사람들도 정확히 알기 어려울 때가 있다. - P56

‘ㅠㅠ‘가 들어간 문장을 무조건 부정적으로 해석할지, 긍정적인 단어들과 함께 있을 땐 긍정적으로 해석하게 할지, 그기계를 학습시키는 것은 여전히 사람의 몫이다. 이는 기술과 통계 영역에서의 전문성만으로는 가능하지 않다. 인문학적 소양은 바로 이렇게 데이터 사이언티스트가 어떤 목적성을 갖고 기술을 활용할지 아이디어를 내는 데 도움이 된다. - P57

외국어를 배우듯 코딩을 배워라 - P63

코딩도 언어의 일종이기 때문에 영어를 배우는 것과 비슷한 과정이라고 생각하면 접근하기가 조금 쉬워진다. - P63

SQL에서 SELECT는 특정 데이터 테이블에서(FROM) 어떤 데이터를 선택할 때 쓴다. 초보자라면 데이터를 보기 위한 SELECT와 FROM을 배우는 첫단계부터 시작해 SQL 언어를 배워갈 것이다. - P64

필요할 때 막상 영어를 쓰려고 하면 잘할 수 없듯 코딩도 무작정 이론을 배운다고 실전에서 사용할 수 있는 건 아니다. 그래서 ‘데이터의 목적‘이 중요하다. - P64

데이터로 무엇을 할지 명확한 목적이 있어야 한다. 코딩의 결과 즉, 무슨 결과물을 얻어야 할지가 분명하면 차근차근 코딩을 공부할 수 있다. 영어 이력서 샘플을 구한 다음 자신의 이력을 넣어 응용하는 것처럼 교재나 인터넷 샘플을 이용하는 것도 좋다. 어쨌든 데이터의 ‘목적‘ 없이는 그저 영어 문법을 배우던 시간과 비슷한 학습과정을 거칠 수밖에 없다. - P65

결과물을 상상할 수 있을 때 언어를 더 빠르게 배울 수 있고, 데이터에 목적이 있을 때 데이터를 더 빠르게 분석할 수 있다. - P65

코딩을 시작하기 전 알고 싶은 문제 하나를 정해보자. 스스로 분석해보고 싶은 주제가 있는가? 데이터로 뭔가 알아보고 싶은게 있는가? 그럼 그 답을 찾는 데 필요한 데이터 분석 과정을 배워보자. 목적이 생겼으니 더 빠른 길을 찾기 위해 노력하게 될 것이다. - P66

맛있는 요리를 만들듯 통계를 대하라 - P66

개인적으로 (통계 분석)모델 하나를 알고 모르고는 중요하지 않다고 생각하며, 각 모델이 어떤 프로젝트에 사용되어야 하는지 방향성을 아는 것이 더 중요하다고 본다. 어떤 프로젝트에 어떤 종류의 모델이 필요한지 알고 난 후 그때 더 자세하게 공부하는 편이 낫다. - P66

요리를 하는 상황에 비유해보자. 당신은 ‘채썰기‘를 배웠다. 회사에 필요한 것은 ‘깍두기‘다. 당신이 채를 잘 써는 방법을 배운 것이 반드시 깍두기를 만드는 데 도움이 되리라고 생각할 수는 없다. 다음에 채썰기가 꼭 필요한 프로젝트가 있다면 그때는 도움이 될 것이다. - P67

또 채썰기가 아닌 깍둑썰기를 배웠다고 해서 깍두기가 맛있어지는 건 아니다. 깍둑썰기 자체만으로 깍두기를 맛있게 만들수 있는 것은 아니며 다른 재료들도 필요하다. 다만 적정한 크기로 무를 써는 것은 맛있는 깍두기를 만드는 데 중요한 조건이 될 수 있다. - P67

깍둑썰기, 채썰기, 어슷썰기 등의 다양한 방법을 알게 되면 각각의 요리에 필요한 방법으로 재료를 손질할 수 있다. 적절한 재료 손질은 좀 더 맛있는 요리가 될 가능성을 높여준다. 하지만 반드시 그 요리가 맛있어지는 건 아니다. 즉, 재료 써는 기법을 다양하게 아는 것은 좀 더 맛있는 요리를 위해 필요한 조건 중 하나지만 썰기 방법 자체가 요리의 맛을 보장해주지는 않는다. - P67

다양한 통계 모델을 알고 있다면 적절한 프로젝트에 적절한 모델을 사용할 수 있어 좋다. 하지만 하나의 통계 모델을 안다고 해서 반드시 프로젝트가 성공적으로 끝나는 것은 아니며 그 통계 모델이 반드시 회사에 유용하게 사용되리란 보장도 없다. - P67

prospect theory(전망 이론) :  행동경제학을 창시한 심리학자 대니얼 카너먼Daniel Kahneman이 제시한 것으로 손실과 이득에 대해 사람들이 저마다 다른 가치를 부여하고 행동을 선택한다는 이론이다. - P68

무슨 언어를 배워야 할까? 무슨 툴을 배워야 할까? 우선 내가 몸담고 있는 조직에서 사용하는 툴을 배울 수밖에 없다. 당연하게도 지금 나 이외의 사람들이 사용하고 있는 툴을 배우는 것이 회사 입장에서는 가장 빠른 길이다. - P69

코딩과 마찬가지로 결과물에 관한 명확한 그림을 갖고 있어야 새로운 툴을 빨리 배울 수 있다. - P70


댓글(0) 먼댓글(0) 좋아요(4)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo