왜 성공했고 왜 실패했는지 알아야 다음에 다른 환경에서 또 사용할 수 있다. 데이터 사이언티스트가 이 분석 과정에까지 동반해야 ‘데이터가 회사를 위해 일하는 회사‘라고 할 수 있다. - P141
IT기업에서는 아무래도 웹/앱 내 기능이나 구성을 최적화하기위한 분석을 하는 경우가 많은 편이다. - P141
데이터 분석 결과 만들어진 알고리즘이 IT서비스나 웹/앱에 직접 반영되는 프로젝트의 일반적인 프로세스
• 프로젝트 초반 : 기획
1. 기한 내 수행할 프로젝트의 범위를 정한다.
2. 유관 부서의 필요를 듣고 함께 연구해야 할 문제를 정한다.
3. 현재 웹/앱 데이터를 확인하고 필요하다면 추가 데이터를 모은다.
• 프로젝트 중반 : 분석
4. 목적에 맞는 가설들을 검증한다.
5. 가설을 실제 웹/앱에 반영할 수 있는지 구체화한다.
6. 필요하다면 수식이나 알고리즘을 만든다.
• 프로젝트 후반: 실행
7. 개발 담당자들과 반영 여부를 논의한 후 실제 웹/앱에 반영한다. 가능하다면 미리 테스트를 한다.
8. 실행 효과를 데이터로 검증한다. 대안을 미리 만들어두었다면 가장 나은 것을 선택한다.
9. 향후 웹/앱에서 실제 고객들의 반응을 지속적으로 추적하고 필요하다면 모델을 수정·보완한다. - P143
사람에게 인사이트를 전달하는 프로젝트와는 달리 실제로 웹/앱에 분석 모델이 사용되는 경우에는 엔지니어와의 협업이 많아진다. 웹/앱에서 어떤 에러를 만들어내지는 않는지, 상충되는 부분은 없는지 확인하면서 프로젝트를 진행한다. 인문적 역량보다는 기술적 역량이 좀 더 강조될 수밖에 없다. - P143
모든 것이 가능하나 모든 것을 한꺼번에 진행하기는 어렵다. 빠르게 개선되어야 할 시급한 프로젝트, 언젠가 해야 하지만 당장 급하진 않아서 천천히 진행할 중·장기적 프로젝트를 나누는 것도 방법이다. - P145
각 담당자들이 그들의 언어로 필요하다고 생각하는 기능을 얘기할 때 그 ‘원인‘이 무엇인지 파악해야 한다. 말하는 그대로 만들 필요는 없지만 왜 그 기능이 필요하다고 하는지 맥락을 파악하는 것이 중요하다. - P146
각 실무 담당자들이 필요하다고 얘기하는 데는 다 이유가 있는 법인데, 구상하는 것들을 일단 가감 없이 들어보는 것이 좋다. 그리고 그중 가장 선행되어야 할 일이 무엇인지도 의견을 들어본다. - P146
실제 데이터를 모았다면 가설을 검증하면서 분석을 해본다. ...(중략)... 생각한 것이 전부 그대로 드러나지 않을 수도 있는데, 또 다른 관점에서 보면 새로운 발견을 할 가능성도 있다. - P147
개인별로 의미 있는 차이가 나왔다고 해서 모든 것을 반영하기는 어려울 수도 있다. 1명의 사람이라도 행동 특성상으로는 여러 그룹에 속할 수 있기 때문에 어떤 기준을 먼저 보여줘야 할지도 고민해봐야 한다. - P148
동일한 수라 하더라도 책 1,000권의 유사성을 분석하는 것과 1,000명의 구매 패턴을 분석하는 것 중 사람 분석이 더 어려울 때도 있다. - P148
웹/앱에서 어떨 때 어떤 책을 보여줘야 할지 규칙을 만들었다면 기계가 이해할 수 있도록 기계언어로 규칙을 전달해야 한다. - P148
인사이트를 사람에게 전달할 때는 반드시 알고리즘을 만들지는 않는다. 사람의 말로 풀어내는 것이 더 중요하기 때문이다. 하지만 웹/앱에서는 기계가 알아들을 수 있도록 프로그래밍 언어를 사용해 코딩해야 한다. 가상이지만 웹/앱 화면이 움직일때 따라야 할 규칙을 만들어주는 것과 비슷하다. - P149
내가 상상했을 때와 실제로 소비자에게 전달되었을 때 효과가 다르거나 전혀 없을 수도 있기 때문에 가능할 경우 테스트를 해보면 더 좋다. 사람들에게 추천 도서를 보여줬는데 크기가 작거나 화면에서 보이지 않는 귀퉁이에 있어 그 책을 전혀 클릭하지 않을 수도 있다. 혹은 추천 로직이 잘못되면 왜 이런 걸 보여주느냐며 귀찮아하는 경우도 있다. 의도한 대로 화면이 구성되도록 테스트해보면 좋다. - P150
웹/앱 업데이트에 대한 사람들의 반응은 좋을 수도 나쁠 수도 있다. 나쁜 것들은 개선하고 좋은 것들은 더 좋게 만들면서 반응의 차이를 살핀다. 한번 만들고 끝이 아니라 소비자가 원하는 것들을 계속 찾아내야 한다. - P150
웹/앱 개선 프로젝트는 개발 일정이 정해져 있는 경우가 많다. 서비스를 사용하는 사람들에게 개인화 추천을 하거나 가장 효율적인 화면을 보여주거나 구매 편의성을 높여주기 위한 방법을 고민하면서 이를 숫자로 증명하고 모델을 만드는 일을 하게 된다. 이때 개발자들과의 협업은 필수이며 실제로 웹/앱 화면에 반영되는 것을 상상하면서 기획해야 한다. - P151
무엇이든 가능하지만 모든 것을 기한 내에 다 할 수는 없다. 일정 기간 안에 수행할 프로젝트의 범위를 정해야 한다. - P151
지금 분석해야 하는 문제를 정의한다. 예를 들어 고객들이 특정 아이콘을 자주 사용하고 있는지, 사용하고 있지 않다면 개선해야 할지 삭제해야 할지, 그 아이콘을 통해 고객 편의나 수익이 만들어지고 있는지 등 확인해야 할 연구 문제를 구체화한다. - P152
웹/앱이 론칭됐다고 해서 데이터 사이언티스트의 일이 끝난 것은 아니다. 예상치 못한 오류가 생길 수도 있고 실제 고객의 건의에 따라 불편한 점들이 보완될 수 있다. 완제품이 나오면 수정하기가 어려운 실물 제품과 달리 끊임없이 오류를 수정해야할 가능성도 있다. - P155
앞으로 반복적인 일은 점점 더 기계가 대신하게 되고 인간은 그 결과물만 받아보는 일이 점점 더 늘어날 것이다. - P156
머신러닝 자동화 기술Auto ML은 기계학습의 어려운 부분을 블랙박스 영역으로 남겨둔 채 결과를 낼 수 있게 한다. 입력과 결과를 구상할 수만 있다면 중간 부분은 이미 만들어져 있는 쿼리로 해결해주는 것이다. 이런 현상과 함께 그 반대편에서는 인간의 인문학적 판단이 더욱 중요해지리라 예상된다. 시간과 노력으로 하던 일들을 기계가 대신해주는 만큼 사람만이 갖고 있는 고유의 사고력이 더 많이 요구되는 것이다. - P157
기계가 알아서 학습을 하고 있다면 ‘무엇을 학습해야 하는지‘, ‘학습한 데이터로 시장에 무엇을 내놓아야 하는지‘ 같은 결정이 나 자신은 물론이고 다른 기업과의 차이도 만들어낼 수 있다. - P157
가설들과 가능성들을 테스트하는 것을 일반적으로 ‘AB테스트‘라고 부른다. A 조건과 B 조건을 비교한다고 보면 된다. 이때 조건이 꼭 2개일 필요는 없다. - P159
기계가 대신할 수 없는 영역이 분명 아직 남아 있다. 기술이 가져올 환상적인 미래 때문에 간과하는 부분들이 있다. 결국 그 기계를 학습시키는 것도 사람이고 결과를 책임지는 것도 사람이고 기술이 알려주는 데이터를 기반으로 전략을 세우는 것도 사람이며 신제품의 디자인을 결정하는 것도 사람이다. 사람이 해야 하는 최소한의 기능은 계속 남아 있을 것이고, 그 최소한의 기능이 사실 가장 중요한 영역일지도 모른다. 바로 인간의 판단력이나 창의성과 맞닿아 있는 지점이다. - P160
인문학적 사고를 바탕으로 기술을 이해해야 한다. 기술의 발전이 필요 없다는 것도 아니고 인문학이 더 중요하다는 것도 아니다. 기술과 인문은 분리되어 있는 것처럼 보이지만 분명히 함께해야 할 영역이다. - P160
파마를 한 뒤 일정 기간 물을 멀리해야 탱글탱글한 파마머리가 유지된다 - P161
어떤 분야, 그것이 아무리 사소하고 작은 것처럼 보여도 무언가 하나에 깊이 빠진 적이 있는 사람은 남들과 다른 시야를 갖게 된다 ...(중략)... 그리고 그 시야는 인생에 상당히 도움이 된다. 어떤 주제를 깊이 파고들어본 적이 있느냐 없느냐에 따라 다른 분야를 대하는 관점도 달라진다. - P161
전혀 상관없어 보이는 분야의 지식이 내 일에 도움이 되는 순간은 언젠가 찾아온다. - P162
똑같은 문제를 보고 남들과는 다른 당신만의 시각으로 설명할 수 있는가? 꼭 ‘새로운 시각‘일 필요는 없다. 자신만의 관점을 갖고 있는지가 중요하다. - P162
하나 이상의 분야에서 전문가가 되면 자연스럽게 ‘관점‘을 갖게 될 것이다. 자신도 모르는 사이 안목으로 스며드는 것이다. 차에 시동이 걸리지 않을 때 기계공학자는 시동장치를, 전기공학자는 배터리를, 화학공학자는 연료를 생각한다는 얘기가 있다. - P163
회사에 정말로 도움이 되는 자신만의 관점이 있다면 대단한 강점이 될 수 있다. 남의 시각을 복사하는 것이 아니라 나만의 관점으로 해석하는 능력을 가져야 한다. 계산은 기술이 대신해주고 정답은 검색 한 번으로 쉽게 찾을 수 있는 시대이기 때문이다. - P163
코딩은 머릿속에 선명한 이미지가 있을수록 더 빠르게 배울 수 있다. 분석을 잘하려면 내 머리로 상상하고 그 상상을 논리적으로 증명하고 실제로 분석할 수 있어야 한다. - P163
머릿속에 대강이라도 원하는 결과물이 있는 것이 좋다. 이를 위해 여러 데이터를 조합한 결과를 상상할 수 있어야 한다. - P163
데이터로 코딩을 하다 보면 수도 없이 이 데이터와 저 데이터를 연결해야 하는 일이 생긴다. 이렇게 뒤집어보고 저렇게 뒤집어봐야 하는 일의 연속이다. 어떻게 하면 이 테이블과 저 테이블을 연결했을 때 오류가 없을까? 어떻게 하면 의미 있는 결과를 찾을 수 있을까? 이때 머릿속으로 어떤 결과물이 나올지 상상할 수 없다면 창의적인 분석이 어렵다. - P164
데이터의 조합을 머리로 상상하지 못하면 실제로 코딩을 할 수도 없다. 상상한 대로 결과물이 나오지 않으면 나중에 수정할 수 있지만 처음부터 상상을 할 수 없다면 아예 다음 단계로 갈 수가 없다. - P165
전문용어를 쓰자면 엑셀에서 피벗* 기능을 쓸 수 없는 사람이 코딩을 하면서 분석할 가능성은 거의 없다. 먼저 엑셀로 시트간 조합**이나 피벗 등의 원리를 이해해보는 것이 좋다. 엑셀에 있는 표로 상상하기 어렵다면 코딩을 배우기 어려울 수도 있다. - P165
pivot : 데이터를 좀 더 쉽게 분석하도록 요약하는 기능. 행렬 재배치와 연산 등을 할 수 있다. - P165
vlookup : 엑셀에서 특정 값을 찾고 계산하거나 대치할 수 있게 해주는 함수. - P165
상상한 결과물을 만들기 위한 재료는 당연히 데이터다. 날것 상태인 로데이터(raw data)는 정말 작은 단위의 데이터이기 때문에 어떻게 분석하느냐에 따라 같은 데이터로도 수천수만 가지 분석을 할 수 있다. 그 작은 단위의 데이터를 어떻게 조합할지 구체화하기 위해서는 논리적인 사고 단계가 반드시 필요하다. - P165
raw data : 수집한 원래 자료, 즉, 전환이나 가공되기 전 최초의 형태를 지닌 자료. - P165
단계적으로 생각할 줄 알아야 한다 - P166
코딩의 기본은 논리력이다. 단 한 글자, 단 한 줄만 잘못돼도 원하는 결과를 얻지 못할 수도 있다. 남이 작성한 쿼리를 가져다 쓸 때도 자신이 원하는 방법으로 수정해야 하는 경우도 있고, 스스로 수백 수천 줄의 쿼리를 논리적인 단계에 따라 한 줄 한 줄 정성껏 작성해야 하는 경우도 많다. - P166
분자 단위가 어떻게 물질이 될 수 있는지 상상할 수 없는 사람은 스스로 코딩을 하고 쿼리를 작성할 수 없을 가능성이 높다. 낱개의 블록을 이렇게 쌓으면 이런 모양이 나오고, 저렇게 쌓으면 저런 모양이 나온다는 것을 상상할 수 있어야 하나하나 흩어져 있는 데이터를 모아 결과물을 만들 수 있다. - P166
머리로 상상한 것을 가장 빠르게 구체화하는 방법은 바로 상상한 그 사람이 손을 움직여 결과물을 내고 확인하는 것이다. 남에게 시키면 그만큼 기다리는 시간이 필요하고 자신이 원하는 그대로 나오지 않을 가능성도 있다. 시간 지연 없이 자신의 머릿속에 떠오른 것을 확인할 수 있으면 그만큼 더 빨리, 더 나은 결과물을 얻을 수 있다. - P167
자신의 손으로 직접 결과물을 만들어내고 싶다는 동기부여가 있는 사람이 기술을 배울 확률이 높다. 혹은 높은 수준의 기술을 갖지 않더라도 남이 작성한 쿼리를 보고 응용할 수 있을 정도의 학습 의지를 가져야 한다. 자신이 직접 통계적으로 가치있는 쿼리를 작성하고 인사이트를 찾고 모델링을 하고 싶다는 생각을 해야만 데이터 사이언티스트가 될 수 있다. - P167
자신의 경험과 장점을 바탕으로 데이터 프로젝트의 목적을 달성하기 위한 모든 역량을 동원할 수 있는 전문가가 되어야 한다. - P168
학업이나 조직 경험을 통해 집중적으로 얻는 역량들이 있다. 그 모든 경험들이 나중에는 균형을 이루게 된다. - P169
해보는 것만큼 중요한 것은 없다. 한 일에 대한 후회보다 하지 않은 일에 대한 후회가 훨씬 더 오래 간다. 그러니 데이터 사이언티스트가 궁금한 사람이라면 이 책을 읽는 데서 그치지 말고 데이터를 분석해보는 일을 꼭 직접 해보길 바란다. - P175
상상만으로 고민하지 않길 바란다. 딱 10시간만이라도, 엑셀로라도 분석 과정을 경험해보길 바란다. 직업을 선택하는 것은 향후 몇 년 혹은 남은 미래 전체가 걸린 결정을 하는 일이니 신중해야 한다. - P175
데이터 사이언티스트가 되든 되지 않든, 자신이 좋아하는 일을 하길 바란다. 이런저런 이유와 팍팍한 인생 탓에 좋아하는 직업을 갖지 못했다면 현재 직업에서 자신이 좋아하는 지점을 찾아내면 좋겠다. 뭔가를 정리하는 것을 좋아하는 사람인지, 결과물을 만들고 이름을 알리는 데서 희열을 느끼는지, 매일 반복적인 일을 할 때 마음의 안정을 느끼는지 등 분명 자신만이 좋아하는 부분이 있을 것이다. - P175
나를 설명할 수 있는 나만의 키워드를 찾아냈다. - P176
|