데이터관련 분야에서 다양한 경험을 한 저자를 통해 데이터의 본질과 그 속성에 대해 알아보는 시간이 되길 기대해본다.
.
.
.
이 책은 일반적인 다른 책들의 구성과는 조금 다르게 맨 앞부분에서 본문에 나오는 핵심 메시지들을 요약해서 보여주고 시작한다. 이러한 구성 덕분인지는 몰라도 개인적으로는 본문에 들어갔을 때 접하는 내용들이 좀 더 익숙하게 느껴졌다.

맨 처음 본문에 나오는 내용은 데이터 분석의 목적이 무엇이냐에 따라 필요한 정보들이 각각 다르다는 것이었다. 저자는 데이터 분석의 목적을 크게 4가지 정도로 나눠서 독자들에게 말해주는데 단순히 목적에 따른 역할 뿐만 아니라 그 목적을 이루기 위해 필요한 역량들이 무엇인지 까지도 간단명료하게 알려주어서 독자들이 자신의 목적에 맞게 그러한 역량들을 준비하는데 조금이나마 도움이 될 수 있을 듯하다.

이어지는 내용에서는 데이터를 측정하는 것의 궁극적인 목적에 대해 생각해볼 수 있었다. 우리가 데이터를 측정하고 분석하는 것은 단순히 그 행위자체가 목적이라기보다는 그 측정한 데이터에 기반하여 우리가 해결하고자하는 문제를 해결하는데 도움을 받기 위함이다.

이러한 데이터 분석의 궁극적인 목적은 사회과학 분야의 마케팅 뿐만아니라 자연과학분야의 실험에서도 동일하게 적용된다. 궁극적으로 해결하고자 하는 문제를 최대한 잘 풀어내기 위해서는 측정하려는 데이터의 속성이 문제해결에 목적적합해야 함은 물론이고 그 측정값 또한 가급적 정확해야 한다.

오늘 포스팅은 이 정도로 하고 다음 포스팅에서 이와 관련된 내용을 좀 더 다뤄보도록 하겠다.

데이터를 세상에 있는 존재, 일어난 사건, 어떤 순간의 상태, 사람의 주관에 따라 달라지지 않도록 해석을 고정하려고 애쓴 정보라고 정의할 때, 결국 데이터는 세상에 관한 것이므로 데이터 과학자는 세상에 대한 이해를 갖추어야 한다. - P2

어려운 내용을 어려운 언어로 말하기는 쉬울지 모르지만, 어려운 내용을 쉬운 언어로 풀어쓰는 것은 전체를 조망하는 혜안과 긴 시간에 쌓인 내공을 필요로 한다. - P2

가장 중요한 것은 도구가 아니라 도구를 선택하는 능력이며, 이는 그 무엇도 넘볼 수 없는 인간의 영역이다. - P3

내가 하는 일에 있어서 데이터의 역할을 정의하자. 즉, 데이터와 관련해서 나의 롤이 무엇인지를 알아야 데이터에 관한 공부의 목적성이 분명해진다. - P10

내가 데이터 수집 전문가인지, 수집된 데이터를 갖고서 분석을 하는 전문가인지, 마케터로서 분석된 데이터를 갖고서업무에 활용하려는 사람인지 이를 분명히 할 때, 데이터 사이언스와 관련해서 무엇을 알아야 하고, 무엇을 주의해야 하는지가 결정된다. - P10

빅데이터든 스몰데이터든 얼마나 양질의 정제된 데이터를 갖고서 분석하느냐가 더 좋은 결과를 담보한다. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 더 낫다. - P11

분석만큼이나 중요한 것이 데이터의 수집이다. 수집이 잘못되면 아무리 좋은 기술을 갖고서 뛰어난 대가가 와서 분석한다 하더라도 그 결과는 쓸모가 없어진다. - P11

데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실이 아니라 진실에 가까운 추정치일 뿐이다. 그래서 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다. - P12

문제의 본질을 이해하고, 데이터 분석 여부와 분석 방법 등을 아는 것이 중요하다. 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 중요한 능력이다. - P12

데이터 분석이 어려운 항목은 대체 지표를 개발해서 분석을 할 때가 있다. 학습 능력을 측정하기 위해 대체 지표로 시험 성적을 활용하는 것과 같은 원리이다. 하지만 시험 성적이 학습 능력을 100% 반영한 진실이라고 말하기 어려운 것처럼 이 또한 완벽할 수 없다. 그래서 데이터 사이언스가 만병통치약이라는 생각은 관둬야 한다. 의사결정을 돕는 도구일 뿐이다는 사실을 잊어서는 안 된다. - P12

데이터 분석을 할 때 자주하는 실수 중 하나가 ‘나의 데이터‘ ‘남의 데이터‘를 구분하지 못하는 것이다. 어떤 문제를 해결하고자 온갖 데이터(결과적으로 빅데이터)를 갖고 오다 보니 문제 해결에 전혀 상관없는 ‘남의 데이터‘가 마치 ‘나의 데이터‘처럼 취급될 때가 있다. 쓰지 않아도 될 시간과 비용을 지출하는 것이다. - P13

‘나의 데이터‘인지, ‘남의 데이터‘인지를 잘 구분하기 위해서는 해결하고자 하는 문제의 정의를 잘 내려야 하고 문제 안의 변수들 사이의 관계 파악도 잘해야 한다. 결국 비즈니스 경험에 바탕을 둔 판단이 중요하다. - P13

분석 결과가 만능일 수는 없다. - P13

가능성의 오차 범위 - P13

확률이란 ‘예측‘이 아니라 ‘관리‘의 의미가 있다. ...(중략)... 확률에 따라 자원을 어떻게 효율적으로 운영하느냐이다. - P14

데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다. - P14

데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계를 알려주는 것이지, 인과관계를 알려주는 것은 아니다. - P14

데이터 분석에만 치중하다 보면, 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. - P14

통찰은 결국 비즈니스 경험에서 나온다. 그리고 통찰이라는 것 역시도 조건과 경험에 따라 내용은 달라진다. 절대 진리는 없다. - P14

데이터 리터러시는 "데이터를 읽을 줄 아는 능력"을 의미한다. 일상에서 만나는 무수한 문제들에 우리는 감정적 판단을 하는 경우가 많은데, 이는 데이터 리터러시가 부족해서 그렇다. - P15

리터러시 역량을 키우는 방법은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것이다. - P15

필요한 것은 세상을 이해하고, 상황을 이해하고, 맥락을 유추하는 과학적 사고를 포함한 인문학(리버럴 아트)적 능력을 갖추는 것이다. - P15

기술의 진보는 생각 이상으로 빠르다. 지금 우리가 말하는 빅데이터는 향후 몇 년 뒤에는 스몰 데이터 수준이 될 수도있다. 그러니 빅데이터를 만능이라고 생각해서는 안 된다. - P15

데이터를 학습한 인공지능이 내놓는 답이 반드시 진리라는 보장은 없다. 이 말은 집단 지성이 언제나 진리는 아니라는 말과 같다. 지금의 여러 데이터가 편향된 것이라면 인공지능이 내놓는 답 또한 편향적일 수밖에 없다. - P15

인공지능은 주어진 데이터의 학습을 통해 결과를 도출하는 알고리즘일 뿐이다. - P15

데이터 분석 모델링(시스템 설계)을 할 때는 필요로 하는 데이터가 무엇인지 알아야 하고, 측정하기 쉬운 데이터를 선택해야 한다. - P16

시스템 설계의 핵심은 시간을 줄이고, 비용을 줄이고, 품질을 높이는 것이다. 다만, 이 셋을 동시에 해결하려다 보면 추후 결과 값 분석에서 무엇이 원인이었는지 가리지 못할 수 있다. 그래서 동시보다 하나씩 해결하는 것이 현명하다. - P16

무조건 데이터 사이언스 기법만이 문제 해결을 할 수 있는 것은 아니다. - P16

데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자. - P16

분석 이전의 문제의 본질을 봐야 - P17

기술에만 빠져서 문제의 본질 읽기를 놓치는 일이 없어야 한다. - P17

문제의 본질을 읽는 것. 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력. 그것이 곧 인문학(리버럴 아트)적 능력이다. - P17

데이터 분석을 배우고자 할 때 가장 먼저 해야 하는 일은 데이터 사이언스를 공부하고자 하는 이유가 어떤 상황 때문인지를(어떤 필요가 있는지)파악하는 것부터다. 왜냐면 공부하고자 하는 분들의 데이터 사이언스의 목적에 따라 필요로 하는 요소들(분야나 익혀야 할 기술)이 달라지기 때문이다. - P25

데이터로 문제를 해결해야만 하는 사람

데이터로만 문제 해결이 가능한 분야와 이를 해결하려는 사람을 말한다. 즉, 데이터 분석을 해야만 문제가 풀리는 경우이다. 국가의 인구나 주식, 경상수지 같은 각종 경제 지표를 수집하고 분석하는 통계청이라든가, 실험을 통해 얻은 데이터를 분석하여 물질의 성질을 정의하는 실험 물리학자들 같은 경우가 대표적이다. 이 부류에 있는 분들의 1차 목적은 "분석 그 자체"이다. - P27

데이터 사이언스를 다루는 이들 사이에서 자주 회자되는 속담(?)이 "Garbage In, Garbage Out" 이다. 아무리 분석 방법을 잘 알고 분석 실력도 출중하더라도 분석 데이터의 질이 좋지 않으면, 좋은 분석이 나올 수 없다는 뜻이다. 그래서 분석 실력만큼 중요한 것이 데이터의 가치를 판단하는 능력이다. 이를 위해서는 분석하려는 분야에 대한 전문성이 필요하고 기초적인 통계 지식을 갖추는 것이 중요하다. 그리고 어느정도의 통계 패키지(분석 프로그램) 사용 능력까지도 갖고 있다면 금상첨화이다. - P28

데이터로 문제 해결을 해야 하는 사람 입장에서는 어떤 통계 패키지를 사용하느냐는 크게 중요하지 않다. R(통계 계산과 그래픽을 위한 프로그래밍 언어로 오픈 소스이며 무료로 사용 가능)도 괜찮고, 누구나 쓸 줄 아는 엑셀도 괜찮다. 충분히 좋은 데이터를 모으고 이를 가공할 수 있는 익숙한 툴만 있다면 얼마든지 좋은 분석을 할 수 있다. 연장을 탓할 필요는 없다. - P28

데이터의 문제를 해결하는 사람은 이미 어떤 형태로든 데이터화 된 정보를 다루는 사람을 뜻한다. 이미 자료는 데이터 형태로 되어 있기 때문에 이들에게 데이터가 어디서 왔느냐는 중요한 문제가 아니다. 이들에게 중요한 것은 어떤 식으로 데이터를 구조화(DB화) 하느냐?"와 "어떻게 원하는 유효한 값들을 신속하게 계산할 것인가?" 이다. - P29

사실상, 이 영역(데이터의 문제를 해결하는 영역)은 데이터 과학의 영역이라기보다는 소프트웨어 개발자의 영역에 가깝다. 특히 데이터 분석을 다루는 범용 패키지나 커스터마이징 된 모듈을 다루는 분들이 이런 일을 한다. 그래서 이쪽 분야에서는 당연히 전산학computer Sciences 관련 기술을 필수적으로 본다. 여기에는 데이터베이스 Database, 분산 컴퓨팅 Distributed Computing, 데이터 마이닝 Data Mining과 같은 데이터 처리 관련 기술이 포함되어 있다. 이 기술들은 데이터를 현란하게 다룰 줄 아는 프로그래밍 기술(코딩 능력)이라고 봐도 무방하다. 이 분야도 마찬가지로 기본적인 통계 이론을 알면 좋다. 정리하면, 통계학적 이론과 이를 프로그래밍 할 수 있는 능력을 갖추고 있다면 최고 능력자로 대우받을 수 있다. - P29

데이터로 설득하려는 사람

(중략) 쉽게 이야기해 장사하려는 사람들이다. 즉, 사업을 하는 비즈니스맨이거나 마케팅 담당자가 여기에 해당한다.
기본적으로 데이터를 다룰 줄은 알지만 이들에게 중요한 것은 보여주는 것, 시각화visualization 능력이다. 보통 데이터의 시각화를 이야기하면, 연관 검색어 보여주기 혹은 시각화 기능이 뛰어난 R 같은 프로그래밍 언어를 생각하기 쉽지만, 이보다 범용적으로 쓰이는 용어는 인포그래픽스 Infographics이다. - P30

이분들(데이터로 설득하려는 사람)에게는 데이터가 의미하는 바를 정확하게 이해하는 보편적인 지식도 필요하겠지만, 정작 필요한 것은 예술적 감각이다. 한 때는 인포그래픽스나 데이터 시각화Data Visualization와 같은 용어가 빅데이터와 함께 주목을 많이 받았지만 산업디자인 쪽에서는 오래전부터 다뤄왔던 주제이다. 그래서 산업디자인 관련 지식을 갖고 있다면 큰 도움이 되고, 데이터를 갖고서 시각화하는 소프트웨어까지도 쓸 줄 안다면 능력자라봐도 된다. 참고로 엑셀도 괜찮은 데이터 시각화 도구 가운데 하나이다(엑셀은 정말 못하는 게 없다). - P30

데이터로 문제를 해결하려는 사람

(중략) 데이터를 다루는 전공자는 아니지만, 데이터 사이언스에 관심을 갖고서 이를 자신의 영역에 적극 사용하고자 하는 분들이다. 이분들은 데이터 사이언스 내지는 데이터 분석까지 자신의 영역에서 사용하고자 한다. 전산학이나 통계학이 아닌 분야에서 말하는 데이터 관련 이야기들은 모두 여기에 해당한다. - P32

이분들(데이터로 문제를 해결하려는 사람)에게 필요한 것은 데이터를 다루는 기술이나 통계학적 지식이 아니라 "문제의 본질을 파악하는 능력"이다. 여기서 문제란 데이터를 통해 밝히고자(풀고자) 하는 어떤 사안을 말하며, 이를 위해서는 통계적 가설을 설정하고 확인하는 것이 필요하다. 가설에 따라 수집해야 할 데이터가 결정되고, 이를 정리하고 분석하는 것이 문제해결의 과정에 해당한다. - P32

데이터 사이언스를 사용한다(혹은 학습한다)는 것은 데이터를 이용해 내가 일하는 분야에서 발생한 특정 문제를 해결하고자 하는 목적일 가능성이 높다. 이때 가장 중요한 것은 문제의 본질을 얼마나 제대로 파악하고 있는가이다. 문제의 본질은 데이터 사이언스를 통해 알려고 하는 것, 데이터 사이언스를 통해서 하려는 정확한 의사결정이 무엇인가 파악하는 것이다. 이를 어떻게 알고 있느냐에 따라 해야 하는 일(나아가 내가 해야 하는 공부)이 달라진다. 그것은 데이터의 속성을 파악하는 일이 될 수도 있고, 통계 처리가 될 수도 있고, 데이터 처리와 관련된 컴퓨터 기술 습득이 될 수도 있다. - P33

데이터 사이언스를 업으로 하는 이들 대부분은 "데이터로문제 해결을 ‘해야만‘ 하는 사람으로 퉁쳐서 말하지만, 사실상 대부분은 "데이터로 문제를 해결하려는 사람"에 해당한다. 즉, 우리가 접하는 대부분의 데이터 관련 문제들은 분석 자체가 목적이 아니라, 어떤 문제를 해결하기 위해 데이터를 이용한다 정도로 보아야 한다. - P34

이즈음 다시 고민해봐야 할 것이 "과연, 내가 갖고 있는 문제는 꼭 데이터로만 해결이 가능한가?" "이 문제를 해결하는데 데이터 사이언스가 반드시 필요한가?" 이다. 다시 한번 강조하지만, 데이터 분석이든 뭐든 시작하기에 앞서, 문제의 본질부터 파악하는 것이 첫 번째 단추라는 것을 잊지 말아야 한다. 그리고 반드시 위의 질문 "꼭 데이터로만 해결이 가능한가"를 되짚어 보아야 한다. - P34

데이터 분석의 목적은 크게 두 가지이다. 하나는 ‘분석(혹은 측정)‘ 자체가 목적인 경우, 또 하나는 데이터 분석을 기반으로 자신의 문제를 해결하는 것이 목적인 경우이다. - P35

수요 예측은 사실 예측을 하는 것 자체에 목적성이 있는 것이 아니라 이를 기반으로 공급망 운용을 효과적으로 하기 위한 것으로 봐야 한다. 그러면 수요 예측은 원래 문제를 풀기 위한 준비 작업에 해당한다. - P36

소셜 마케팅에서의 데이터 분석 또한 마찬가지다. 연관 검색어를 분석하고 사용자가 몇 번 클릭했는지 집계하는 이유는 데이터 분석으로 얻어진 정보를 바탕으로 마케팅에 활용하고자 함이다. 좀 더 직설적으로 말하자면 고객 확보가 원래의 목적이다. 즉, 데이터 분석 과정 자체가 목적이 아니라공적인 마케팅 전략 수립이 문제의 본질이다. 이러한 관점에서 생각해볼 문제는 어떻게 하면 소비자의 데이터를 잘 분석하느냐가 아니라 "소비자를 끌어들이기 위해서는 고객의 어떤 데이터를 어떤 식으로 수집해서 분석하는가?" 이다. - P36

어떤 식으로든 데이터를 수집하기 위해서는 읽을(측정) 수 있어야 한다. ...(중략)... 데이터 사이언스는 과학이나 공학실험에서 말하는 "측정"과도 깊은 연관성이 있다. - P36

대부분의 물리실험은 자연 현상을 측정하는 과정을 포함하는데, 실험에서 이러한 측정은 측정 자체가 목적인 것보다 원래 가지고 있던 문제 해결을 위한 선작업일 때가 훨씬 많다. 그래서 이쪽 연구를 하는 많은 공학도들은 어떻게 하면 정확한 측정값을 얻을 수 있을까를 고민한다. - P37


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo