"출구조사 결과 A 후보가 40%의 득표율로 당선이 예상됩니다. 이 출구 조사는 95%±2.5%의 신뢰도를 가집니다." 선거 때가 되면 어김없이 등장하는 멘트다. 이 말의 의미는 A 후보가 당선이 확실시된다는 의미가 아니라, 실제 당선되지 않은 결과를 포함하여 통계를 낼 경우는 92.5% (=95%-2.5%)의 가능성으로, 반대로 실제 당선된 결과를 포함하면 97.5%(=95%+2.5%)의 가능성으로 결과가 바뀌는 것을 의미한다. - P67
신뢰 수준이 99%±0.5%라면 어떤가? 이 선거에서 A후보가 당선된다고 볼 수 있는가? 대답은 역시 "아니오"이다. 여전히 A후보는 당선이 될 수도 그렇지 않을 수도 있다. 다만 당선이 되었을 경우의 신뢰 수준은 99.5%(=99%+0.5%)이고, 당선이 되지 않을 경우의 신뢰 수준은 98.5%(=99%~0.5%)로 좀 떨어진다는 것을 의미할 뿐이다. - P67
통계의 신뢰 수준은 샘플의 크기에 따라 결정된다. 다시 말해, 샘플의 크기가 작으면 통계값이 사실이더라도 믿을수가 없다. 그 이유는 오차 범위에 따른 변화폭이 너무 크기 때문이다. - P67
어떤 사건의 결과 여부는 그 다음 사건(즉, 미래)의 예측(혹은 분석)에 대한 오차 범위만을 결정할 뿐이라는 것이다. - P69
예측한 결과가 맞았으니, 우리의 데이터 분석이 맞다는 식의 논리는 틀렸다. 다시 한번 말하지만 데이터 분석(모델)의 타당성은 해당 사건(혹은 현상)이 실제로 일어났는지의 여부와는 전혀 상관이 없다. 전혀! - P70
분석이라고 하는 것은 데이터 사이에 어떤 관계가 있는지 파악하는 것 - P72
데이터 사이의 관계를 분석해주는 수학 이론이 바로 회귀분석 Regression Analysis이다. 회귀분석은 독립변수와 종속변수 사이의 관계를 추정하는 통계적 기법으로 이를 통해 데이터의 패턴을 이해하고 미랫값이나 결과를 예측하는 데 사용한다. - P72
제대로 된 분석을 위해서는 각 변수들에 대해 신뢰할 만한 그리고 분석에 필요한 충분한 데이터가 수집되어야 한다. - P73
데이터 분석을 시도하는 가장 큰 이유는 각 데이터 변수들(x, y 같은 것들)간의 관계를 알려고 하는 것이지만, 데이터 변수들 사이의 실질적인 관계가 1차 함수 꼴(선형적)인지, 2차 함수 꼴인지 혹은 그 이상의 함수 꼴인지를 알지 못하면 정확한 데이터 분석을 할 수 없다 ...(중략)... 이것이 바로 데이터 분석이 가지는 태생적 한계다. - P75
데이터 분석만으로 현상을 보다 보면, 어이없는 결론에 도달하는 경우가 생각보다 많다. - P75
데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계correlation를 알려주는 것이지, 인과관계 Causality를 알려주는 것은 아니라는 사실 - P78
데이터만으로는 변수들 사이의 인과관계를 분석할 수 없다. - P78
데이터 분석이 이러한 한계를 갖게 된 데에는 선형성과도 관계가 있다. 변수들의 관계에서 선형성이 보장될 경우 그에 대한 역함수가 항상 존재한다. 이를 수식으로 표현하면, y = f(x)의 관계가 성립하면 x = g(y)를 만족하는 함수도 존재한다는 것이 된다. - P78
데이터 과학자들이 흔히 사용하는 데이터 분석은 이러한 선형성을 전제하고 동작한다. 하지만 실제 자연 현상이나 사회현상은 이러한 선형성을 가지지 않는 경우가 훨씬 많다. - P78
올바른 데이터 분석을 위해서는 변수 사이의 관계를 분석하지 않고서도 상식처럼 알 수 있는 포인트는 놓쳐서 안 된다. - P78
변수들 사이의 관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다 - P79
데이터들 사이의 인과성을 증명하기 위해서는 기본적으로 수학, 물리학에 대한 지속적인 훈련을 필요로 한다. 왜냐하면, 어떤 현상에 대한 인과관계를 분석하는 데 있어서, 인간의 "말빨"(치킨 판매량과 야구 경기력을 빅데이터 어쩌고저쩌고 하면서 기사를 써낸 기자의 말발)이 아닌 "수학적 언어로 묘사(물리)하고, 풀어가는(수학) 훈련"이 중요하기 때문이다. - P79
수학은 자연 현상의 문제를 풀어내는 도구이기도 하지만, 세상의 모든 현상을 설명해주는 언어이기도 하다. 누군가는 영어(혹은 국어)로 자신의 이야기를 풀어가듯, 많은 과학자들은 수학을 이용해 자신이 하고자 하는 이야기를 풀어간다. - P80
집합과 명제는 수Number가 아닌 어떤 것Something을 수학적으로 표현하는 가장 중요한 도구인 동시에 누군가의 논리를 객관적으로 판단하는 가장 유용한 도구이다. - P80
절대적인 명제에서 값이 바뀌는 것은 "(기본 혹은 최초) 전제가 바뀌는" 경우 밖에 없다. - P83
집합 사이의 관계로 인해, 빅데이터(A)는 데이터 사이언스(B)의 한계를 넘어설 수 없고, 데이터 사이언스는 통계학(C)의 한계를 넘어설 수 없으며, 통계학은 수학(D)의 한계를 "절대로" 넘어설 수 없다 - P84
(수학 대비) 통계학이 가지는 가장 기본적인 한계는 바로 데이터의 추출(샘플링)이다. 이러한 데이터 추출은 데이터 사이언스의 측정과도 연결된다. 통계학을 적용하려면 어떤 식으로든 데이터가 추출(혹은 측정)되어 수치 형태로 저장이 되어야 한다. 아무리 화려한 통계 기법이 있다 하더라도 데이터를 추출할 수 없다면 통계학 적용이 어렵다. 그리고 이러한 통계학의 한계는 데이터 사이언스(B)에도 심지어 빅데이터(A)에도 그대로 적용된다. 즉, 아무리 데이터의 양이 많아지고 현란한 분석 기법이 개발된다 하더라도 측정을 하지 못한다면 아무것도 할 수 없다는 뜻이 된다. 이러한 집합들 사이의 관계는 데이터의 속성과 그 속성에 따라 결정되는 한계로 그대로 이어진다. - P85
세상에 일어나는 많은(사실상 거의 대부분) 현상에 대한 성찰이나 통찰은 "절대적"이라기 보다는 조건에 따라 바뀌는 경우가 훨씬 많다. 특히, 수학이나 과학으로 간략화하기 힘든 사회라든가 문화라든가 신념이라든가 철학 같은 경우에는 전제조건에 따라 성찰이나 통찰이 바뀔 가능성이 매우 높다. - P85
"서는 곳(조건)이 바뀌면 풍경이 바뀐다" - P86
하지만 중요한 것은 조건과 관계없이 절대적으로 맞거나(참) 절대적으로 틀린(거짓) 명제도 존재한다는 것이다. - P86
대부분의 명제들은 조건에 의해 답이 달라질 수 있다. - P86
데이터 사이언스(혹은 데이터 분석)를 하는 목적 가운데 하나가 데이터를 이용하여 어떠한 주장을 하고자 함에 있다. 데이터를 이용한 주장에서 반드시 참인 사실(혹은 명제 혹은 분석)을 두고 이를 거짓이라고 하는 명제 또한 참이라고 주장한다면, 이는 데이터를 얼마나 화려하게 분석했는지와는 관계없이 무조건 잘못된 분석이 된다. - P88
또 한 가지 중요한 점은 어떤 이가 데이터를 이용한 주장을 한다고 했을 때, 반박 논리에 반드시 데이터 분석이 필요하다는 것은 아니라는 것이다. ...(중략)... (명제가) 반드시 참인 경우 혹은 반드시 거짓인 경우라면, 데이터의 진실성 여부와는 상관이 없게 된다. - P89
논리적으로 반드시 참(혹은 반드시 거짓)이 된다면 그걸로 수학적인 증명이 끝난 거다. 아무리 데이터 분석을 한다고 해도 더 이상 새로운 결과를 얻을 수는 없다. 그리고 이에 대한 반박은 아무리 데이터 사이언스 할아버지가 와도 절대 반박이 불가능하다. 아무리 데이터 사이언스가 날고 기어도 그 기본 전제인 수학의 테두리를 벗어날 수 없다. 그러니 우리가 무엇을 문제로 정의할 것인지, 그리고 무엇을 분석할 것인지 고민할때는 이 같은 절대 진리를 위배하는 것은 아닌지 잘 따져보는 혜안이 필요하다. 단순히 분석 기술을 잘 아는 것과는 다르다. - P89
빅데이터는 아무리 큰 데이터라 하더라도 데이터라는 모집합Superset에 속한 부분 집합Subset일 뿐이다. - P93
빅데이터는 데이터 사이언스나 전산학 혹은 통계학을 하는 입장에서 컴퓨터로도 다루기 까다로운 큰 데이터일 뿐이지 그 이상의 어떤 대단한 무엇도 아니다(빅데이터가 마치 모든 걸 해결해줄것인냥 생각할 필요가 없다). - P94
빅데이터의 가장 쉬운 정의는 현재 자신의)컴퓨팅 파워로 연산하는데 어려운 사이즈나 복잡도를 가지는 데이터를 의미한다. - P94
현재 시대에서 빅데이터로 분류되는 크기의 데이터들도 10년 뒤가 되면 일반 데이터로 분류될 수 있다 - P95
빅데이터는 현재의 컴퓨터 성능으로 다루기에 까다로운 큰 데이터일 뿐이다. 그리고 그 기준 또한 세월에 따라 변한다. 지금의 빅데이터가 불과 몇 년 뒤에는 그냥 개인 PC에서 처리 가능한 수준의 그렇고 그런 데이터가 될 수도 있다. - P96
논쟁에서 데이터가 조작되었다고 논리를 펴기 시작하면, 상대방 또한 같은 논리로 방어를 하기 때문에 오류라고 인정될 만한 결정적인 증거를 제시하지 못한다면 논쟁은 절대 끝이 나질 않는다. 그래서 웬만해서는 데이터를 두고 논쟁하는 일은 하지 않는 편이 낫다. - P98
데이터를 가지고서 논쟁한다고 할 때, 남이 가져온 데이터가 조작된 것처럼 보인다면 필시 내가 가져온 데이터도 문제가 있다고 인정해야 한다 (중략) 이를 좀 유식한 표현으로 비례적 등가Proportionally Equal라고 한다. 논쟁의 근거가 되는 상대의 데이터가 조작되었다고 말하려면, 내 데이터 또한 조작되었다고 말해야 하고, 내 데이터가 신빙성이 있다(조작되지 않았다)라고 주장하려면, 남이 제시한 데이터 또한 신빙성이 있다고 봐야 한다는 것을 뜻한다(데이터 사이언스적 관점에서도 훨씬 이치에 맞는 일이다). - P99
내가 얻은 데이터가 아무리 높은 신뢰성을 가진다고 해서, 모든 데이터가 진실을 의미하지는 않는다 - P99
수집된 모든 데이터가 의미가 있는 것이 아닐뿐더러 수집된 데이터가 진실을 밝히는데 충분하다고 장담할 수도 없다. - P99
데이터에 근거한 어떤 주장(논쟁)을 할 때는 어느 누구라도(어떤 경우에서도) 데이터의 신빙성에 대한 문제에서 자유로울 수 없다. 이는 나 뿐만 아니라 제 3자(경쟁사든)의 누구에게라도 동일하게 적용된다. 데이터 지상주의나 데이터만이 모든 것을 다 말해줄 거라는 환상에 빠져서는 안 되는 이유이다(특히 내가 수집한 데이터에 있어서는 더더욱). - P99
"데이터는 주장이나 사실을 객관적으로 뒷받침할 수 없다." 이 같은 주장을 하는 것에는 여러 가지 이유가 있을 수 있지만 가장 크게는 데이터 수집에 한계가 존재하기 때문이다. 데이터 수집에서의 한계는 무엇보다 모집단의 수가 크면 클수록 전체를 대상으로 하는 것이 사실상 불가능하다는 것을의미한다. - P101
표본 추출sampling (중략) 모집단을 대표할 수 있다고 생각되는 표본을 추출하고 그 데이터를 이용해 통계 지표를 구하는 방법 - P101
샘플링 기법은 상당히 유용하지만 추가적인 문제를 일으키는데, 바로 "데이터 수집의 객관성"이다. 이는 데이터 자체의 객관성과는 별개의 문제다. 즉, 데이터 자체의 객관성‘은 "데이터를 조작하지 않는다"는 것을 의미하고, ‘데이터 수집의 객관성‘은 "샘플링 데이터가 객관적이다"를 의미한다. - P101
자신의 주장이 혹은 어떤 사실이 맞다는 것을 뒷받침하려고 데이터를 조작하는 경우, 이는 엄연한 범죄 행위가 되며 조작 사실이 발각되었을 때 사람들로부터 엄청난 반감을 사게된다. 하지만 표본 추출을 객관화하지 않는 것에 대해서는 사람들이 크게 의식하지 않는다. 사람들은 데이터 조작보다 표본의 객관화에 대해서 훨씬 관대하다. - P102
통계를 전공해본 사람이라면 알겠지만 (중략) 미래 예측과 모집단 분석은 빅데이터가 아니라 빅빅빅빅데이터가 있다 하더라도 실현 불가능하다. 지금도 불가능하고, 앞으로도 불가능한 꿈일 뿐이다. - P103
치약의 주성분에 속하는 불소는 기체화(혹은 분자화)해서 흡입할 경우 아주 극소량이라도 사람을 죽게 (한다) - P106
데이터가 거짓 없이 사실을 기반으로 객관적으로 수집되었다 하더라도 말하는 사람에 따라 혹은 듣는 사람의 타성(이라 쓰고 "느낌"이라 읽는다)에 따라 그 해석은 얼마든지 달라질 수 있다. 이는 데이터 자체의 문제라기보다는 데이터를 사용하고 받아들이는 사람의 감성의 문제이다. - P106
요즘 세상은 감성을 중요시하고, 인문학적 소양을 강조한다. 다만 필자의 관점에서 봤을 땐, 세상을 올바르게 이해하는데 있어서 논리적으로 세상을 바라보는 능력(물리학적 소양)과 그렇게 바라본 세상을 논리에 맞게 풀어가는 능력(수학적 소양)(이 둘을 합쳐서 "과학적 소양"이라 칭하기도 한다) 또한 중요하다. 그래서 이러한 과학적 소양이 빠진 인문학은 진짜 인문학이 아니며 이런 사회는 구성원 스스로를 합리적이고 똑똑한 존재인양 착각하게 만든다. - P107
우리가 빅데이터에 열광하는 이유는 아마도 많은 양의 데이터를 통해서 시장을 예측하고, 경제를 예측하고, 소비자의 성향을 예측해서 더 정확한 미래 전략을 구축할 수 있다는 믿음 때문일 것이다. 그리고 어떤 이슈에 대한 인과관계를 데이터를 이용해 찾아낼 수 있다고 생각하기 때문이다. - P108
빅데이터를 제대로 사용하려면 데이터 과학에 대한 기본 지식(통계학, 컴퓨터과학, 과학적 소양, 물리학적 소양 등)을 갖고 있어야 한다. 그렇지 않을 경우, 빅데이터는 단순히 허공에 울리는 메아리에 지나지 않는다. - P109
데이터 과학은 데이터를 다루는 학문이다. 이러한 정량화(혹은 수치화)된 데이터를 분석하는데 사용되는 학문이 바로 통계학statistics이다. 따라서 데이터 과학에서 사용하는 기법이 아무리 바뀌어도, 사용되는 분석 기법들은 통계학의 특성을 벗어날 수 없다. - P109
|