약 2달 전에도 큰 선거가 하나 있었고, 그 이전에도 크고 작은 선거들이 있었다. 보통 이런 선거들이 있을 때마다 여러 방송사에서 출구조사 결과를 바탕으로 각 후보들의 당선 확률을 예측하는 방송들을 많이 하곤 한다. 그 방송들을 보다보면 종종 듣게 되는 고정멘트 중 하나로 ˝신뢰수준은 95%±2.5% 입니다˝ 같은 것이 나온다.

오늘 읽기 시작한 부분에서는 이 멘트의 실질적인 의미가 무엇인지를 보다 정확히 알 수 있었다. 독자인 내가 이해한 바에 따르면 여기 나오는 신뢰수준이라는 것은 통계 분석 모델 자체의 정확도를 나타내는 것이다. 이는 실제로 특정 후보가 당선될 확률과는 완전히 별개의 문제다.

다만 위에 나오는 ± 2.5%라는 것이 의미하는 것은 표본 통계상으로 당선될 것으로 예측한 후보가 실제로 당선 되었을 땐 +2.5%만큼 분석 모델의 정확도가 올라가지만, 그 반대의 경우 즉 표본 통계상 당선될 것으로 예측되었던 후보가 실제로는 낙선할 경우 -2.5%만큼 분석 모델의 정확도가 낮아진다는 말이다.

솔직히 오늘 이 본문을 읽기 전까지는 신뢰수준이 무엇을 의미하는지를 정확히 몰랐었는데, 오늘 독서를 통해 조금이나마 그 의미를 정확히 알게 된 것 같다. 향후에 있을 선거 개표 방송들을 볼 때는 거기에 나오는 데이터들을 좀 더 제대로 해석할 수 있을 것 같다. 또한 비단 선거 개표 방송 뿐만아니라 통계분석이 들어가는 다른 어떤 데이터들을 볼 때도 그것이 의미하는 바를 좀 더 잘 아는데 도움이 될 듯하다.
.
.
.
뒤이어 나오는 내용에서 개인적으로 뇌리에 박혔던 것 중 하나는 바로 데이터와 관련된 분야의 집합 구조에 대한 것이었다. 밑줄도 치긴 했지만 정리 차원에서 내가 이해한 방식대로 다시 한 번 적어보자면 빅데이터는 데이터 사이언스의 부분집합이고, 데이터 사이언스는 통계학의 부분집합이고, 통계학은 수학의 부분집합이라는 것이다.

내가 부분집합이라고 표현한 개념을 저자는 본문에서 ‘한계를 넘어설 수 없다‘는 말로 표현하는데, 이것은 궁극적으로는 논리구조와 관련이 있다. 보다 상위 개념에서 논리적인 비약과 같은 한계가 있다면 작은 범위 안에서는 아무리 논리적으로 맞는 것처럼 보이더라도 넓은 범위로 놓고 보면 어처구니 없는 결론이 나올 수도 있다는 말이다.

이러한 가능성 때문에 저자는 데이터 분석이 가지는 한계를 명확히 인식하고 가능하다면 데이터 분석 없이도 논리적인 판단을 할 수 있는 통찰력을 갖추는 게 보다 더 중요하다고 말한다. 물론 데이터 분석이라는 도구는 통찰력과 같은 것이 있다는 전제하에 세부적인 분석으로 들어가서 활용될 때 그 힘을 발휘할 수 있겠지만 이런 것은 2차적인 문제일 뿐 결국 기본적인 논리적 사고와 같은 본질적인 것들을 절대로 잊어서는 안된다는 게 저자의 생각인 듯하다.


그리고 여기 별도로 자세히 밑줄치진 않았지만 본문에서는 기본적인 논리적 사고의 중요성을 독자들에게 납득시키기 위한 몇 가지 사례들이 등장한다. 모기의 개체 수와 모기약 판매량간의 관계 그리고 야구장 치킨 판매량과 팀 성적간의 관계 등이 나오는데, 사례를 통해 독자인 내가 느낀 핵심은 바로 상관관계와 인과관계를 헷갈리지 말아야 한다는 것이었다. 어떤 두 변수 간의 추세에 비례 또는 반비례 관계가 있다는 것은 상관관계가 있을 수는 있어도 인과관계가 있다고 까지는 단정적으로 말할 수 없다는 것이다. 저자는 이것을 우리가 보통 고등학교 1학년 때 배우는 명제라는 개념에 대입하여 독자들에게 설명해주는데, 어떤 복잡한 수식이 없어도 3단 논법 같은 기본적인 논리에 근거하여 어떤 결론을 도출하고 그것들을 응용하는 모습을 보면서 데이터 분석도 결국 기본적인 논리가 밑바탕에 깔려있지 않다면 그저 아무런 의미없는 숫자놀음에 불과할 수도 있겠다는 결론에 이를 수 있었다.

오늘 느낀 것을 나만의 문장으로 정리해보면 다음과 같다. 실제로는 어떤 그림의 일부분을 그리고 있을지라도 언제나 큰 그림을 생각하면서 그림을 그려야 좋은 그림을 그릴 수 있다는 것이다. 마치 드론 카메라가 하늘 위에서 지상을 전체적으로 내려다보며 조망하는 것처럼 우리들도 각자의 영역에서 그런 넓은 시야를 가지고 움직이는 사람이 되는 게 바람직하지 않을까 싶다.

"출구조사 결과 A 후보가 40%의 득표율로 당선이 예상됩니다. 이 출구 조사는 95%±2.5%의 신뢰도를 가집니다." 선거 때가 되면 어김없이 등장하는 멘트다. 이 말의 의미는 A 후보가 당선이 확실시된다는 의미가 아니라, 실제 당선되지 않은 결과를 포함하여 통계를 낼 경우는 92.5% (=95%-2.5%)의 가능성으로, 반대로 실제 당선된 결과를 포함하면 97.5%(=95%+2.5%)의 가능성으로 결과가 바뀌는 것을 의미한다. - P67

신뢰 수준이 99%±0.5%라면 어떤가? 이 선거에서 A후보가 당선된다고 볼 수 있는가? 대답은 역시 "아니오"이다. 여전히 A후보는 당선이 될 수도 그렇지 않을 수도 있다. 다만 당선이 되었을 경우의 신뢰 수준은 99.5%(=99%+0.5%)이고, 당선이 되지 않을 경우의 신뢰 수준은 98.5%(=99%~0.5%)로 좀 떨어진다는 것을 의미할 뿐이다. - P67

통계의 신뢰 수준은 샘플의 크기에 따라 결정된다. 다시 말해, 샘플의 크기가 작으면 통계값이 사실이더라도 믿을수가 없다. 그 이유는 오차 범위에 따른 변화폭이 너무 크기 때문이다. - P67

어떤 사건의 결과 여부는 그 다음 사건(즉, 미래)의 예측(혹은 분석)에 대한 오차 범위만을 결정할 뿐이라는 것이다. - P69

예측한 결과가 맞았으니, 우리의 데이터 분석이 맞다는 식의 논리는 틀렸다. 다시 한번 말하지만 데이터 분석(모델)의 타당성은 해당 사건(혹은 현상)이 실제로 일어났는지의 여부와는 전혀 상관이 없다. 전혀! - P70

분석이라고 하는 것은 데이터 사이에 어떤 관계가 있는지 파악하는 것 - P72

데이터 사이의 관계를 분석해주는 수학 이론이 바로 회귀분석 Regression Analysis이다. 회귀분석은 독립변수와 종속변수 사이의 관계를 추정하는 통계적 기법으로 이를 통해 데이터의 패턴을 이해하고 미랫값이나 결과를 예측하는 데 사용한다. - P72

제대로 된 분석을 위해서는 각 변수들에 대해 신뢰할 만한 그리고 분석에 필요한 충분한 데이터가 수집되어야 한다. - P73

데이터 분석을 시도하는 가장 큰 이유는 각 데이터 변수들(x, y 같은 것들)간의 관계를 알려고 하는 것이지만, 데이터 변수들 사이의 실질적인 관계가 1차 함수 꼴(선형적)인지, 2차 함수 꼴인지 혹은 그 이상의 함수 꼴인지를 알지 못하면 정확한 데이터 분석을 할 수 없다 ...(중략)... 이것이 바로 데이터 분석이 가지는 태생적 한계다. - P75

데이터 분석만으로 현상을 보다 보면, 어이없는 결론에 도달하는 경우가 생각보다 많다. - P75

데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계correlation를 알려주는 것이지, 인과관계 Causality를 알려주는 것은 아니라는 사실 - P78

데이터만으로는 변수들 사이의 인과관계를 분석할 수 없다. - P78

데이터 분석이 이러한 한계를 갖게 된 데에는 선형성과도 관계가 있다. 변수들의 관계에서 선형성이 보장될 경우 그에 대한 역함수가 항상 존재한다. 이를 수식으로 표현하면, y = f(x)의 관계가 성립하면 x = g(y)를 만족하는 함수도 존재한다는 것이 된다. - P78

데이터 과학자들이 흔히 사용하는 데이터 분석은 이러한 선형성을 전제하고 동작한다. 하지만 실제 자연 현상이나 사회현상은 이러한 선형성을 가지지 않는 경우가 훨씬 많다. - P78

올바른 데이터 분석을 위해서는 변수 사이의 관계를 분석하지 않고서도 상식처럼 알 수 있는 포인트는 놓쳐서 안 된다. - P78

변수들 사이의 관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다 - P79

데이터들 사이의 인과성을 증명하기 위해서는 기본적으로 수학, 물리학에 대한 지속적인 훈련을 필요로 한다. 왜냐하면, 어떤 현상에 대한 인과관계를 분석하는 데 있어서, 인간의 "말빨"(치킨 판매량과 야구 경기력을 빅데이터 어쩌고저쩌고 하면서 기사를 써낸 기자의 말발)이 아닌 "수학적 언어로 묘사(물리)하고, 풀어가는(수학) 훈련"이 중요하기 때문이다. - P79

수학은 자연 현상의 문제를 풀어내는 도구이기도 하지만, 세상의 모든 현상을 설명해주는 언어이기도 하다. 누군가는 영어(혹은 국어)로 자신의 이야기를 풀어가듯, 많은 과학자들은 수학을 이용해 자신이 하고자 하는 이야기를 풀어간다. - P80

집합과 명제는 수Number가 아닌 어떤 것Something을 수학적으로 표현하는 가장 중요한 도구인 동시에 누군가의 논리를 객관적으로 판단하는 가장 유용한 도구이다. - P80

절대적인 명제에서 값이 바뀌는 것은 "(기본 혹은 최초) 전제가 바뀌는" 경우 밖에 없다. - P83

집합 사이의 관계로 인해, 빅데이터(A)는 데이터 사이언스(B)의 한계를 넘어설 수 없고, 데이터 사이언스는 통계학(C)의 한계를 넘어설 수 없으며, 통계학은 수학(D)의 한계를 "절대로" 넘어설 수 없다 - P84

(수학 대비) 통계학이 가지는 가장 기본적인 한계는 바로 데이터의 추출(샘플링)이다. 이러한 데이터 추출은 데이터 사이언스의 측정과도 연결된다. 통계학을 적용하려면 어떤 식으로든 데이터가 추출(혹은 측정)되어 수치 형태로 저장이 되어야 한다. 아무리 화려한 통계 기법이 있다 하더라도 데이터를 추출할 수 없다면 통계학 적용이 어렵다. 그리고 이러한 통계학의 한계는 데이터 사이언스(B)에도 심지어 빅데이터(A)에도 그대로 적용된다. 즉, 아무리 데이터의 양이 많아지고 현란한 분석 기법이 개발된다 하더라도 측정을 하지 못한다면 아무것도 할 수 없다는 뜻이 된다. 이러한 집합들 사이의 관계는 데이터의 속성과 그 속성에 따라 결정되는 한계로 그대로 이어진다. - P85

세상에 일어나는 많은(사실상 거의 대부분) 현상에 대한 성찰이나 통찰은 "절대적"이라기 보다는 조건에 따라 바뀌는 경우가 훨씬 많다. 특히, 수학이나 과학으로 간략화하기 힘든 사회라든가 문화라든가 신념이라든가 철학 같은 경우에는 전제조건에 따라 성찰이나 통찰이 바뀔 가능성이 매우 높다. - P85

"서는 곳(조건)이 바뀌면 풍경이 바뀐다" - P86

하지만 중요한 것은 조건과 관계없이 절대적으로 맞거나(참) 절대적으로 틀린(거짓) 명제도 존재한다는 것이다. - P86

대부분의 명제들은 조건에 의해 답이 달라질 수 있다. - P86

데이터 사이언스(혹은 데이터 분석)를 하는 목적 가운데 하나가 데이터를 이용하여 어떠한 주장을 하고자 함에 있다. 데이터를 이용한 주장에서 반드시 참인 사실(혹은 명제 혹은 분석)을 두고 이를 거짓이라고 하는 명제 또한 참이라고 주장한다면, 이는 데이터를 얼마나 화려하게 분석했는지와는 관계없이 무조건 잘못된 분석이 된다. - P88

또 한 가지 중요한 점은 어떤 이가 데이터를 이용한 주장을 한다고 했을 때, 반박 논리에 반드시 데이터 분석이 필요하다는 것은 아니라는 것이다. ...(중략)... (명제가) 반드시 참인 경우 혹은 반드시 거짓인 경우라면, 데이터의 진실성 여부와는 상관이 없게 된다. - P89

논리적으로 반드시 참(혹은 반드시 거짓)이 된다면 그걸로 수학적인 증명이 끝난 거다. 아무리 데이터 분석을 한다고 해도 더 이상 새로운 결과를 얻을 수는 없다. 그리고 이에 대한 반박은 아무리 데이터 사이언스 할아버지가 와도 절대 반박이 불가능하다. 아무리 데이터 사이언스가 날고 기어도 그 기본 전제인 수학의 테두리를 벗어날 수 없다. 그러니 우리가 무엇을 문제로 정의할 것인지, 그리고 무엇을 분석할 것인지 고민할때는 이 같은 절대 진리를 위배하는 것은 아닌지 잘 따져보는 혜안이 필요하다. 단순히 분석 기술을 잘 아는 것과는 다르다. - P89

빅데이터는 아무리 큰 데이터라 하더라도 데이터라는 모집합Superset에 속한 부분 집합Subset일 뿐이다. - P93

빅데이터는 데이터 사이언스나 전산학 혹은 통계학을 하는 입장에서 컴퓨터로도 다루기 까다로운 큰 데이터일 뿐이지 그 이상의 어떤 대단한 무엇도 아니다(빅데이터가 마치 모든 걸 해결해줄것인냥 생각할 필요가 없다). - P94

빅데이터의 가장 쉬운 정의는 현재 자신의)컴퓨팅 파워로 연산하는데 어려운 사이즈나 복잡도를 가지는 데이터를 의미한다. - P94

현재 시대에서 빅데이터로 분류되는 크기의 데이터들도 10년 뒤가 되면 일반 데이터로 분류될 수 있다 - P95

빅데이터는 현재의 컴퓨터 성능으로 다루기에 까다로운 큰 데이터일 뿐이다. 그리고 그 기준 또한 세월에 따라 변한다. 지금의 빅데이터가 불과 몇 년 뒤에는 그냥 개인 PC에서 처리 가능한 수준의 그렇고 그런 데이터가 될 수도 있다. - P96

논쟁에서 데이터가 조작되었다고 논리를 펴기 시작하면, 상대방 또한 같은 논리로 방어를 하기 때문에 오류라고 인정될 만한 결정적인 증거를 제시하지 못한다면 논쟁은 절대 끝이 나질 않는다. 그래서 웬만해서는 데이터를 두고 논쟁하는 일은 하지 않는 편이 낫다. - P98

데이터를 가지고서 논쟁한다고 할 때, 남이 가져온 데이터가 조작된 것처럼 보인다면 필시 내가 가져온 데이터도 문제가 있다고 인정해야 한다 (중략) 이를 좀 유식한 표현으로 비례적 등가Proportionally Equal라고 한다. 논쟁의 근거가 되는 상대의 데이터가 조작되었다고 말하려면, 내 데이터 또한 조작되었다고 말해야 하고, 내 데이터가 신빙성이 있다(조작되지 않았다)라고 주장하려면, 남이 제시한 데이터 또한 신빙성이 있다고 봐야 한다는 것을 뜻한다(데이터 사이언스적 관점에서도 훨씬 이치에 맞는 일이다). - P99

내가 얻은 데이터가 아무리 높은 신뢰성을 가진다고 해서, 모든 데이터가 진실을 의미하지는 않는다 - P99

수집된 모든 데이터가 의미가 있는 것이 아닐뿐더러 수집된 데이터가 진실을 밝히는데 충분하다고 장담할 수도 없다. - P99

데이터에 근거한 어떤 주장(논쟁)을 할 때는 어느 누구라도(어떤 경우에서도) 데이터의 신빙성에 대한 문제에서 자유로울 수 없다. 이는 나 뿐만 아니라 제 3자(경쟁사든)의 누구에게라도 동일하게 적용된다. 데이터 지상주의나 데이터만이 모든 것을 다 말해줄 거라는 환상에 빠져서는 안 되는 이유이다(특히 내가 수집한 데이터에 있어서는 더더욱). - P99

"데이터는 주장이나 사실을 객관적으로 뒷받침할 수 없다."
이 같은 주장을 하는 것에는 여러 가지 이유가 있을 수 있지만 가장 크게는 데이터 수집에 한계가 존재하기 때문이다.
데이터 수집에서의 한계는 무엇보다 모집단의 수가 크면 클수록 전체를 대상으로 하는 것이 사실상 불가능하다는 것을의미한다. - P101

표본 추출sampling (중략) 모집단을 대표할 수 있다고 생각되는 표본을 추출하고 그 데이터를 이용해 통계 지표를 구하는 방법 - P101

샘플링 기법은 상당히 유용하지만 추가적인 문제를 일으키는데, 바로 "데이터 수집의 객관성"이다. 이는 데이터 자체의 객관성과는 별개의 문제다. 즉, 데이터 자체의 객관성‘은 "데이터를 조작하지 않는다"는 것을 의미하고, ‘데이터 수집의 객관성‘은 "샘플링 데이터가 객관적이다"를 의미한다. - P101

자신의 주장이 혹은 어떤 사실이 맞다는 것을 뒷받침하려고 데이터를 조작하는 경우, 이는 엄연한 범죄 행위가 되며 조작 사실이 발각되었을 때 사람들로부터 엄청난 반감을 사게된다. 하지만 표본 추출을 객관화하지 않는 것에 대해서는 사람들이 크게 의식하지 않는다. 사람들은 데이터 조작보다 표본의 객관화에 대해서 훨씬 관대하다. - P102

통계를 전공해본 사람이라면 알겠지만 (중략) 미래 예측과 모집단 분석은 빅데이터가 아니라 빅빅빅빅데이터가 있다 하더라도 실현 불가능하다. 지금도 불가능하고, 앞으로도 불가능한 꿈일 뿐이다. - P103

치약의 주성분에 속하는 불소는 기체화(혹은 분자화)해서 흡입할 경우 아주 극소량이라도 사람을 죽게 (한다) - P106

데이터가 거짓 없이 사실을 기반으로 객관적으로 수집되었다 하더라도 말하는 사람에 따라 혹은 듣는 사람의 타성(이라 쓰고 "느낌"이라 읽는다)에 따라 그 해석은 얼마든지 달라질 수 있다. 이는 데이터 자체의 문제라기보다는 데이터를 사용하고 받아들이는 사람의 감성의 문제이다. - P106

요즘 세상은 감성을 중요시하고, 인문학적 소양을 강조한다. 다만 필자의 관점에서 봤을 땐, 세상을 올바르게 이해하는데 있어서 논리적으로 세상을 바라보는 능력(물리학적 소양)과 그렇게 바라본 세상을 논리에 맞게 풀어가는 능력(수학적 소양)(이 둘을 합쳐서 "과학적 소양"이라 칭하기도 한다) 또한 중요하다. 그래서 이러한 과학적 소양이 빠진 인문학은 진짜 인문학이 아니며 이런 사회는 구성원 스스로를 합리적이고 똑똑한 존재인양 착각하게 만든다. - P107

우리가 빅데이터에 열광하는 이유는 아마도 많은 양의 데이터를 통해서 시장을 예측하고, 경제를 예측하고, 소비자의 성향을 예측해서 더 정확한 미래 전략을 구축할 수 있다는 믿음 때문일 것이다. 그리고 어떤 이슈에 대한 인과관계를 데이터를 이용해 찾아낼 수 있다고 생각하기 때문이다. - P108

빅데이터를 제대로 사용하려면 데이터 과학에 대한 기본 지식(통계학, 컴퓨터과학, 과학적 소양, 물리학적 소양 등)을 갖고 있어야 한다. 그렇지 않을 경우, 빅데이터는 단순히 허공에 울리는 메아리에 지나지 않는다. - P109

데이터 과학은 데이터를 다루는 학문이다. 이러한 정량화(혹은 수치화)된 데이터를 분석하는데 사용되는 학문이 바로 통계학statistics이다. 따라서 데이터 과학에서 사용하는 기법이 아무리 바뀌어도, 사용되는 분석 기법들은 통계학의 특성을 벗어날 수 없다. - P109


댓글(2) 먼댓글(0) 좋아요(8)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
페크pek0501 2025-08-13 16:50   좋아요 1 | 댓글달기 | URL
님이 밑줄로 뽑아 주신 글 내용을 예전에 배웠던 기억이 납니다.

즐라탄이즐라탄탄 2025-08-13 17:31   좋아요 1 | URL
아 그러셨군요 저는 그냥 신뢰수준이라는 용어만 예전에 한 번 들어보고 그 의미에 대해선 정확히 몰랐었는데 오늘 독서를 통해 제대로 알게 되었습니다. 어쩌면 이렇게 잘 몰랐던 것을 제대로 배울 수 있는 것도 독서의 유익 중 하나라는 생각이 듭니다. 댓글 감사합니다!