현재 최신 데이터 분석에서 이용하는 SPSS(통계 분석 및 데이터 마이닝을 위해 사용되는 소프트웨어), SAP(시스템 응용 및 제품을 위한 재무, 운영, 자산, 인적 자원 등의 관리와 관련된 기업용 통계 소프트웨어), R(오픈소스 프로그래밍 언어로, 데이터 분석 및 시각화와 관련된 통계 계산 및 그래픽 처리에 사용 됨)과 같은 최신의 소프트웨어 패키지를 사용해 분석을 한다고 해도 통계학의 영역을 벗어날 수는 없다. - P109
수집된 데이터는 "과거"의 데이터이다. 그럼에도 불구하고 많은 통계학자들과 데이터 과학자들은 과거 데이터를 통해 미래를 예측할 수 있다고 믿는다(수학자가 보기에는 이는 틀린 사실이다). 빅데이터라는 용어가 다소 마케팅적인 요소가 강한 단어임에도 데이터 과학자나 통계학자들로부터 지지를 받고 있는 데에는 이 같은 믿음(통계적 기법이 미래를 예측할 수 있다)이 작용하기 때문이다. - P110
통계학자(혹은 데이터 과학자)들은 기존의 기법들로 미래 예측이 정확하지 못한 이유를 충분하지 못한 데이터 때문이라고 생각했다. 그래서 데이터가 충분해진다면(즉, 빅데이터를 이용한다면) 정확한 미래 예측이 가능할 것으로 생각했다. 하지만 ...(중략)... 데이터는 "과거"에 대한 산물일 뿐, 데이터가 아무리 많다 하더라도 미래를 직접 대변해 줄 수는 없다. - P111
분석이 가능하다고 믿는 이유는 한 가지 큰 가정 Assumption을 전제로 하는데, 그 가정은 바로 "과거의 사건이 현재나 미래에도 재현Recursive된다"라는 생각 때문이다. 통계학의 모든 예측 모델은 이 "재현성"을 기반으로 한다. 즉, 과거의 사건이 미래에도 재현된다는 가정하에서 예측이 의미가 있어진다는 뜻이다. - P111
하지만 안타깝게도 통계학자들의 이러한 믿음은 틀린 사실이다. 근본적으로 미래는 재현이 되지 않으며, 어제가 오늘과 다르고 오늘은 내일과 다르다. 단지 비슷하게 보일 뿐이지 절대로 같지 않다. 아무리 데이터양이 많아지고 IT 기술이 발전하여 분석 기술이 혁신적으로 바뀐다 하더라도 미래는 동일하게 재현되지 않는다. 따라서 통계(혹은 데이터 과학, 혹은 빅데이터)를 통한 미래 예측은 시뮬레이션처럼 미래를 모사 Imitate만 할 수 있을 뿐이지 정확히 예측한다는 것은 불가능하다. - P111
이용자들이 구매할 물품을 미리 제안하거나, 사용자가 어떤 단어를 검색했을 때 그다음 검색할 단어를 미리 제안하거나, 콜센터에서 고객이 할 것 같은 추가 질문을 미리 예상하는 것은 예측이라기보다는 ‘패턴‘Pattern에 가깝다. 여기서 "가깝다"고 표현한 이유는 미래에 대한 측정 값이 단순 예측이건 패턴이건 간에 과거에 기인한 것으로 완벽하게 미래를 알려주는 패턴이라고 하기에는 한계가 있기 때문이다. - P113
예측과 패턴은 둘 다 앞으로 일어날 일에 대한 결과 추측이라는 점에서는 닮았다. 그래서 사람들은 예측과 패턴을 같은 의미로 사용하기도 한다. - P113
하지만 예측과 패턴은 엄연히 다르다. 이 둘을 구분하는 기준은 바로 ‘시간의 영향력‘ (혹은 재현성)이다. 시간의 영향력이 크면(즉, 시간에 따라 결과가 달라지거나 바뀌게 된다면) 예측의 문제가 되고, 시간의 영향력이 없거나 작으면 패턴의 문제가 된다. - P113
시간의 영향력이 크다는 의미는 시간에 따라 그때그때 데이터가 변한다는 것을 말한다. 예를 들자면 주식이라든지, 환율이라든지, 원유가처럼 시시때때로 변하는 것을 말한다. 이러한 시간 영향력이 큰 데이터에 대해서 어떠한 주기성을 찾고자 하는 연구 또한 존재하는데, 이렇게 주기성이 찾아진다면, 이 또한 패턴의 문제로 볼 수 있다. - P113
패턴도 데이터와 마찬가지로 ‘과거의 산물‘이다. 시간의 영향력이 적다는 의미는 바로 시간과는 관계없이 특정 조건(흑은 상황)만 되면 결과 값(혹은 추측값)이 같다는 것을 의미한다. 바꿔 이야기하면 재현성이 높아진다는 의미이다. 즉, 시간과 관계없이 조건만 맞으면 동일한 결과가 재현된다는 의미이다. - P113
예측을 목적으로 하는 데이터 분석의 경우 정작 목표로 잡아야 할 것은 미래의 예측이 아니라 과거 데이터에서 ‘패턴‘을 찾는 것이다. 이처럼 예측이 패턴 찾기가 되면 시간에 따라 예측을 하는 것이 아니라, 특정 조건이 맞으면 예상되는 결과를 도출해 내는 단계가 된다. 이러한 패턴 기반의 데이터 분석은 엄밀하게 보면 예측은 아니지만, 그와 비슷한 효과를 낼 수 있다. - P114
데이터 과학(혹은 분석)에 있어서, "예측"은 자주 등장하는주제 가운데 하나이며, 많은 사람들이 관심을 갖는 분야이다. 하지만 (중략) 데이터를 기반으로 한 엄밀한 의미의 (미래)예측은 사실상 불가능하다. 이러한 한계에도 불구하고, 데이터를 기반으로 추측된 값이 갖는 의미와 속성을 정확히 안다면 틀림없이 여러모로 유용한 도구가 될 수 있다. - P114
어떠한 문제점이나 현상에 대한 패턴을 찾는다는 점에서 예측은 데이터 분석에서 여전히 의미가 있다. 다만 문제 자체에 대한 본질과 함께 데이터 분석이 가지는 태생적인 속성도 함께 고려해야 한다. - P114
연료 탱크의 O-링(엔진이나 배수관 연결시 유체나 기체의 누출을 막는 데 사용하는 부품으로 고무패킹 정도를 생각하면 됨) - P116
물체는 온도가 내려가면 수축한다는 기초 물리학의 기본 원리 - P117
데이터 사이언스에서 정작 중요한 것은 데이터를 잘 수집하고 잘 분석하는 것이 아니라, 문제의 본질에 접근해서 적은 노력으로 측정하고 분석하는 방법을 찾는 것이라 할 수 있다. - P118
(일반적인 보폭은 본인 키의 37~45% 정도이다) - P120
데이터 분석에 핵심이 되는 파라미터(변수)를 찾기 위해 별도의 실험을 진행하는 방식을 흔히 파일럿Pilot 혹은 프로토타이핑 Prototyping이라고 한다. 비지니스 애널리틱에서 고객의 선호를 확인하기 위해 사용하는 A/B 테스트가 여기에 해당한다. 즉, 모든 파라미터의 통제가 가능한 환경에서 데이터의 측정을 진행하여, 최적화된(혹은 최적화에 가까운) 파라미터를 설정하고, 이렇게 설정된 파라미터를 기준으로 데이터 분석을 진행하는 것이다. - P122
데이터의 품질이 보증되지 않은 빅데이터는 데이터 분석이 요구되는 문제를 해결하는데 오히려 방해가 된다. 만약, 이러한 문제 해결을 위해서 데이터가 필요하긴 한데 측정하기 어려운 상황이라면 대체 데이터를 생각해볼 수도 있고, 이때 대체 데이터를 고민하다 오히려 문제 해결에 보다 적합한 데이터를 찾을 수도 있다. - P123
반드시 데이터 측정이 필요한 경우라면, 측정되는 데이터는 이왕이면 측정하기 쉬운 것이 좋다. 측정하기가 쉬워야 데이터 분석 모델(혹은 시스템)을 설계할 때도 간편해진다. 많은 양의 데이터(즉, 빅데이터)를 이용해 분석하고자 하는 것은 다른 선택지가 없을 때, 최후에 고려해야 하는 방법이다. - P124
수학은 수학적 증명을 통해 그 답의 진실성 Truth을 담보 받지만, 데이터 사이언스는 아무리 측정된(혹은 수집된) 데이터가 정확하고 충분하더라도 데이터 분석을 통해서 얻은 답이 진실한지(그 답이 참true인지) 여부를 확실히 알 수 없다. - P125
수집할 수 있는 데이터는 결국 한계를 가지고, 이러한 한계를 가진 데이터로 분석된 데이터 값은 수집된 데이터를 대표할 뿐이지, 모집단 전체를 대표하지는 않는다 ..(중략).. 수집된 데이터를 분석한 사실이 전체 데이터(수집되지 못한 데이터를 포함한)의 사실인지를 알 수 없다는 뜻이다. - P126
데이터 사이언스는 수집이 가능한 한정된 데이터에서 분석된 사실이 전체 데이터로 분석된 사실과 동일하다는 가정에서 출발한다. 하지만 이러한 가정은 항상 참이 아니다. - P126
실제로 "완벽한" 동전 던지기의 확률이 진실로 0.5인 이유는 실험 데이터 분석이나 통계로 구해진 것이 아니라, 기하학(벡터)과 물리학(만유 인력법칙)을 기반으로 한 수학적 증명(넓게는 과학적 증명)에 기인한다. 그리고 이러한 증명의 출발은 공정성이 0.5인 완벽한 동전을 "질량이 없는 그리고 높이가 0에 근접하고 넓이가 무한에 근접하는 원판으로 정의 Define 하는 데서 시작한다. 이렇게 정의된 완벽한 동전은 중력의 법칙이 작용한다는 전제하에 바닥에 닿을 수 있는 면이 앞면 혹은 뒷면 단 두 개의 면뿐이 되고, 완벽한 동전을 던졌을 때 앞면이 나올 가능성은 정확하게 0.5가 된다(이는 수학적으로 증명할수 있다). - P129
하지만 현실에서는 "완벽에 가까운" 동전을 찾을 수는 있지만 완벽한 동전이란 존재할 수가 없다. 그래서 위와 같은 과학적 증명이 없는 상태에서의 데이터 분석을 통한 동전의 앞면이 나올 확률값(데이터의 대표값)과 (과학적 증명을 통한)실제 완벽한 동전에서 나올 확률값(진실 값)이 동일 하다고 할 수 있는 근거는 어디에도 없다. - P130
데이터 분석이 보장하는 것은 답의 진실성이 아니라 데이터의 대표성이라는 사실을 잊어서는 안 된다. - P130
데이터 분석을 통해 얻어진 사실의 대표성이 실제 정답인지에 대한 판단은 데이터 분석이 아닌, 다른 방법을 이용해 증명해야 한다. - P130
데이터 사이언스를 사회 과학 분야(경제학, 심리학, 경영학, 정치학 등)에 적용할 경우 실제 정답이 아니라 앞서 동전 던지기의 예제처럼, 데이터 수집 대상의 쏠림 현상으로 데이터의 대표성이 결정되는 경우가 심심치 않게 발생한다. 특히 사회 과학 분야의 경우, 그때의 상황이나 분위기에 따라 분석에 사용되는 데이터들이 선택적 혹은 편향적으로 수집 될 수 있다. 이렇게 되면 틀린 분석을 하게 되고, 틀린 의사결정을 하게 된다. 이 근본적인 한계는 반드시 알고 있어야 한다. - P131
데이터 기반의 의사 결정의 가장 큰 맹점은 데이터 이외의 것을 보지 않는 데 있다. 데이터 사이언스를 한답시고 이 한계를 모르고 있어서는 안 된다. - P131
과학적으로 설명되지 않는 많은 현상들을 분석하기 위해서 수치화해서 모으고, 이를 바탕으로 분석하여 인사이트를 찾아가는 데이터 사이언스는 특히 정형화(혹은 모델링)가 힘든 과학 분야(열역학, 유체역학 등)나 체계화 자체가 불가능한 사회과학 분야에서는 여전히 유용한 분석방법론이자 도구이다. 하지만 아무리 유용한 도구라도 그 한계를 정확히 인지하고 사용해야 도움이 된다. 설령, 데이터를 통해 분석된 대표 값이 실제 정답과 거리가 있다 하더라도 말이다. - P131
Sometimes, something is better than nothing (때로는 아무 것도 없는 것보다 무언가 있는 게 낫다). - P131
확률을 이해하는데 있어서 또 한 가지 중요한 포인트는 동시성이 존재한다는 점이다. 즉, 70%로 이길 확률이라는 것은 30%의 질 확률(이기지 않을 확률)을 동시에 의미하기도 한다. 이를 수학적으로 표현하면 "존재({이길 확률}) = 존재 ({질 확률})"을 의미한다. 그러나 이미 경기가 끝나, 승부가 결정된 상태에서는 확률이라는 숫자는 중요하지 않기 때문에 {"이길 확률(미래)}" =/= "{이긴 상태(과거)"}가 된다. 즉, 이길 확률이 있다고 실제로 이긴 것(사건)은 아니라는 뜻이다. - P134
도박과 확률은 아무런 관련이 없다. 내일 경기에서 지든 이기든 그것과 데이터 분석으로 나온 대표값(확률)과는 직접적인 관계가 없다. 아무리 이길 확률이 높게 나오더라도, 내일(혹은 미래) 게임에 질 수 있다. 데이터 분석을 통해 이길 확률 90% 이상이 나온다 하더라도, 정작 도박(?)을 하는 나의 입장에서는 도박에서 이기거나 질 확률은 50%이다(이기거나 지거나). - P135
결과를 놓고서 자신의 분석 방법 자체의 타당성을 판단할 수는 없다. - P135
통계적 분석이나 데이터의 타당성이나 유효성 여부와 실제 결과와 예측의 일치성 여부는 아무런 관련이 없다. - P136
확률은 어떤 의사결정을 하는 데 필요한 지표를 수학적으로 계산한 것이지, 확률(값)이 미래의 특정 결과를 미리 보여주는 것은 아니다. 다음 판에 이길 확률 90%라고 해서 반드시 이기는 것이 아닌 것처럼, 확률 자체가 어떤 미래를 결정짓는 표식은 될 수 없다. - P138
확률이 도박과 가장 다른 점은 목적이 "예측"에 있는 것이 아니라 "관리"에 있다는 것이다. 이는 게임에서 단순히 이기거나 지거나, 승부 예측을 통해서 돈을 버느냐 마느냐 같은 것이 아니라, 확률에 따라 자원을 어떻게 효율적으로 운영하느냐에 중점을 둬야 한다는 것을 말한다. - P138
확률의 목적성은 확률을 기반으로 하는 통계, 통계를 기반으로 하는 데이터 과학(혹은 빅데이터) 모두 동일하다. - P138
예측은 "맞는 경우"에만 관심이 있지만, 관리는 "맞는 경우"와 "맞지 않은 경우" 모두에 관심을 갖는다. 그렇기에 확률을 잘한다는 의미는 (특히, 위험성에 대한)관리를 잘한다는 의미이다. 예측을 잘한다는 의미로 생각해서는 안된다(보통은 확률을 잘한다고 하면 예측을 잘한다는 의미로 많이들 생각한다). - P139
확률의 본질은 관리 Management이다. - P139
미국에서 스타트업 기업들의 실패를 용인한다는 의미는 그냥 아무 실패나 용인한다는 의미가 아니라, "성공 가능성 (확률)이 높았던" 스타트업 기업의 실패를 용인한다는 것을 의미한다. - P146
너무나도 당연한 이야기이지만, 세상 어떤 곳이라도(스타트업 환경이라도) 실패를 무한정 용인해주는 곳은 존재하지 않는다. 심지어 실리콘벨리에서 조차도 말이다. 그러니 실리콘벨리가 실패를 용인하는 문화라고 하는 이야기는 착각에 지나지 않는다. 좀 더 정확하게는 성공 가능성에 계속해서 투자하는 문화라고 보는 것이 보다 더 정확하다. - P147
확률이 중요한 이유는 미래에 대한 예측이 아니라 관리에 있다고 했다. 이러한 관리 과정을 거친 투자는 결코 도박이 아니다. 현명한 판단을 거친 투자이며, 혹은 재투자이다. 실리콘벨리에서 실패한 기업에게 또다시 투자하는 것은 이러한 확률에 근거한 판단이다. 이러한 확률값은 데이터 사이언스를 포함한 여타 과학적 근거를 기반으로 해서 나왔다. 그래서 도박이 아니다. - P147
데이터 사이언스는 현존하는 다른 기법을 대체하기보다는 다른 분석 기법들을 도와주는 보완재 성격이 강하다. 물론, 다른 기법(혹은 방법론)으로 접근이 불가능하거나 모델링 하기가 어려운 경우 데이터 사이언스 기법들이 대체재의 성격으로 사용되기도 하지만, 생각보다 많은 경우가 해당 분야에 존재하는 기존의 기법을 이용하는 것이 보다 정확하거나 효율적인 분석일 때가 많다. - P153
최근 트렌드(?)가 데이터 사이언스와 인공지능이라 마치 이것들을 이용하면 세상의 모든 문제가 해결될 것 같지만 그렇지는 않다. 오히려 문제가 속한 영역Domain의 실전 경험이 훨씬 중요하다. - P153
데이터 사이언스를 하고자 다양한 도구들을 사용할 줄 아는 것도 중요하지만, 효율적으로 하기 위해서는 최신 데이터분석 도구 대신 문제의 본질에 따라 그에 맞는 적절한 자원과 도구를 분배할 수 있어야 한다. 이것이 데이터 사이언스의 효용성을 높이는 가장 확실한 방법이다. - P155
사실상 데이터 리터러시는 "데이터를 읽을 줄 아는 능력" 정도로 보는 게 맞다. - P156
대부분의 사람들은 어떻게 감성적이 되느냐에 따라 다른 선택을 했다. 그리고 그에 맞는 타당한 논리를 찾으려 했다. ...(중략)...한 학생이 "죽느니, 차라리 위험을 감수하겠노라" 했던 것처럼 말이다. 하지만 위험을 감수하라고 말할 것이 아니라 위험이 무엇인지 정확하게 파악하는 것이 우선이다. - P159
인간은 선천적으로 보이지 않는 위험에 대해서 원래의 위험성보다 무시해서 보려는 경향이 있다. - P160
우리는 정확하게 위험이 무엇인지 그리고 정말 위험한 정도를 파악할 수 있는지 등을 확인하는 능력이 필요하다. 왜곡된 위험에 대해서 합리적인 의심을 하도록 도와주는 것은 감성적인 사고가 아니라 수학적인 사고이다(이것이 필자가 얘기하는 데이터 리터러시다). - P161
|