지난번 포스팅의 마지막 부분에서 저자는 데이터 분석의 궁극적인 목적은 데이터 분석의 결과를 바탕으로 해결하고자 하는 문제를 해결하는 것이라고 했었다. 이를 위해서는 데이터 분석시 사용되는 수집 데이터들의 정확성이 담보되어야 한다는 얘기도 덧붙였다.

오늘 시작하는 부분에서는 앞서 언급했던 수집 데이터들의 정확성이 항상 담보될 수는 없다는 한계점을 지적하면서 궁극적인 목적인 문제 해결을 하는 데 있어서 만약 데이터 없이 그것이 가능하다면 그것이 가장 최선이라고 독자들에게 말한다.

데이터 관련 서적에서 저자가 문제 해결만 잘 된다면 데이터가 없어도 크게 상관없다는 얘기를 하는 게 처음엔 좀 의아하게 들렸지만 뒤이어지는 글에서 그 이유를 보고는 저자의 말에 어느정도 수긍할 수 있었다. 그것은 바로 데이터 취합이나 분석과정에서의 오류발생가능성 때문이었다.

수많은 데이터들을 다루다보면 거기에 파묻힌 나머지 궁극적인 목적을 망각한 채 데이터의 홍수에 이리저리 휩쓸려 떠다니다가 결국에는 궁극적인 문제 해결과는 그닥 상관없는 그리 유용하지 않은 결과물이 나올 수 있다는 게 저자의 생각인듯하다.

그리고 좀 다른 얘기이긴 하지만, 비단 이 책에 나오는 데이터 분석뿐만아니라 우리가 어떤 분야의 일을 하든 관계없이 그저 단순한 과업에만 매달린 나머지 그 일이 궁극적으로 어떤 것을 하기 위함인지를 망각할 때가 있지는 않았는지를 돌아보게 만드는 내용이기도 했다.

다시 본문으로 돌아와 이어지는 글에서도 기업들의 성공 핵심 역량이라는 것이 어떤 데이터를 잘 활용한 것에 있다기보다는 궁극적으로 고객이 아쉬워하고 어려워하는 문제를 잘 해결해준 것 뿐이라는 말이 나온다. 이건 결국 수단보다는 목적이 더 중요하다는 것을 방증한다.
.
.
.
뒤이어 읽다가 개인적으로 인상적이었던 사례 중 하나는 사고 위험에 처한 비행기의 기장이 사고 발생 가능성이 있으니 이에 대비할 수 있는 조치를 해달라는 방송을 하자, 어느 통계학자가 비행기 사고의 확률을 줄이기 위해 모든 탑승객들에게 양말을 뒤집어 신으라고 말하는 장면이었다.

단순히 확률적으로만 본다면 비행기 탑승객들 모두가 양말을 뒤집어 신고 죽을 확률은 극히 낮을 것이다. 하지만 이것은 단순히 확률값을 낮추는 것일 뿐 사고 발생시 생존하는 것과는 전혀 관련이 없기에 의미없는 행위일 뿐이다.

이 특이한(?) 사례를 통해 단순히 데이터 확률 수치에만 집착하다보면 큰 그림을 보지 못하는 이런 어처구니없는 상황이 생길 수 있음을 뼈저리게 느낄 수 있었다. 아마 내 기억 속에서 두고두고 회자될 수 있을 것 같다. 작은 것에 집착하다가 큰 것을 보지 못하는 우(愚)를 범하지 않길 바란다.

정확한 측정이 있어야 풀려는 문제에 대해서도 정확한 해석(혹은 해결)이 가능하다고 하지만 측정은 늘, 언제나, 항상 오차를 갖기 마련이다. - P37

이렇게 한 번 생각해 보는 건 어떨까? "문제 해결을 위해 정확한 측정값을 얻는 것보다 측정과정 없이 문제를 해결하는 것이 더 낫다." 이렇게 생각한다는 것은 데이터 없이 문제 해결을 하는 것이 더 나은 판단이 될수 있다는 것을 뜻한다. - P37

데이터 사이언스에 대해 경험과 지식이 있는 부류일수록 데이터 분석을 통해서만 문제 해결이 가능하다고 주장한다(자기 밥그릇 챙기기가 아닐까 싶기도 하다). 하지만 앞에서도 밝힌 바와 같이 최선의 해결책은 데이터 취합과 분석 과정없이 문제를 해결하는 것이다. 취합에서의 오류나 분석에서의 헛다리 짚기를 해결할 수 있기 때문이다. - P37

내가 정작 말하고 싶은 부분은 세상의 많은 문제들이 우리가 생각하는 것 이상으로 데이터 분석 없이도 해결이 가능하다는 것이다. 그래서 데이터에 경도 되어 모든 것을 그렇게 판단할 필요도 없고, 그래서는 안 된다. - P38

우리는 빅데크 기업들의 성공을 보면서, 그들이 말하는 공식(데이터 기반의 의사결정)이 마치 전부이고 성공의 핵심 역량으로 생각하지만 그들은 고객이 아쉬워하고 어려워하는 문제를 잘 해결해준 것 뿐이었다. 시작은 거기서 출발해야 한다. 이 사실을 절대 잊어서는 안 된다. - P38

문제 해결을 위해서는 데이터 분석이 반드시 필요한 것이라 할지라도 많은 양의 데이터를 다루느냐 그렇지 않느냐는 또다시 별개의 문제임을 잊어서는 안 된다. - P38

"반드시 데이터 분석이 필요한가?" "필요하다면 꼭 빅데이터이어야 하는가?" 이 두 개의 질문은 데이터 분석을 시작하기 전 반드시 해야 하는 질문이다. - P39

무림고수가 실제로 천하제일검을 사용해서 상대를 제압하는 경우는 매우 드물다. - P41

무림 고수에게 필요한 진짜 내공은 천하제일검을 사용하는 검법이 아니라 적당한 때에 맞춰 그에 맞는 무공을 사용하고 꼭 필요한 경우에만 천하제일검을 사용하는 능력이다. - P41

데이터를 이용해 문제를 해결하는 데 있어서 문제 본질을 파악할 줄 아는 능력 다음으로 중요한 것은 실제로 데이터 분석의 고급 기술 혹은 많은 양의 데이터가 필요한 때가 언제인지를 아는 것이다. 즉, 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 훌륭한 능력이라 할 수 있다. - P42

분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다. - P44

우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다. - P45

어떤 영역에서든 데이터 사이언스는 측정, 수집, 분석의 3단계가 필요하다. - P45

데이터 사이언스를 배울 때 꼭 전제되는 것이 준비된 데이터 묶음이 있다는 가정이다. 측정 Measurement과 수집은
"이런 데이터 묶음이 있다"는 식으로 건너뛰고 여러 가지 분석 기법을 배운다. 하지만 정작 중요한 것은 측정이다. - P46

설령, 본인이 직접 측정을 하지 않는다 하더라도, 스케일 scale에 맞게 측정을 할 줄 알아야 제대로 된 분석이 가능하다. - P47

측정을 단순하게 생각하기 쉬운데, 실제로는 가장 중요하고 가장 정확해야 한다. - P47

‘스케일이 맞는‘ 장비(적정한 측정 도구) - P48

데이터 분석 시스템을 설계할 때는 각 단계의 스케일을 적절하게 맞추는 것이 그 어떤 분석보다도 중요하다. - P48

데이터 사이언스를 위해 필요한 기초 과목은 (실험)물리이다. - P48

우리는 물리 실험을 함으로써 데이터 사이언스의 전체 단계를 경험해볼 수 있다. 이는 특히 자연대생이나 공대생이 데이터 사이언스 영역에서 문과생(경영, 심리학 등)보다 월등히 유리한 이유이기도 하다. 과정 전체를 한 번 경험해보면 단계 사이의 미묘한 간극을 알게 된다. 또한 무엇이 적정한 스케일인지에 대한 감도 생기게 된다. - P49

데이터를 모으려면 그 값을 "측정"할 수 있어야 한다. 측정할 수 없다면 데이터를 모을 수 없고, 데이터를 모을 수 없으면 데이터 분석은 당연히 불가능하다. 그런데 대상의 실체가 불분명해서 측정이 불가능한 것이 있다. 바로 감정, 기분, 능력, 성과 같은 사회 과학에서 다루는 개념이다. - P49

측정이 불가능한 것을 억지로 측정하기 위해 도입된 것이 대체 지표이다. 예를 들어 ‘만족‘은 측정 불가능하다. 그래서설문을 통해 1점에서 5점 사이의 척도를 주고 ‘만족도‘를 고르게 하는 지표를 사용한다. ‘술에 취함‘ 또한 측정 불가능하다. 그래서 이를 대체하고자 ‘혈중 알콜 농도‘라는 지표를 사용한다. ‘능력‘ 또한 측정 불가능한 대상이다. 그래서 이를 대체하고자 ‘(시험)성적‘을 만들었다. - P49

아무리 많은 대체 지표라도 원래 대상이 측정 불가능하다면, 어찌 됐건 그건 가짜일 수밖에 없다. 대체 지표는 대상을 모사할 뿐이지, 원래의 대상이 될 수 없다. - P50

수집Acquisition은 실제 분석이 가능할 정도의 전처리 과정을 포함한다. 흔히 하는 착각이 빠진 데이터를 메꾼다거나, 분석을 위해 데이터 포멧을 맞추는 것을 전처리라고 생각하는데, 실제로는 그보다 훨씬 광범위하다. - P50

학부 수준의 전자공학을 전공했다면 "신호처리" Signal Processing를 배울 때 사용하는 푸리에 변환법이라는 것이 있는데, 이것이 전형적인 전처리 기법에 해당한다. - P50

전처리을 제대로 하기 위해서 기본적으로 알면 좋은 과목이 앞서 언급한 "신호처리"이다. 특히 영상이나 음성 신호(요즘은 데이터라는 표현이 더 흔하긴 하다)를 다루는 경우라면 필수적으로 알고 있어야 하고, 영상이나 음성이 아닌 다른 종류의 데이터를 다룬다 하더라도 신호 처리에서 배우는 내용을 광범위하게 응용할 수 있어야 한다. 그리고 여기에 복소함수론까지 포함한다면 더욱 금상첨화이다. - P51

예전에 주식 분석을 하기 위해서 신호 처리 과목에서 배우는 필터링 이론을 적용한 것을 본 적이 있다(논문으로). - P51

될 수 있으면 적은 데이터로 간단한 분석 도구를 써서 문제를 해결하는 것이 좋다. 실제로 빅데이터와 현란한 인공지능 도구를 써서 얻은 결과와 PC에서 엑셀로 돌린 분석 결과가 대동소이한 경우가 있다. 정작 중요한 것은 많은 양의 데이터보다 분석 시스템의 설계이다. - P52

데이터 분석을 하는 데 배보다 배꼽이 커지는 경우(즉, 측정과 데이터 수집에서 더 많은 비용과 시간 투자가 필요한), 데이터 분석 자체를 포기하는 결단도 필요하다. - P52

일상 혹은 비즈니스 현장에서 접하는 많은 문제들은 데이터 분석 없이도 해결 가능한 것들이 많다. 데이터 사이언스를좀 안다고 모든 문제를 데이터 분석으로 해결하고자 애쓴다면 자칫 함정에 빠질 수 있다. - P54

열린 사고는 혁신을 필요로 하는 거의 모든 영역에 필요하다. 데이터 사이언스 또한 예외는 아니다. 사고가 열려있지않으면 제대로 된 데이터 분석 설계를 할 수 없다. 열린 사고를 하기 위해 가장 경계해야 할 것이 데이터에 매몰된 사고방식이다. - P54

이 세 단계(측정, 수집, 분석)는 상호 연관되어 있어서 제대로 측정이 되었다면 수집이나 전처리 과정이 약해도 제대로 된 결과를 가져올 수 있고, 반대로 수집과 전처리 단계가 강력하다면 분석이나 측정이 약해도 제대로 된 결과를 얻을 수 있다. 이는 분석자에 따라 "측정"이 한방 일 수도 있고, "수집과 전처리"가 한방일 수도 있다는 뜻이다. 반드시 "데이터 분석"이 강력한 한방이어야 할 필요는 없다. - P55

양질의 데이터가 ‘나‘에게 직접적인 연관성이 있어야 의미가 생긴다 - P56

거시적인(국민 전체를 대상으로 하는) 데이터는 미시적인 행동(혹은 결정)에 생각보다 관련이 없다. - P58

관점에 따라서 확률 데이터(확률 값)가 바뀐다. 이런 식으로 관점에 따라 바뀌는 데이터는 나의 데이터가 아니다. (중략) 다양한 확률 데이터는 현재 당면한 가위바위보 의사결정을 하는 데 있어서 전혀 도움이 안 된다. - P59

새로운 투자는 이전 투자와는 연관성이 없고 독립적이다. 즉, 매번 처음 하는 것과 같은 가능성(성공하거나 실패하거나) 50%의 확률을 가지게 된다. - P60

어떤 데이터 분석 값은 "나의 데이터"이지만, 어떤 데이터 분석 값은 "남의 데이터"이다. 때로는 복잡한 분석으로 만들어진 데이터 분석 값이 가장 간단한 논리로 만들어진 분석 값보다도 못할 수 있다. 설령, 복잡한 분석이 타당하다고 하더라도 말이다. 그러니 남의 데이터에 시선이 빼앗겨서는 안 된다. - P60

때로는 복잡한 분석으로 만들어진 데이터 분석이 아무 소용이 없을 때가 있다. 나와 상관없는 남의 데이터라서 그렇다.
마치 연관성이 있는 것 같지만, (중략) 아무런 연관성이 없을 수 있다. - P60

평균 값은 데이터 사이언스(혹은 통계)를 하면서 가장 많이 사용하는 데이터 값이다. 중요한 것은 평균값이 현실에서는존재할 수 없는 ‘상상의 값‘일 수 있다는 점이다. - P61

데이터 분석을 통해 도출되는 평균값이 현실 세계에서는 아무 의미 없는 값일 수 있음을 꼭 기억해야 한다. - P62

나의 데이터, 남의 데이터 문제가 아니라, 확률(혹은 가능성)의 본질을 묻는 질문 - P61

사고 "확률(가능성)"이라는 숫자를 줄이는 행위는 아무 의미가 없고, 비행기 사고 시 사망 하는 사건(혹은 이벤트) 자체를 줄이는 것이 훨씬 더 중요하다. - P63

우리는 평소에 사건(혹은 이벤트)을 대표하는 숫자(확률)를 언급하길 좋아한다. 뭔가 확정적인 숫자 값을 이야기해야 (상대에게) 신뢰를 준다고 생각하는 경향이 강하기 때문이다. 하지만 이러한 사건을 대표하는 숫자 값(확률)과 실제 사건이 일어나는 것과는 별개의 문제이다. 더구나 사건 혹은 현상이 일어날 숫자 값(확률)만을 줄이는 행위는 실질적인 문제 해결에 아무런 도움이 되지 않는다. - P64

데이터 분석을 통해 얻어진 값들을 올바르게 바라보는 가장 기본적인 방법은 "나의 데이터"인지 "남의 데이터"인지를 잘 구별하는 것이다. - P64

데이터 사이언스, 비지니스 애널리틱스, 빅데이터 등 많은 데이터 분석 기법과 도구들이 난무하지만 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다. - P64

데이터 사이언스를 제대로 하고자 할 때 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터 분석 자체보다 데이터(혹은 데이터 분석한 값)가 내 것인지, 남의 것인지를 파악하는 데 도움이 되기 때문이다. 그렇지 않으면, 비행기가 떨어지는 데 양말을 바꿔 신는 어리석은 일을 하게 된다. - P64

오차 범위는 우리가 확률이든 뭐든 어떤 것을 알아내고자 할 때 측정값이 실제 값과 얼마나 차이가 나는지 그 범위를 의미한다. 여기서 실제 값이란 측정이 아닌 진실인 값이다. - P65

키가 180cm라고 하면 이는 실질적으로 존재하는 값을 측정한 것이다. 하지만 좋은 자로 재었다 하더라도 아주 조금의 오차는 있을 수밖에 없다. 다만 우리는 오차의 범위가 작다고 생각하고 거의 0에 가깝다고 생각하고 측정 값 (180cm)을 신뢰할 뿐이다. 이처럼 신뢰 구간이라고 하는 것은 측정 값이 실제 값으로부터 얼마나 떨어져 있는 지를 확률(백분율)의 형태로 나타내는 것을 말한다. - P66

오차 범위의 크기는 실수Real의 범위로 변화가 가능하지만, 원래의 실제 값 크기 이상으로 벗어날 수 없는 것으로 간주한다. 즉, 오차 범위의 크기는 1(혹은 100%)을 넘지 못한다. 이때의 신뢰 수준은 -1에서 +1 사이가 된다. - P66

뉴스를 보다 보면, 여론 조사 결과를 소개하며 플러스(+) 마이너스(-) 몇 % 라며 오차 범위를 꼭 밝히는 걸 볼 수 있다. 많은 이들이 데이터 분석에 의한 예측(당선 확률 몇 % 같은)이 실제로 현실로 나타나면 해당 분석이 맞는 것으로 그렇지 않으면 분석이 틀린 것으로 이야기하지만, 분석 모델 자체의 정확도와 실제 사건의 발생여부는 별개의 문제다. - P66


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo