정확한 측정이 있어야 풀려는 문제에 대해서도 정확한 해석(혹은 해결)이 가능하다고 하지만 측정은 늘, 언제나, 항상 오차를 갖기 마련이다. - P37
이렇게 한 번 생각해 보는 건 어떨까? "문제 해결을 위해 정확한 측정값을 얻는 것보다 측정과정 없이 문제를 해결하는 것이 더 낫다." 이렇게 생각한다는 것은 데이터 없이 문제 해결을 하는 것이 더 나은 판단이 될수 있다는 것을 뜻한다. - P37
데이터 사이언스에 대해 경험과 지식이 있는 부류일수록 데이터 분석을 통해서만 문제 해결이 가능하다고 주장한다(자기 밥그릇 챙기기가 아닐까 싶기도 하다). 하지만 앞에서도 밝힌 바와 같이 최선의 해결책은 데이터 취합과 분석 과정없이 문제를 해결하는 것이다. 취합에서의 오류나 분석에서의 헛다리 짚기를 해결할 수 있기 때문이다. - P37
내가 정작 말하고 싶은 부분은 세상의 많은 문제들이 우리가 생각하는 것 이상으로 데이터 분석 없이도 해결이 가능하다는 것이다. 그래서 데이터에 경도 되어 모든 것을 그렇게 판단할 필요도 없고, 그래서는 안 된다. - P38
우리는 빅데크 기업들의 성공을 보면서, 그들이 말하는 공식(데이터 기반의 의사결정)이 마치 전부이고 성공의 핵심 역량으로 생각하지만 그들은 고객이 아쉬워하고 어려워하는 문제를 잘 해결해준 것 뿐이었다. 시작은 거기서 출발해야 한다. 이 사실을 절대 잊어서는 안 된다. - P38
문제 해결을 위해서는 데이터 분석이 반드시 필요한 것이라 할지라도 많은 양의 데이터를 다루느냐 그렇지 않느냐는 또다시 별개의 문제임을 잊어서는 안 된다. - P38
"반드시 데이터 분석이 필요한가?" "필요하다면 꼭 빅데이터이어야 하는가?" 이 두 개의 질문은 데이터 분석을 시작하기 전 반드시 해야 하는 질문이다. - P39
무림고수가 실제로 천하제일검을 사용해서 상대를 제압하는 경우는 매우 드물다. - P41
무림 고수에게 필요한 진짜 내공은 천하제일검을 사용하는 검법이 아니라 적당한 때에 맞춰 그에 맞는 무공을 사용하고 꼭 필요한 경우에만 천하제일검을 사용하는 능력이다. - P41
데이터를 이용해 문제를 해결하는 데 있어서 문제 본질을 파악할 줄 아는 능력 다음으로 중요한 것은 실제로 데이터 분석의 고급 기술 혹은 많은 양의 데이터가 필요한 때가 언제인지를 아는 것이다. 즉, 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 훌륭한 능력이라 할 수 있다. - P42
분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다. - P44
우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다. - P45
어떤 영역에서든 데이터 사이언스는 측정, 수집, 분석의 3단계가 필요하다. - P45
데이터 사이언스를 배울 때 꼭 전제되는 것이 준비된 데이터 묶음이 있다는 가정이다. 측정 Measurement과 수집은 "이런 데이터 묶음이 있다"는 식으로 건너뛰고 여러 가지 분석 기법을 배운다. 하지만 정작 중요한 것은 측정이다. - P46
설령, 본인이 직접 측정을 하지 않는다 하더라도, 스케일 scale에 맞게 측정을 할 줄 알아야 제대로 된 분석이 가능하다. - P47
측정을 단순하게 생각하기 쉬운데, 실제로는 가장 중요하고 가장 정확해야 한다. - P47
‘스케일이 맞는‘ 장비(적정한 측정 도구) - P48
데이터 분석 시스템을 설계할 때는 각 단계의 스케일을 적절하게 맞추는 것이 그 어떤 분석보다도 중요하다. - P48
데이터 사이언스를 위해 필요한 기초 과목은 (실험)물리이다. - P48
우리는 물리 실험을 함으로써 데이터 사이언스의 전체 단계를 경험해볼 수 있다. 이는 특히 자연대생이나 공대생이 데이터 사이언스 영역에서 문과생(경영, 심리학 등)보다 월등히 유리한 이유이기도 하다. 과정 전체를 한 번 경험해보면 단계 사이의 미묘한 간극을 알게 된다. 또한 무엇이 적정한 스케일인지에 대한 감도 생기게 된다. - P49
데이터를 모으려면 그 값을 "측정"할 수 있어야 한다. 측정할 수 없다면 데이터를 모을 수 없고, 데이터를 모을 수 없으면 데이터 분석은 당연히 불가능하다. 그런데 대상의 실체가 불분명해서 측정이 불가능한 것이 있다. 바로 감정, 기분, 능력, 성과 같은 사회 과학에서 다루는 개념이다. - P49
측정이 불가능한 것을 억지로 측정하기 위해 도입된 것이 대체 지표이다. 예를 들어 ‘만족‘은 측정 불가능하다. 그래서설문을 통해 1점에서 5점 사이의 척도를 주고 ‘만족도‘를 고르게 하는 지표를 사용한다. ‘술에 취함‘ 또한 측정 불가능하다. 그래서 이를 대체하고자 ‘혈중 알콜 농도‘라는 지표를 사용한다. ‘능력‘ 또한 측정 불가능한 대상이다. 그래서 이를 대체하고자 ‘(시험)성적‘을 만들었다. - P49
아무리 많은 대체 지표라도 원래 대상이 측정 불가능하다면, 어찌 됐건 그건 가짜일 수밖에 없다. 대체 지표는 대상을 모사할 뿐이지, 원래의 대상이 될 수 없다. - P50
수집Acquisition은 실제 분석이 가능할 정도의 전처리 과정을 포함한다. 흔히 하는 착각이 빠진 데이터를 메꾼다거나, 분석을 위해 데이터 포멧을 맞추는 것을 전처리라고 생각하는데, 실제로는 그보다 훨씬 광범위하다. - P50
학부 수준의 전자공학을 전공했다면 "신호처리" Signal Processing를 배울 때 사용하는 푸리에 변환법이라는 것이 있는데, 이것이 전형적인 전처리 기법에 해당한다. - P50
전처리을 제대로 하기 위해서 기본적으로 알면 좋은 과목이 앞서 언급한 "신호처리"이다. 특히 영상이나 음성 신호(요즘은 데이터라는 표현이 더 흔하긴 하다)를 다루는 경우라면 필수적으로 알고 있어야 하고, 영상이나 음성이 아닌 다른 종류의 데이터를 다룬다 하더라도 신호 처리에서 배우는 내용을 광범위하게 응용할 수 있어야 한다. 그리고 여기에 복소함수론까지 포함한다면 더욱 금상첨화이다. - P51
예전에 주식 분석을 하기 위해서 신호 처리 과목에서 배우는 필터링 이론을 적용한 것을 본 적이 있다(논문으로). - P51
될 수 있으면 적은 데이터로 간단한 분석 도구를 써서 문제를 해결하는 것이 좋다. 실제로 빅데이터와 현란한 인공지능 도구를 써서 얻은 결과와 PC에서 엑셀로 돌린 분석 결과가 대동소이한 경우가 있다. 정작 중요한 것은 많은 양의 데이터보다 분석 시스템의 설계이다. - P52
데이터 분석을 하는 데 배보다 배꼽이 커지는 경우(즉, 측정과 데이터 수집에서 더 많은 비용과 시간 투자가 필요한), 데이터 분석 자체를 포기하는 결단도 필요하다. - P52
일상 혹은 비즈니스 현장에서 접하는 많은 문제들은 데이터 분석 없이도 해결 가능한 것들이 많다. 데이터 사이언스를좀 안다고 모든 문제를 데이터 분석으로 해결하고자 애쓴다면 자칫 함정에 빠질 수 있다. - P54
열린 사고는 혁신을 필요로 하는 거의 모든 영역에 필요하다. 데이터 사이언스 또한 예외는 아니다. 사고가 열려있지않으면 제대로 된 데이터 분석 설계를 할 수 없다. 열린 사고를 하기 위해 가장 경계해야 할 것이 데이터에 매몰된 사고방식이다. - P54
이 세 단계(측정, 수집, 분석)는 상호 연관되어 있어서 제대로 측정이 되었다면 수집이나 전처리 과정이 약해도 제대로 된 결과를 가져올 수 있고, 반대로 수집과 전처리 단계가 강력하다면 분석이나 측정이 약해도 제대로 된 결과를 얻을 수 있다. 이는 분석자에 따라 "측정"이 한방 일 수도 있고, "수집과 전처리"가 한방일 수도 있다는 뜻이다. 반드시 "데이터 분석"이 강력한 한방이어야 할 필요는 없다. - P55
양질의 데이터가 ‘나‘에게 직접적인 연관성이 있어야 의미가 생긴다 - P56
거시적인(국민 전체를 대상으로 하는) 데이터는 미시적인 행동(혹은 결정)에 생각보다 관련이 없다. - P58
관점에 따라서 확률 데이터(확률 값)가 바뀐다. 이런 식으로 관점에 따라 바뀌는 데이터는 나의 데이터가 아니다. (중략) 다양한 확률 데이터는 현재 당면한 가위바위보 의사결정을 하는 데 있어서 전혀 도움이 안 된다. - P59
새로운 투자는 이전 투자와는 연관성이 없고 독립적이다. 즉, 매번 처음 하는 것과 같은 가능성(성공하거나 실패하거나) 50%의 확률을 가지게 된다. - P60
어떤 데이터 분석 값은 "나의 데이터"이지만, 어떤 데이터 분석 값은 "남의 데이터"이다. 때로는 복잡한 분석으로 만들어진 데이터 분석 값이 가장 간단한 논리로 만들어진 분석 값보다도 못할 수 있다. 설령, 복잡한 분석이 타당하다고 하더라도 말이다. 그러니 남의 데이터에 시선이 빼앗겨서는 안 된다. - P60
때로는 복잡한 분석으로 만들어진 데이터 분석이 아무 소용이 없을 때가 있다. 나와 상관없는 남의 데이터라서 그렇다. 마치 연관성이 있는 것 같지만, (중략) 아무런 연관성이 없을 수 있다. - P60
평균 값은 데이터 사이언스(혹은 통계)를 하면서 가장 많이 사용하는 데이터 값이다. 중요한 것은 평균값이 현실에서는존재할 수 없는 ‘상상의 값‘일 수 있다는 점이다. - P61
데이터 분석을 통해 도출되는 평균값이 현실 세계에서는 아무 의미 없는 값일 수 있음을 꼭 기억해야 한다. - P62
나의 데이터, 남의 데이터 문제가 아니라, 확률(혹은 가능성)의 본질을 묻는 질문 - P61
사고 "확률(가능성)"이라는 숫자를 줄이는 행위는 아무 의미가 없고, 비행기 사고 시 사망 하는 사건(혹은 이벤트) 자체를 줄이는 것이 훨씬 더 중요하다. - P63
우리는 평소에 사건(혹은 이벤트)을 대표하는 숫자(확률)를 언급하길 좋아한다. 뭔가 확정적인 숫자 값을 이야기해야 (상대에게) 신뢰를 준다고 생각하는 경향이 강하기 때문이다. 하지만 이러한 사건을 대표하는 숫자 값(확률)과 실제 사건이 일어나는 것과는 별개의 문제이다. 더구나 사건 혹은 현상이 일어날 숫자 값(확률)만을 줄이는 행위는 실질적인 문제 해결에 아무런 도움이 되지 않는다. - P64
데이터 분석을 통해 얻어진 값들을 올바르게 바라보는 가장 기본적인 방법은 "나의 데이터"인지 "남의 데이터"인지를 잘 구별하는 것이다. - P64
데이터 사이언스, 비지니스 애널리틱스, 빅데이터 등 많은 데이터 분석 기법과 도구들이 난무하지만 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다. - P64
데이터 사이언스를 제대로 하고자 할 때 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터 분석 자체보다 데이터(혹은 데이터 분석한 값)가 내 것인지, 남의 것인지를 파악하는 데 도움이 되기 때문이다. 그렇지 않으면, 비행기가 떨어지는 데 양말을 바꿔 신는 어리석은 일을 하게 된다. - P64
오차 범위는 우리가 확률이든 뭐든 어떤 것을 알아내고자 할 때 측정값이 실제 값과 얼마나 차이가 나는지 그 범위를 의미한다. 여기서 실제 값이란 측정이 아닌 진실인 값이다. - P65
키가 180cm라고 하면 이는 실질적으로 존재하는 값을 측정한 것이다. 하지만 좋은 자로 재었다 하더라도 아주 조금의 오차는 있을 수밖에 없다. 다만 우리는 오차의 범위가 작다고 생각하고 거의 0에 가깝다고 생각하고 측정 값 (180cm)을 신뢰할 뿐이다. 이처럼 신뢰 구간이라고 하는 것은 측정 값이 실제 값으로부터 얼마나 떨어져 있는 지를 확률(백분율)의 형태로 나타내는 것을 말한다. - P66
오차 범위의 크기는 실수Real의 범위로 변화가 가능하지만, 원래의 실제 값 크기 이상으로 벗어날 수 없는 것으로 간주한다. 즉, 오차 범위의 크기는 1(혹은 100%)을 넘지 못한다. 이때의 신뢰 수준은 -1에서 +1 사이가 된다. - P66
뉴스를 보다 보면, 여론 조사 결과를 소개하며 플러스(+) 마이너스(-) 몇 % 라며 오차 범위를 꼭 밝히는 걸 볼 수 있다. 많은 이들이 데이터 분석에 의한 예측(당선 확률 몇 % 같은)이 실제로 현실로 나타나면 해당 분석이 맞는 것으로 그렇지 않으면 분석이 틀린 것으로 이야기하지만, 분석 모델 자체의 정확도와 실제 사건의 발생여부는 별개의 문제다. - P66
|