지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항분포를 따른다는 얘기와 더불어 이항분포의 결과가 누적되어 수렴되는 값은 정규분포를 따른다는 내용도 있었다. 이에 따라 단순히 삼단논법으로 생각해보면 로지스틱 회귀분석은 정규분포를 따라야 하는 것이 맞을 것 같은데, 예상과는 달리 로지스틱 회귀분석은 정규분포가 아닌 이산확률분포를 따른다. 이러한 예외를 설명하기 위한 것이 바로 푸아송 분포인데, 오늘은 이에 대한 내용부터 시작한다.

과거에 푸아송 분포라는 말을 들어본 적은 있지만, 이 책의 본문에 나온 일종의 비하인드 스토리 같은 것은 오늘 독서를 통해 처음 알게 되었다. 여기 그 이야기를 일일이 쓸 순 없지만, 이 푸아송 분포라는 것이 나오게 된 게 푸아송이라는 사람이 헤어진 옛 연인에게서 30년만에 편지를 받게 된 것이 계기가 되었다는 사실에 참 신기하고 한편으로는 놀랍기도 했다. 이런 걸 보면 우연이라는 게 어떤 획기적인 일을 일으키는 계기가 될 수도 있다는 것을 다시금 느끼게 된다.
.
.
.
푸아송 분포에 대한 내용에 뒤이어 데이터 분석의 목적이 무엇이냐는 질문에 대한 저자의 답변이 나온다. 여기서 핵심은 예측prediction 인데, 이러한 예측을 잘 하기 위한 과정들로 앞선 포스팅에서 봤었던 군집clustering, 분류 classification 이 나온다. 또한 이에 더해 규칙pattern을 찾는 것이 추가로 언급된다. 마지막에는 앞서 언급한 세 가지를 잘 혼합하여 데이터 분석의 궁극적인 목적인 예측prediction 을 하는 것으로 데이터 분석의 모든 과정이 마무리 된다. 저자의 답변 코너를 통해 이제까지 배웠던 내용들의 큰 줄기들을 가볍게나마 정리할 수 있었다.


절을 바꿔서 이번에는 빅데이터에 대한 내용이 이어진다. 빅데이터의 정의와 함께 빅데이터를 잘 다루기 위해 필요한 역량, 그리고 통계 중심의 데이터 분석과 빅데이터 시대의 데이터 분석 간의 차이를 비교하는 내용까지 저자께서 아주 상세하게 알려주셔서 둘 간의 차이가 어떤 것인지를 명확히 구분할 수 있었다.
.
.
.
뒤이어 자연어 처리와 텍스트 마이닝에 대한 내용이 나온다. 이에 대한 본격적인 논의에 앞서 정형과 비정형이라는 것에 대해 간단히 논하는데, 이 둘을 구분하는 기준은 ‘속성‘이라는 것이다. 간략히 언급하자면 정형은 속성이 이미 정해져 있는 것이고, 비정형은 속성이 아직 정해져 있지 않은 것이다. 데이터 분석은 정형과 비정형 모두에 적용되는 개념인데, 아무래도 비정형인 경우에 좀 더 복잡해진다. 왜냐하면 속성이 아직 정해져 있지 않기 때문에 그것을 찾고 의미를 부여하는 과정이 정형에 비해 추가되기 때문이다.

이어서 자연어라는 것은 말 그대로 일상에서 사용하는 언어를 의미하는데, 이러한 자연어가 포함된 각종 문서같은 텍스트들을 데이터 분석에 적합하게 만들기 위해 그 안에 있는 속성들을 파악하는 기법을 자연어 처리라고 지칭한다.

이 부분을 읽으면서는 예전에 한 과학잡지에서 AI가 학습하는 과정을 설명하는 article을 본 적이 있는데, 거기에서 자연어라는 용어를 봤던 기억이 문득 떠올랐다.

다시 본론으로 돌아와서 자연어 처리가 중요한 이유를 간단히 언급하자면 본격적인 데이터 분석에 선행되는 작업이기 때문이라는 게 일단 가장 큰 이유다. 기타 다양한 이유들도 있지만 가장 핵심은 데이터 분석의 사전작업 성격 때문이라고 말할 수 있다.

이와 비슷한 개념으로 텍스트 마이닝이라는 것도 나오는데 이는 앞서 자연어 처리로 1차 가공된 데이터들을 다시 분석하여 그 안에 내재된 의미나 의도 등을 파악하는 거라고 보면 된다. 이 책이 데이터 관련 서적치고는 비교적 초심자들에게 맞춰서 핵심만 쓰다보니 구체적으로 들어가지는 않지만 일단 이 정도의 기본 개념만 알고 있어도 좀 더 심화된 다음 단계로 나아가는 데 도움이 될 듯 하다.

실험횟수가 많으면 대체로 정규분포를 따른다. 하지만 그중에서 정규분포를 따르지 않는 이산확률은 어떻게 설명할까? 그 해답은 푸아송 분포Poisson distribution에 있다. - P165

여기서 말하고자 하는 것은 바로 앞서 계속 이야기한 실험이나 관찰 횟수의 시간 간격이다. 옛 연인에게서 온 편지는 30년 만에 한 번이고 프랑스의 극악 범죄는 100년에 한 번이다. 이를 실험에 빗대자면 30년과 100년을 기다려야 두 번째 실험이 가능하다. 긴 시간을 기다린다면 실험 횟수는 꾸준히 증가하겠지만, 실험 횟수로 정규분포를 충족하기에는 시간이 너무 오래 걸린다. 그러므로 딱히 정규분포를 따른다고 이야기하기도 그렇다. 그래서 푸아송 분포가 필요하다. 푸아송 분포는 시간이 충분히 흘러 그 시행 횟수가 충분하다고 가정한다. - P167

푸아송 분포의 핵심은 사건이 발생한 시간 간격(람다)으로, 일정한 간격으로 발생하는 사건의 확률을 구한다. - P167

푸아송분포는 시행횟수가 충분히 많아도 그 확률이 매우 낮을 때 이용한다. - P167

인공지능을 간단하게 표현하면 스스로 판단하고 결정해서 행동하는 것을 의미한다. 이미 내가 할 일을 알고 행동한다는 것은 선행 예측이 이루어진다는 것이다. 그러므로 ‘데이터 분석의 최종 목적은 예측에 있다‘고도 볼 수 있다. - P168

하물며 우리가 점을 보는 것은 미래를 보기 위함이지 내 삶을 돌아보고자 하는 건 아니지 않은가. - P168

군집과 분류를 중요하게 생각하는 이유는 실무에서 공략 대상, 즉 분석 대상을 명확히 하는 데 군집과 분류가 매우 유용하기 때문이다. - P168

규칙이란 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악하는 작업을 의미한다. 규칙을 찾으면 바둑처럼 다음 수가 보인다. - P168

새로운 상황을 설계하고 해당 상황에 유연하게 대처할 수 있는 신의 한수를 찾는 일 (예측) - P169

원래 데이터란 현실 세계에 존재하는 모든 것이다. - P173

시장조사기관 가트너는 기존 데이터와 구별하는 빅데이터의 요소를 3V로 설명한다. 3V는 대용량 데이터 (volume, 크기)와 이를 빠르게 처리하는 기술(velocity, 속도), 다양한 종류의 데이터(variety, 다양성)를 의미한다. 적어도 이 세 가지 특성이 있어야 빅데이터라고 부를 수 있다. 최근에는 여기에 정확성 Veracity 또는 가변성 Variability을 추가해 4V로 설명하기도 한다. - P173

빅테이터를 포함한 모든 데이터는 분석 대상이라서 빅데이터에는 분석의 개념이 포함돼야 한다. 그리고 모든 데이터 분석 활동은 가치를 창출해야 한다. - P173

빅데이터는 빠른 속도로 데이터를 수집하고 발굴해 분석한 후 유용한 가치를 창출하는 다양한 형태의 거대한 정보 집합체를 의미한다. - P173

빅데이터 분석은 모든 유형의 데이터와 적절한 컴퓨터 기술, 그에 맞춤화된 알고리즘과 가치 창출을 위한 유용한 통계적 분석 기법의 결합이다 - P174

빅데이터의 성공적인 공략을 위해서는 대용량 데이터를 자원화하고 이를 가공, 분석, 처리하는 기술을 갖춰야 하며 도출된 결과와 의미를 통찰하는 인적 자원도 있어야 한다. - P175

고된 혁신으로 가는 길에 밑거름이 돼줄 훌륭한 도구가 바로 빅데이터 분석이다. 조직의 행동 패턴, 주변 혹은 시장의 변화와 변동 사항을 알면 바꾸고 도전해야 할 목표를 명확히 설정할 수 있다. - P176

빅데이터 분석은 우리가 가진 능력을 좀 더 효율적으로 분배하고 최대로 이끌어 내게 한다. 어디에서 병목현상이 발생하는지, 어느 부분을 혁신하면 새로운 도전이 가능한지를 분명하게 설명할 수 있다. - P176

빅데이터 역시 분석에 따른 가치가 충분히 창출돼야 의미가 있다 - P177

빅데이터 분석의 핵심은 가치가 있는 데이터를 모으는 것이다. 가치가 있는 데이터가 충분해야 분석을 통한 결과도 신뢰성이 확보된다. 즉, 데이터의 가치에 따라 빅데이터 분석의 성패가 결정된다. 이러한 가치 있는 데이터를 모으는 활동, 그것이 바로 데이터 마이닝 data mining이다. - P177

데이터 마이닝은 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정인 반면, 데이터 분석은 분석 대상이 명확 - P178

통계 분석에서는 대상이나 표본자료 간의 관계가 성립되거나 유사한 대상을 기준으로 하지만, 데이터 분석은 전혀 어울릴 것 같지 않는 대상 간에도 관계를 도출하고 연관성을 찾을 수 있다. - P178

통계 분석은 정교한 분석 기법을 실행해 그 가치의 정확성을 높이는 데 치중하지만, 빅데이터 분석은 정확성은 물론 다양한 기법을 결합해 전혀 예상치 못한 결과를 도출하는 것에도 큰 의미를 부여한다. - P178

빅데이터 분석은 단순히 통계적 분석 기법만을 요구하지 않는다. 다양한 분야의 지식과 컴퓨팅 기술, 여기에 적절한 알고리즘 능력과 인문학적 이해 같은 다양한 학문과 기술을 요구한다. - P179

이전의 통계 분석을 중심으로 한 데이터 분석은 분석 결과를 해석하고 도출된 가치를 판단해 의사결정을 수행하는 반면, 빅데이터 시대의 데이터 분석은 분석 자체가 곧 의사결정이 되고 실행된다. - P179

데이터 분석의 핵심 재료는 데이터다. 데이터가 있어야 분석도 하고 결과를 가치로 연결할 수 있다. 그것이 통계 분석이든 빅데이터 분석이든 재료가 있어야 한다. - P182

시대가 급변함에 따라 데이터도 함께 변하고 있다. 이제 데이터를 분류하는 척도뿐 아니라 그 생김새 (유형)까지도고려해야 하는 시기에 접어들었다. - P182

‘데이터는 현실 세계에 존재하는 모든 것‘ - P182

데이터 분석을 할 현실 세계의 모든 것은 머릿속, 데이터베이스, 엑셀 시트 등 어딘가에 저장돼 있다. - P182

개체, 속성, 값의 관계 - P183

현실 세계의 모든 것을 확인하고 그 특징인 속성을 구분해 해당 속성에 값을 정리한 것 (정형 데이터) - P183

사람, 상품, 생각 등 현실 세계의 모든 것은 그들이 가진 속성에 따라 정리할 수 있다. - P183

정형과 비정형 데이터의 구분 기준은 속성이다. 정형 데이터는 미리 정해진 속성에 따라 정제해 분류된 데이터를 말하고, 비정형 데이터는 데이터 안에서 속성을 찾아서 의미를 새롭게 부여해야 하는 데이터다. 따라서 정형과 비정형 데이터는 그것이 정해진 속성에 따라 구분되냐 아니냐의 차이가 있다. - P183

비정형 데이터 분석은 정제되지 않은 데이터를 통해 그 안에 품고 있는 속성을 탐사하고 의미를 부여해 가는 과정이다. 비정형 데이터는 날것 그대로다. - P183

비정형 데이터를 ‘아직 속성을 파악하지 못한 데이터‘ 라고 말하면 어떨까? - P183

인사말이 적힌 문서는 아직 그 안에 들어 있는 속성이 정리되지 않은 비정형 데이터였다. 따라서 문서 그대로를 하나의 데이터로 본다면 이제 그 안에 내포된 속성을 찾고 의미를 부여해야 했다. - P184

문서에 포함된 언어는 일반 사회 속에서 서로의 약속에 따라 사용된다. 이렇듯 일상에서 사용하는 언어를 자연어natural language라 하는데, 이러한 자연어의 속성을 파악하는 기법을 자연어 처리 natural language processing 라고 한다. - P184

인터넷의 보급과 IT 기기가 보편화되기 이전의 데이터 분석은 속성에 따라 구조화된 데이터의 표본을 다루는 데 더 많은 노력과 시간을 투자했다. 그러나 비정형 데이터가 급속도로 증가한 지금은 자연어 처리와 관련한 연구와 노력이 데이터 분석 분야에서도 매우 중요하게 인식되고 있다. - P184

자연어 처리의 범위는 음성과 문서를 모두 포괄하며, 이제 자연어 처리를 넘어 자연어 생성 분야까지 연구가 확대되고 있다. 오늘날 자연어 처리는 인공지능의 중요한 영역으로서 활발히 연구되고 있다. - P184

자연어 처리 기법은 가히 ‘신의 영역‘이라 할 정도로 아직은 어렵고 난해하다. 이런 이야기를 하는 건 단순히 언어적 기능과 문법의 의미, 패턴, 형태를 반영하는 것을 넘어 이제 언어에 내포된 감정 영역까지 다루기에 하는 얘기다. - P185

현재의 데이터 분석은 단순한 기법 하나로 가치에 도달하기가 쉽지 않다. 즉, 우리가 원하는 방향으로 데이터가 알아서 속성별로 정리된 구조화된 형태가 되지 않는다는 이야기다. 결국 자연어 처리 기법은 데이터 분석에 앞서는 전처리 과정으로서 매우 중요하다. - P185

자연어 처리 분야는 인공지능 분야와 연결된다. - P185

텍스트 마이닝은 글로 표현된 모든 것을 파악해 그 안에 내포된 의미와 의도, 성향 등을 구별하는 기법이다. - P186

텍스트 마이닝으로 도출된 모든 결과가 반드시 가치로 연결되는 건 아니라는 뜻이다. 텍스트 마이닝은 데이터 분석 기법이 아니기 때문이다. 물론 텍스트 마이닝의 결과는 충분히 유용하다. 그러나 여기에 그치지 않고 데이터 분석까지 이어서 하는, 즉 데이터 분석을 위한 전처리로 텍스트 마이닝을 하는 경우가 더 많다.  - P186

텍스트 마이닝뿐 아니라 현재 모든 데이터 마이닝은 한 가지 기법만으로 충분히 설명되지 않는 경우가 많다. 여러 복합적인 분석 기법을 활용하는 능력이 데이터 분석가에게 중요하다. - P187

추가로 텍스트 마이닝이 중요한 이유는 일상에서 언어, 즉 자연어로 의사소통을 하기 때문이다. 여기서 언어는 음성과 문자 모두를 말한다. - P187

음성 인식이든 문자 인식이든 분명한 것은 상대방의 의도와 의미를 파악하는 것은 인공지능을 넘어 미래의 가치 창출에 핵심이 될 거란 점이다. - P187

데이터 마이닝을 넓은 의미로 보면 데이터 분석을 하기 위해 데이터를 구조화하는 작업이라고 할 수 있다. - P187

머신러닝 machine learning과 딥러닝 deep learning은 모두 데이터를 활용해 인간의 지시 없이 작동하는 알고리즘이라 보면 된다. 데이터를 재료로 활용하지만 진행 과정은 컴퓨터과학에 더 가깝다. 이 알고리즘은 새로운 신호 (데이터)가 들어오면 자동으로 계산하고 판단해 실행에 옮긴다. - P189

알아서 판단하고 알아서 결정하는 알고리즘. - P189

판단 방식은 크게 두 가지로 나뉜다. 입력된 대상을 이전에 경험한 적이 있는가와 없는가다. - P189


댓글(0) 먼댓글(0) 좋아요(8)
좋아요
북마크하기찜하기 thankstoThanksTo