빅데이터를 지배하는 통계의 힘 : 입문 편 - 통계학이 최강의 학문이다 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김 / 비전비엔피(비전코리아,애플북스) / 2013년 7월
평점 :
구판절판


[ 빅데이터를 지배하는 통계의 힘] - 도쿄대 생물 통계학을 전공한 저자의 확률과 통계론적 리터러시에 입각한 일상 생활과 경제활동 및 그외의 과학분석에 조차도 필수 불가결한 [ 숫자] 해석 하는 힘에 대한 역서 이다..

 

세계는 근대에서 현대로 넘어오면서 더 많은 일들과 이벤트들이 생기고 다수가 한자리에 모이질 못하고 ( 물리적으로 ) 의사 결정 하여야 하는 상황과 ,  결론적인 어떤 상황이 벌어져서 현상을 거꾸로 유추하여 원인을 찾아 보아야 하는 역학 이라던가 ,  기업의 중요한 의사결정시에 필요한 데이타에 근거한 서로다른 해석의 차이또한 [ 수학적]인 유 의미를 찾아 주어야만 한다..

 

우선 통계학의 어원을 찾아 보자 .. 

 

[ 영어statistics(통계학, 통계)는 확률을 뜻하는 라틴어statisticus(확률) 또는 statisticum(상태), 이탈리아어statista(나라, 정치가) 등에서 유래했다고 한다. 특히 국가라는 의미가 담긴 이탈리아 어 statista의 영향을 받아, 국가의 인력, 재력 등 국가적 자료를 비교 검토하는 학문을 의미하게 되었다. 근대에서의 통계학은 벨기에의 천문학자이자 사회학자이며 근대 통계학을 확립한 인물로 평가 받는 케틀레(Lambert Adolphe Jacques Quetelet)가 벨기에의 브뤼셀에서 통계학자들로 구성된 9개의 회의를 소집한 것을 기원으로 하고 있다 ] -Source from Wikipedia

 

통계는 나아가  수학과 과학 생물학적인 연구 조사 뿐만 아니라 기업의 경영이나 심리학문적 연구 기타 선거및 정치적인 의사 결정에까지도 영행을 미치고 있다..  아래 참조 .

**********************************************************************************

[ 통계학의 변화 ]  현대에 들어와 데이터 과학자들로 구성된 통계 조직은 기관과 단체 그리고 기업의 수익에 영향을 미치는 다양한 데이터를 입체적으로 분석하고 결론을 얻어낸다. 미래를 예측해 더 나은 결과물을 처방한다. 수많은 데이터 가운데 의미 있는 데이터를 찾아냄으로써 더 나은 의사결정을 돕는 작업이 있는데 데이터 클리닝, 데이터 마이닝 등이다.  

기업과 기관마다 부르는 이름은 다르지만, 생산·판매와 서비스 등 핵심 직무에서 영업력 개선과 사원 복지 등 전 영역에 걸쳐 이같은 데이터 과학 조직의 역할은 전방위로 확대되고 있다. 업계에서는 주요 데이터에 대한 분석과 통계가 이뤄지는 비즈니스인텔리전스(BI) 조직이라 부른다. 데이터 분석 조직을 운영하는 IT 조직은 시스템에서 나오는 각종 데이터를 분석해 기업의 핵심 영역에 가치를 더하는 조직으로 변모 중이다.

전사자원관리(ERP· 고객관계관리(CRM· 생산관리시스템(MES· 경영 정보 시스템(MIS· 전략적 기업 경영(SEM) 등 각종 시스템에서 쏟아지는 수많은 데이터에 대한 분석능력이 미래를 예측하는 핵심 경쟁력인 시대, 이른바 `데이터 경영` 시대의 개막이 시작되었다. 이러한 시대를 ‘빅 데이터’ 기술의 시대라고 하는데 미국의 유명 경제 출판 및 미디어 기업인 포브스도 미래의 유망직업 중 하나로 '데이터 마이너(정보수집 분석가)'를 선정하기도 했다.

포브스에 의하면 빅 데이터(Big Data) 데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 수집되는 ‘빅 데이터’를 보완, 마케팅, 시청률조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다. [2][4][5]

대한민국에서는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. ‎또한 국내ㆍ외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. [6] 하지만 업계에 따르면, 미국영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략방향을 제시하는 데이터과학자 양성에 사활을 걸고 있다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행중에 있어 아직 걸음마 단계인 것으로 알려져 있다.[7]

************************************************************************************ source from wikipedia *******

 

오늘날 우리가 살고 있는 세계는 거대한 여러대의 슈퍼컴과도 같다... 바야흐로 [ 빅데이터]라고 불리우는 시대에 살고 잇는데

지금 이자료를 입력 하고 있는 일련의 행위 조차도 오늘 발생 시킨 웹 이나 페이지 뷰 수십억 페이지 자료중의 하나일 것이고

이러한 것이 위의 통계적 활용도에 나온 [ 데이터 마이닝] 적인 기법에 의해 누군가에게 찾아 보고 싶은 자료나 읽어보고 싶은 자료라면 해당 하는 키워드를 [ 구글이나 ] 국내의 [네이버] 검색창에  질의 / 응답을 통해 찾아 볼 수 도 있다...

 

무의식 중이긴 하겠지만 우리는 늘 [최적화 기법] 이란 방법을 통해서 의사 소통을 하거나 직장과 집 , 혹은 학교와 도서관등의 거리에 대한 최적화된 Path 를 가지고 경로 분석을 하여  가장 자신에게 적합한 방식으로 이동을 한다...

 

기업도 마찬 가지여서 수많은 고객 데이터와 상품들 중에서 어느것이 누구에게 매칭 되는지를 찾가 위해서는 수많은 질의를 거쳐야 할것이다.. 그러나  통계적 기법의 질의/응담 방식으로 10대 , 20 대 , 40-50 대 별로 표본 조사를 한다라던가 ,  글로벌 기업이라면 나라별로 다양한 문화적인 특성을 살려  고객의 기준치와 고객이 원하는 상품의 적절한 유효 가격과 한계 허용치 알아 낼 수가 있을지도 모른다... 이또한  수많은 빅데이터를 의미있게 만드는 통계적 절차를 통해서 이다...

 

이 책에서는 크게 통계적인 활용 분야를 6가지로 집약 하였다..

1. 사회 조사법 대  역학과 생물 통계학

2. IQ를 탄생 시킨 심리학 통계학

3. 마케팅 현장에서 생겨난 데이타 마이닝

4. 문장을 분석하는 덱스트 마이닝

5. '연역'의 계량 경재학과 ' 귀납'의 통계학

6. 베이즈파와  빈도론파의 ' 확률'을 둘러싼 대립  등이다..

 

통계역학적인 부분이 근대에있어서 적극 활용된 부분은  '역학 ' 분야 였다.. 알수 없는 이류로 많은 사람들이 병원균에 노출되고  콜레라균이 발생한 지역이 상수도관의 물을 끌어 오는 지점이 강의 상류인지 하류인지에 따라서 차이가 있다라는 점이나  나이팅게일이 전투중 다신 병사들이 후송 이후 열악학 병원 환경 에서 감염으로 인한 사망률이 더 높다라는 근대 통계 관점의 시초라고 하는 그러한 분석 ,,, 나아가 일련의 이러한 사회 , 역학 적인 조사법들은  1929년 대공황 시 미국 루즈벨트 대통령이  전체 인구중의 실업자률을 파악 하는 거의 미국 전역에 걸친 자료 조사 중의 표본 조사로 더욱 활기를 띠게 되었다고 볼수 있다..

 

[빅데이타]를 정치에 적극 활용한 예로는 미국 대통령 재선 투표 선거에 승리한  '오바마 ' 캠프가 있다... 대량의 광범위한 데이타로부터 필요한 개개인의 정보를 파악 하고 , 마이크로 타겟을 정확히 조준 하여  관심사항에 대하여  대량 이메일을 보낼수 있는 일들은 아마도 20년전의  선거이면 어려웁지 않았을까 싶다...

 

인간은 스스로 자기 합리화에 약한 동물이고 사회적인 집단 이기주의가 있는 존재 이기도 하다.. 군중 심리라고도 하지만

불확실한 근거에서 출발한  개개인 호불호가  어느새 신빙성이 있는 주장으로 받아 들여 지는 일들이 왕왕 발생 한다..

 

개인이나 회사나 정부기관등  객관적인 자료 분석과 이를 토대로한  올바른 해석 [ 리터러시] 능력이 없이는  좋은 데이타? 나  적정한 수준의 자료 또한 무의미 하다고 볼수 있다.. 해석 능력이 결여 되거나  객관화 되지 않는 통계치 

혹은 너무나도 적은  표본 집단이 모집단을 대표 하는 것처럼 오도 하는 사례 등 ,  우리는 종종 이러한 사회 , 정치적인 기사중에 의외로 잘못된 지표들을 가지고 갑론 을박 하기도 한다...

 

만약 중차대한 나라의 의사 결정이나 어느 조직에서의 존망을 다투는 의사 판단 기준의 정확성이 필요로 하다면 필히 [통계학적 리터러시]는 필수 적인 요소 중의 하나라고 보고 싶다...이는 바꿔 말하면 통계치를 바라보는 해석의 올바름을 견지 하기도 한다..

 

아무리 현명한 개인 이라도 이미 드러난 객체화된 사실은 뒤집을 수 없고 , 미래의 이떤 일의 개연성의 성사 여부는 가능성의 확률을 점치기 위한   통계적 수단의 하나일 뿐이다..   우리의 의지는 그러한 차이를 조금 더 좁혀 나가게 하는 결과물로서의 기여는 있을 것이라고 본다..

 

일상 생활에서도 이러한 통계 리터러시의 발상의 전환 이라면 늘 새롭고 보다 객관화된 사물 보기를 할 수 있을 듯  하다..

 

2013 / 8/11 .. 이성은 통계적 리터러시를 따르고 싶은 데도  때때로  그러한 수치를  믿고 싶어 하지 않는 인간의 본성은 또 무엇일가 ,, 인간은 또한   미래  주어지지 않은 사건에대해선 현제에 안주 하고 싶은 관성의 존재 인가 ? 라고 자문 해보는  < 책력거99 > 입니다...


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo