앞으로 데이터 분석을 시작하려는 사람을 위한 책
구도 다쿠야 지음, 김정환 옮김 / 루비페이퍼 / 2014년 5월
평점 :
장바구니담기


신입사원 시절, 일이 없어 놀던 내게 상사기 미션을 줬다.

"재고 관리 시스템을 구축했는데 전혀 사용을 안하고 있어. 이 시스템을 사용할 아이디어를 한 번 내보지 않겠나?"

물론 날라리 사원이었던 나는 그냥 대충 하다말로 다른 프로젝트에 참여하면서 그 일을 까맣게 잊고 말았다. 지금 생각해보면 참 웃기는 일이 아닐 수 없다. 쓰지도 않는 시스템을 도대체 왜 말들었단 말인가. IT업계에 15년 이상 몸 담아 보니 이렇게 돈 들이고 시간 들이고 만든 시스템이 무용지물이 되는 경우를 심심찮게 보게 된다. 다들 무슨 CRM이네 메타 시스템이네 유행한다 싶으면 정말 필요한지 따져보지도 않고 묻지마 투자와 시스템 구축을 일삼는다. 그러고는 운영을 제대로 안하고 돈은 돈대로 날린다.

 

몇몇 국내 카드사들이 "빅데이터를 이용해 고객을 분석" 하며 선전을 하는데 솔직히 내 생각에는 이미 예전부터 그들 나름의 데이터 분석을 하고 있었으며 그 기법은 통계적 기법이나 데이터 마이닝 등이었을 것이다. 그러니까 분석하는 방법에 있어 진일보한 것은 아니고 포장만 "빅데이터"로 했을 가능성이 높다. 그 전에는 그들이 고객분석을 안했겠는가? 잘 모르는 일반인들을 대상으로 이런 과장을 하기는 무척 쉬운일이다. 그래서 데이터 분석에 대한 사회 저변의 인식과 지식을 끌어올리는 일이 중요하다. 잘못된 정보에 대한 판단력을 기르기 위해서라도 말이다. 그리고 빅데이터의 이상 열풍에 의한 데이터에 대한 환상을 조금은 불식시킬 필요도 있다. 이 책을 읽으면 실제 데이터 분석에 대한 설명이 잘 되어 있어서 빅데이터에 대한 이해에도 큰 도움이 될 것이다.

 

일본의 실용서들을 보면 감탄하게 된다. 이런 일본 실용서들의 수준을 따라잡으려면 우린 아직 멀었다. 이 책 <앞으로 데이터 분석을 시작하려는 사람을 위한 책>을 서점에서 보고 당장 읽어보고 싶다는 생각이 들었다. 아직 이런 책은 나오지 않았기 때문이다. 저자인 구도 다쿠야는 컬럼비아 대학에서 실제 데이터 관련 분석 작업을 해 본 경험을 가지고 이 책을 썼다. 내용이 상당히 실무에 기초하고 있어서 얻을 것이 많다. 기존 데이터 관련 책들이 일반적인 사례나 지식 전달에 중점을 두었다면 이 책은 실제 저자가 데이터 분석 프로젝트를 하면서 진정 중요한 것은 무엇이고 실제 업무를 하는 데 있어서 필요한 것은 무엇인지 경험한 '진짜 지식'을 알려주고 있다. 내가 가장 공감한 부분은 바로 실제적인 비즈니스는 단순히 지식이나 기술을 가진 사람들에 의해 주도되지 않는다라고 저자가 강조한 내용이다.

 

실제 일을 해보면 고객을 설득하고 그들을 이해시키는 일이 업무의 상당부분을 차지한다. 즉, 커뮤니케이션 능력이 꼭 필요하다. 책에서도 언급했지만 수학이나 통계학을 전공한 똑똑한 인재들이 의외로 성과를 못 내는 이유는 이러한 비지니스 운용상의 노하우를 모르기때문이다. 저자의 표현대로 '땀내나는' 일들이 가득하다. 숫자나 파려면 연구소에나 가라고 말한다. 데이터 분석일을 한다는 것도 비즈니스를 하는 것이며 사람들과 부딪히는 일이다.

 

저자는 2011년 3월 11일에 일어난 동일본 대지진을 보고 뉴욕에서의 생활을 정리, 고국인 일본으로 귀국하기로 결심한다. 미국에서 공부하고 일하면서 데이터 분석의 힘을 몸소 체험하고 이런 기술과 노하우를 고국을 위해 쓰고 싶다고 생각한 것이다. 아직은 열악한 일본의 데이터 분석 수준에 대해서도 말한다. 사실 이 점은 한국도 별반 차이가 없을 것이다. 한국도 이렇다 할 데이터 분석 관련 성공사례가 없다. 이제 시작인 것이다. 저자는 강조한다. 데이터를 분석한 결과가 중요한 것이 아니고 데이터를 살리는 것도 사람, 죽이는 것도 사람이라는 말을 한다. 이것이 무슨 뜻이겠는가? 결국 가장 중요한 것은 사람의 의사결정이다. 처음부터 왜 이러한 데이터 분석이 필요한지 목표를 확실히 정해야 한다. 그리고 같은 분석 결과가 나온다 해도 어디에 적용하는지에 따라 그 적용 내용이 전혀 달라진다. 그 예로 비즈니스 영역과 공공 영역을 든다. 아무리 인구가 적어도 한 지역에 수돗물 공급을 중단할 수는 없는 노릇이다. 어떤 목적 설정을 하느냐에 따라 모든 상황은 변하며 이를 결정하는 주체는 사람이다.

 

데이터 분석을 통한 다양한 가치 창출은 시작점에 서있다. 이 시점에서 한국도 대내외의 여러 이점을 생각해서 손을 놓고 있을수만은 없다. 물론 여러 움직임은 있다. 원래 한국 사람들은 트렌드에 상당히 민감하다. 문제는 가벼운 관심이 아니라 깊이있는 모색이 필요한 시점이라는 것이다. 모든 분야에서 우리는 선진국을 따라가기에 바빴다. 데이터 분야도 크게 다르지 않다. 한국에서도 독점적 지위를 차지한 오라클은 여전히 엄청난 돈을 벌고 있다. 우리는 이런 기업이 있는가. 현재 데이터 분석이나 빅데이터의 트랜드를 주도하는 것도 대부분 미국 기업이다. 데이터 분석에는 통계학적인 지식이 매우 중요한데 일본에도 한국에도 이러한 통계학에 대한 인력충이 미국에 비해 형편없이 얇다. 사실 가야할 길은 멀고 험난해보인다. 데이터 분석이라는 새로운 영역, 아니 이제야 제대로 주목을 받기 시작한 이 분야에서는 한국이 주도하는 새로운 가치를 창출해야 한다. 무언가를 창조한다는 것은 어려운 일이지만 분명 고생한만큼의 댓가는 있기 마련이다.

 

 

< 인상적인 대목 >

P.011 데이터를 살리는 것도 사람, 죽이는 것도 사람인 것이다.

P.012 넥센 히어로즈의 이장석 구단주는 세이버매트릭스를 구단 운영에 활용한다고 공개적으로 밝히기도 했다.

P.015 올바른 수단으로 수집한 가공되지 않은 데이터는 절대 거짓말을 하지 않는다. 또한 그런 데이터를 바탕으로 올바르게 도출한 분석 결과는 기업 드으이 조직이 현재 상황을 파악하도록 도울 뿐만 아니라 앞으로 나나가야 할 방향을 제시해준다.

P.015 국내에는 아직 오픈 데이터등을 활용하거나 데이터 분석을 제대로 해서 효과를 본 기업 또는 단체가 그리 많지 않다는 느낌이다.

P.015 데이터 분석의 가장 큰 효과는 '의사 결정 프로세스의 최적화'다

P.022 아마존은 사이트를 찾아온 사용자의 속성과 구매 행동, 검색, 페이지뷰, 상품 평가 등의 정보를 분석해 사용자의 기호 경향을 산출한 다음 구입할 확률이 높은 상품을 추천하는 시스템을 구축함으로써 성공을 거뒀다.

P.030 지금까지 일본에서는 대학이나 싱크 탱크 같은 교육 연구 기관에서 데이터 과학을 다루는 인재를 적극적으로 육성하지 않았다.

P.031 미국은 많은 대학에 통계학부나 통계학과가 있다. 또 문화 이과를 불문하고 경제학, 사회학, 정치학, 심리학 등을 배울 때 통계 지식을 중요시하는 경향이 있다.

P.031 미국에서는 IT 계열이 아닌 기업의 경우도 CEO와 CXO(각 부문의 최고 책임자) 같은 경영층은 수리 통계학이나 기계 학습 영역 등의 정보 공학 학위를 가지고 있으며 그 지식을 비즈니스에 활용하는 예가 적지 않다.

P.031 최근 들어 일본에서도 드디어 데이터 과학자를 육성하자는 분위기가 형성되기 시작했지만, 아직 걸음마 단계에 불과하다.

P.033 개인 데이터의 비즈니스 이용을 허용하는 법체계가 있다는 점도 미국이 빅 데이터 대국이 되는 데 순풍으로 작용했다.

P.038 미국에서는 국제적으로 영향력이 큰 정책을 결정할 때 반드시 통계 데이터를 바탕으로 시뮬레이션을 한다. 내가 컬럼비아 대학에서 공부한 것도 정책 결정의 현장에 데이터 분석을 도입하는 것이었다.

P.038 이른바 '감'이나 '상식'에 지나치게 의존하지 않고 통계학의 힘으로 판단의 정확도를 높이기 위한 근거를 이끌어낸다

P.040 설령 사내에 데이터 분석에 관한 노하우나 기술, 또 분석을 담당할 인재가 없다고 해도 이를 보완할 방법은 분명히 있다. 그러나 데이터 분석의 목적이나 리더십, 열정을 결코 외부 영입으로 해결할 수 없다. 자신의 기업을 되돌아보며 경영층에게 어느 정도의 각오가 있는지 살펴보기 바란다.

P.042 일본과 미국에서 모두 일한 경험이 있는 나로서는 의외로 일본보다 미국이 더 일을 신중하게 진행한다고 느낄 때가 있다.

P.046 분석은 어디까지나 시장 설계나 비즈니스 전략, 제도 설계의 존거 중 일부에 불과하므로 분석 자체를 목적으로 삼아서는 안 된다는 점을 철저히 교육받았다. 요컨대 목적에 따라 통계나 분석 수법을 올바르게 실천해 결과를 이끌어내는 것이 중요하며, 이를 위해 분석 담당자는 단순히 분석 자체에 재미를 느끼는 것으로 끝내서는 안 된다. 협업 필터링 같은 일부를 제외하면 통계나 기계 학습 자체에는 의사 결정을 완전 자동화하는 힘이 없다.

P. 051 나는 PCIP에 참여하면서 통계학이 공공 의료라는 거대한 비전의 프로젝트에 얼마나 유용한지 실감했다.

P.058 아무리 대단한 시스템을 구축했다고 해도 그것이 현장에서 활용되지 않는다면 아무런 의미도 없다. 현장 도입과 운용은 데이터 분석 업무의 최종 단계라고 할 수 있을 만큼 중요한 프로세스다

P.062 데이터 분석에서 가장 중요한 것은 복수의 기술 영역을 연결하는 힘이며 이것은 사람만이 할 수 있는 일이다. 데이터 분석팀의 리더가 가장 중요한 '채용' 프로세스를 남에게 떠넘겼는데도 성공한 기업은 본 적이 없다.

P.066 분석의 정확도를 높이는 단계, 또 모델링을 마치고 운용으로 넘어가는 단계에서는 현재의 상황을 잘 아는 사원 또는 직원의 힘이 반드시 필요하다.

P.072 데이터 분석을 실제로 하는 사람은 전문 지식을 갖춘 분석 담당자이지만, 그 밖의 관계자들도 최소한의 통계 지식은 아는 상태에서 프로젝트를 진행해야 한다.

P.079 데이터 분석은 우리가 사는 이 세상에서 볼 수 있는 다양한 '사건이나 현상의 둘쭉날쭉함을 간파하는 것'이라고 단언할 수 있다.

P.118 데이터 분석은 오랫동안 쌓아 온 경험이나 노하우라는 암묵지에 과학적 근거를 부여해 적절한 의사 결정을 촉진하기 위한 도구다.

P.119 비단 데이터 분석뿐만 아니라 어떤 영역에서든 '이렇게 높은 정확도로 분석했으니 절대 틀릴 일이 없어.'라는 믿음은 매우 위험하다. 예를 들면 기업이 신용 카드의 부정 사용 적발률(참 양성의 검지)를 높이는 데 열중한 나머지 무고한 고객을 의심하는 사례다

P.120 데이터 분석은 그 성질상 적지 않은 오류를 동반함을 인식하고 오차를 최소한으로 억제하고자 최선을 다하는 분석자야말로 신뢰할 수 있는 사람이라고 생각한다.

P.126 회사는 도달하고 싶은 도착점과 그 도착점에 도달하기 위한 목표를 시작 단계에서 명확히 정해야 한다.

P.143 경영상의 과제 해결을 목적으로 삼는 데이터 과학자의 경우는 경영 간부와의 커뮤니케이션은 물론이고 현장과의 커뮤니케이션을 얼마나 확실히 할 수 있느냐에 따라 실행멱과 영향도가 크게 달라딘다. 특히 현장과의 커뮤니케이션은 여러분의 생각 이상으로 땀내나는 일이어서, 치밀하게 세운 논리가 현실의 벽에 막히더라도 좌절하지 않고 과제 해결을 위해 끊임없이 도전하는 정신적인 강인함이 요구된다.

P.144 수학이나 통계에서밖에 전문성을 발휘하지 못하는 인재에게 데이터 분석 전반을 맡기는 것은 커다란 리스크가 따른다. 무엇보다 '운용'이라는 마지막 관문을 극복하기는 내 경험에 비추어 봐도 상당히 어려운 일이다.

P.144 프로젝트를 진해하는 과정에서 단독으로 수학이나 통계에 관한 전문 지식을 활용하며 진행할 수 있는 것은 수리 모델링 정도다. 데이터 분석 전체에서 이 작업이 차지하는 시간과 노력의 비율이 얼마나 될 것 같은가? 많이 잡아야 10퍼센트에서 20퍼센트에 불과하다. 그 외의 대부분은 경영 간부나 현장 사람들과 밀착해야 하는 작업들이다.

P.145 그 밖에 데이터의 비정규화나 구조화 데이터로 변환하는 작업에도 막대한 시간과 노력이 들어간다.

P.145 데이터 과학자가 하는 일에는 분석 전의 데이터 전처리 같은 지루한 작업도 있고 예측 모델의 생성과 운용 설계를 위한 현장 의견 청취와 회의, 설명회 실시 등 사람을 상대해야 하는 실무도 많다. 그런데 단순히 계산만 잘하면 된다고 착각하다 이런 현실의 벽 앞에 좌절하는 엘리트가 많다.

P.147 현장에서 일하느 사람들에게 통계학은 자신과 인연이 먼 학문일 경우가 보통이다. 그러므로 같은 직종의 동료와 대화할 때 쓰던 말을 그대로 현장에서도 써서는 안 된다. 전문 용어는 알기 쉽게 풀어서 말해야 하며, 복잡한 개념은 다른 표현으로 바꾸거나 그림을 동원해 이해를 도와야 할 것이다. 다시 한 번 말하지만, 데이터 분석은 결단을 위한 도구일 뿐 그 자체가 목적이 될 수는 없다.

P.153 나는 데이터 과학자에게 요구되는 소양이나 능력을 최대한 분해한 다음 각 영역의 전문가를 사내에서 찾아내 조직화하는 방법을 추천한다. 각 분야의 지식을 지닌 인재를 모아서 팀을 만들면 한 명의 우수한 데이터 과학자보다 효율적으로 과제를 해결할 수 있다.

P.197 분석할 만큼 데이터가 충분하지 않더라고 결손 보완을 실시하거나 결손치의 존재를 허용할 수 있는 의사 결정 트리 분석 등의 알고리즘을 적용하면 분석이 가능하다. 또 에러의 원인을 찾아내 백업 파일에서 결손치를 보정하거나 상정되어 있던 변수 처리로 환원하면 분석이 가능해지는 경우도 있다.

P.211 데이터 분석을 통해 해결해야 하는 경영 과제의 실마리가 익숙한 현장 속에 숨어 있을 경우가 있다. 또한 현장에는 경험을 통해 얻은 지혜가 축적되어 있다. 그러므로 분석자는 올바른 가설과 가설 입안의 힌트를 얻기 위해 현장과 커뮤니케이션을 하고 탐색적 자료 분석으로 데이터를 다시 한 번 냉정하게 바라봐야 한다.

P.219 검증과 개선의 사이클에는 끝이 없다. 데이터 분석의 성과가 나타나기 시작하면 주위에 파급 효과가 나타난다. 그리고 이윽고 회사 차원의 프로젝트로 확대되면 경영 과제의 해결(전체 최적)이라는 궁극의 도착점에 다가설 수 있다. 데이터 분석의 세계에서도 '계속은 힘'이다.

P.229 대규모 시뮬레이션으로 '진도와 피해 범위를 예측하는 것'도 중요하지만, 한편으로 '재해가 일어났을 때 즉시 상황을 파악하고 정확한 분석을 실시하는 시스템 만들기'도 필요하다.

P.232 데이터 분석을 통해 얻는 힌트나 그것이 가져다주는 결과는 오직 하나의 길만을 가리키지 않는다. 최종적으로 의사 결정을 하는 주체는 사람이다. 설령 똑같은 분석 결과를 얻었다고 해도 비즈니스의 영역과 공공의 영역은 그 결과에서 도출되는 행동이 달라진다. 목적이 바뀌면 수단도 바뀜을 말해 주는 좋은 예이며, 데이터 분석에서 목적 설정이 얼마나 중요한지를 여기에서도 알 수 있다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo