Head First Data Analysis 헤드 퍼스트 데이터 분석 - 하둡을 이용한 SQL 기반 빅데이터 분석 도구 Head First 시리즈
마이클 밀튼 지음, 김경태 옮김 / 한빛미디어 / 2013년 4월
평점 :
절판


 점점 사회가 정보화가 진행되고, 정보의 공개 공유가 많아지면서 사용할 수 있는 데이터의 양은 폭발적으로 증가하고 있습니다.

 이제는 데이터가 없거나 충분하지 못해 문제가 생기는 경우보다 어떠한 데이터를, 어떻게 사용해야 할지에 대한 고민이 커지는 것 같습니다. 이러한 시점에 데이터 분석에 대한 기본을 배울 수 있지 않을까 하는 기대로 책을 읽기 시작했는데 결과 부터 말하자면 만족할 만한 결과를 얻을 수 있었습니다.

 

 1장 입문에서  가상의 Acme 화장품 회사의 데이터를 이용해 매출의 시장 목표치를 넘어 서는 방안을 도출 함으로서 데이터 분석이 효과를 거둔 것 같아 보이게 하지만 바로 2장에서는 관찰한 데이터, 기존의 데이터가 아닌 실험을 통해 얻은 데이터로 문제를 해결하는 것을 보여줌으로서 데이터 분석 작업이 기존 데이터의 분석하는 것에 그치는 것이 않음을 알려 주고 있습니다.

 스타버즈라는 가상의 커피회사의 매출 인상을 위해 커피의 가치를 설득한 그룹, 가격을 인하한 그룹, 아무것도 시행하지 않은 그룹을 바탕으로 커피의 가치를 설득하는 것이 매출을 늘리는 것임을 결정하며 분석 및 통계의 가장 기본적인 원칙은 비교법이라 말하는 이유를 알게 해 줍니다.

 

 6장 베이지안 통계와 8장 휴리스틱 분석은 행동 경제학 서적을 읽었다면 너무나 반가울 만한 부분으로 희귀병에 걸린 확률에 대한 문제가 도마뱀독감으로, 휴리스틱과 알고리즘 사고를 쓰레기 배출을 줄이기 위한 캠페인으로 설명되고 있습니다.

 

 또한 이론 적인 부분이나 각자 종이로 해보는 것 뿐만 아니라 각종 툴에 대해서도 소개하고 실습 할 수 있도록 다루고 있습니다.

 3장에서 요인을 조작해 원하는 것을 최대한으로 얻을 수 있는 최적점을 찾는 최적화를 배우며 

처음으로 MS오피스의 엑셀을 이용합니다. 해찾기라는 있는지도 몰랐던 엑셀의 기능을 통해 복잡한 계산없이 최적점을 찾는 과정을 배울 수 있었습니다.

 9장에서 데이터의 분포, 변동성 중심 집중 경향을 측정할 수 있도록 사용되는 히스토그램을 배우며 통계 계산 도구의 미래가 될 수 있는 무료 오픈소스 프로그램 R을 소개, 설치, 사용하게 됩니다.  

이후 R은 책에 단골 손님으로 등장하여 다양한 사용법을 배울수 있었습니다.

 또한 12장에서는 가상의 뉴스잡지를 통해 엑셀과 R을 통해 각각의 테이블을 통해 데이터를 뽑고 분석하는 과정을 통해 각각의 테이블을 관리해줄 RDBMS 의 필요성을 먼저 이야기 한 후 소개하고 있습니다. 이와 같이 지식의 나열이나 툴의 소개가 아닌 해당 작업이 필요한 이유에 대해서 먼저 충분한 공감을 얻고 배울 수 있었습니다.

 

 예상외로 데이터 분석에만 속한 것이 아니라 전반적으로 사고하는 법, 문제 해결에 대한 과정들을 배울 수 있었으며 4장의 데이터 시각화에서 제일 중요한 것은 적절한 비교를 말한다는 부분과 5장 가설 검증에서 확인되지 않은 가설을 제거하는 반증법을 배운 것이 저에게 제일 유익했습니다.


  Headfirst 의 서적 답게 많은 사진과 그림, 도표가 가득하기에 488페이지라는게 믿기지 않을 정도로 쉽게 읽을 수 있었고 각 장에서 배워야 할 내용이 실무에서도 있을 법한 해결해야 할 목표가 스토리로 제공되기에 지루하지 않게 읽고 배울 수 있었습니다.

 그 목표를 향해 배움과 일을 하며 배워 나가고 있기에 스토리에 몰입해서 예제를 같이 실습하고 결과를 보기 전에 생각을 해본다면 실제 업무에서도 큰 도움을 줄 수 있으라 봅니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
모방의 경제학 - 모방은 어떻게 혁신을 촉진하는가
칼 라우스티아라 & 크리스토퍼 스프리그맨 지음, 이주만 옮김 / 한빛비즈 / 2013년 4월
평점 :
절판


  연간 매출 1조 3천억 달러로 추산되는 규모가 방대한 패션산업에는 모조품이 만연하고 게다가 합법적이다.

 1941년 패션업계 스스로 베끼기, 즉 모방을 규제하기 위한 미국 패션창작자 협동조합에 대한 연방거래위원회 소송 판결문에서 대법원은 만연한 해적행위가 패션계의 엄연한 현실임을 인정했다.

 

 하지만 그런 현실이 제조업자들이 독점금지법을 위반하고 서로 공모해 경쟁을 방해하는 것 까지 정당화하지는 못햇고 그 후 미국 패션창작자 협동조합은 사라지게 되었다.

 우리가 혁신을 생각할때, 베끼기가 만연하면 창작 의욕이 꺽이고 이에 따라 시장이 침체 된다고 보는 관점이 일반적이기에 패션산업은 진작에 경제적으로 추락했어야 마땅하지만 패션산업은 현재 생존 정도가 아니라 눈부시게 성장하고 있는데, 이는 오히려 베끼기가 합법적이기 때문에 모조품이 만연하면서  인기를 끌던 디자인은 빠른 속도로 패션 주기가 단축되고, 패션에 민감한 사람들은 항상 더 새로운 디자인을 찾아 나서게 만들고 있다.

 즉 베끼기는 현대 패션산업의 주춧돌이라 할 수 있는 유행이 꽃피고 지는 데 기여하고 있었고 패션산업은 베끼기가 성행하는 가운데 역동성과 창의성을 유지하면서 번성하고 있다.

 

 이 책의 1장에서는 위와 같이 패션사업의 예를 통해 베끼기, 즉 모방이 일반적인 생각과 달리 산업의 침체나 손해 보다 오히려 큰 이익을 주는 것을 알게 해준다.

 그러면 과연 패션산업이 다른산업과 유난히 다르기에 그런 것일까?

 

 이러한 사정은 요식업계도 마찬가지라고 한다.

 요리사들은 자신이 개발한 요리에 대한 법적 보호장치가 거의없는 상황에서 어떻게 창의성을 계속 유지하고 있는가?

 베끼기에 대한 일반적 견해, 즉 베끼기로 인해 창의성이 말살될 것이라는 전망은 요식업계에도 적용되지 않는 것처럼 보인다.

  세계화로 인해 전 세계의 재료들이 그 어느 때보다 풍부하게 공급되고 구하기도 쉬워졌고 분자요리 혹은 모더니스트요리 운동처럼 새로운 조리법들이 곳곳에서 다양하게 선보이고 있다.

 

 날마다 새로운 요리가 개발되고 다듬어지고 있는 것이 분명하다.

 여러모로 현재 요식업계는 황금기를 누리고 있으며 우리는 유례없이 창의적이고 다양한 요리를 맛 볼수 있는 환경에 살고 있고 현재 요식업계는 더할 나위 없이 창의적이다.

패션디자인과 마찬가지로 요식업계의 혁신 활동에는 아무 이상이 없다.

 

 이 외에도 칵테일, 코미디, 미식축구, 폰트, 금융사업등을 통해 베끼기가 우리의 편견과 다르게 오히려 어떻게 혁신을 촉진하는지를 보여주고 있었다.

 

 이 책을 통해 모방에 대한 강하게 형성되어 있었던 내 안의 프레임, 고정관념을 깨트리고 다시 생각해보게 되었다.

 하지만 너무나 좋은 혁신과 창작을 했다면 어느정도 다시 그 힘든 혁신으로 내몰리지 않을 정도의 보호는 필요하지 않나 하는 생각이 자꾸만 떠오르는건 어쩔 수 없는 것 같다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
리팩토링 Refactoring - 코드 품질을 개선하는 객체지향 사고법
Martin Fowler 지음, 김지원 옮김 / 한빛미디어 / 2012년 11월
평점 :
구판절판


 최근 화제의 린스타트업에서는 비지니스의 방향을 기존의 "Ready-Aim-Fire" 구조가 아닌 "Ready-Fire-Aim"로의 전환을 이야기 하고 있습니다.

 가설을 완벽히 실험하고 검증한후 시장에 출시할 수 없기에 출시한후 실제 시장의 피드백을 반영하는 것인데 해당 가설은 이미 마틴 파울러가 1999년에 쓴 리팩토링 책에 완벽한 설계를 할 수 없고, 완벽한 설계를 한다고 해도 시간에 흐름에 따라 변화가 일어나기에 리팩토링이 필수라는 글을 떠올리게 합니다.

 

 리팩토링은 겉으로 드러나는 기능은 그대로 둔 채, 알아보기 쉽고 수정하기 간편하게 소프트웨어를 수정/구조를 변경 하는 작업으로 정의 됩니다. 

 책에서 왜 리팩토링을 해야 하는지를 이론으로 설명하려 하지 않고, 바로 책의 첫 부분인 1장 맛보기 예제의 코드를 한번에 하나씩 리팩토링을 하면서 코드 효율성이 높아지고 구조가 체계화되는 모습을 보여줍니다.

 해당 예제를 리팩토링 하는 과정을 따라 해보면서 리펙토링의 목적이 소프트웨어를 더 이해하기 쉽고 수정하기 쉽게 만드는 것임을 알게 되며, 몇가지 기법을 바로 배우게 됩니다.

 그런데 예제를 리팩토링하는 작업을 완료 하고 보면 분명 코드 효율성과 구조는 체계화 되었으나 성능은 오히려 떨어 질 수 있음을 알게 되는데, 일부 프로그래머들이 리팩토링 자체의 목적이 성능향상을 위한 것으로 오해하지만 사실 리팩토링 작업은 성능 최적화를 위한 것이 아닙니다.

 

 리팩토링을 실시하면 오히려 단기적으로 소프트웨어는 더 느려지지만 리팩토링을 통해 소스의 추가 수정이 용이하게 즉 튜닝이 가능하게 만들어 놓으므로 나중에 속도가 나오게 튜닝할 수 있는 것입니다.

 

 이렇게 장점이 많은 리팩토링이 실제 많이 사용되지 않는 4가지 이유를 13장에서 언급하는데, 바로 현장에서 일어나는 일을 적은 것 같아 이유와 해법을 자세히 적어 봅니다.

 

1) 리팩토링 방법을 잘 몰라서

 사람은 경험하지 않고서는 깨닫지 못합니다. 도구와 기법도 사용할 때나 도움이 됩니다.

리팩토링 방법을 이 책이나 다른 계기로 알게 되고 코드를 리팩토링하면 할수록 더 깊게 넓게 이해하게 됩니다.

 가볍고 작은 리팩토링부터 시도해보기를 권장합니다.

2) 리팩토링 장점은 오랜 시간이 흘러야 가시화될 테고, 그때가 되면 프로젝트 팀원도 아닐 텐데 공연히 리팩토링에 힘을 뺄 필요가 없어서

 리팩토링하면 단기적인 긍정적 효과를 얻을 수 있고 소프트웨어의 수정과 유지보수가 간편해 집니다. 리팩토링은 목적이 아니고 수단이고, 개인이나 팀이 자신들의 소프트웨어를 개발하고 유지보수하는 다양한 방법중의 하나로 받아 드려야 합니다.

 켄드 백 처럼 훌륭한 프로그래머가 "난 뛰어난 프로그래머는 아니고, 단지 습관을 잘 들인 착실한 프로그래머다"라고 자기 암시를 하는 말을 들으며 리팩토링을 습관처럼 해야 훌륭한 프로그래머가 될 수 있을 것 입니다.

 

3) 코드를 리팩토링 하는 일은 추가적인 부담인데다, 월급은 새 기능을 추가하라고 주는 거지 리팩토링 하라고 주는 건 아니라서

 

 경험상 리팩토링으로 인한 추가 부담은 프로그램의 각 개발 단계마다 줄어든 수고와 시간을 상쇄하고도 남습니다.

4) 리팩토링하다가 괜히 멀쩡한 프로그램을 망가뜨릴까 걱정되서

 리팩토링을 하면 이전부터 있던 버그도 쉽게 찾아 수정할 수 있습니다.

 

 정리하면 리팩토링을 하면 소프트웨어 설계 개선되어 이해가 쉬워지고 버그를 찾기가 쉬워집니다.

리팩토링을 통해 빈틈없는 코드를 훨씬 효과적으로 작성할 수 있다.

이는 저자가 리팩토링을 코드를 깔끔하게 만드는 것 이상의 순기능을 하며 소프트웨어 개발 과정의 핵심 요소라고 까지 생각하는 이유라고 할 수 있겠습니다.

 

 이 책에서 리팩토링이 꼭 필요한 시점이나 상황에 대한 정확한 기준을 제시하진 않습니다.

 

 중복코드, 장황한 메서드, 방대한 클래스, 과다한 매개변수 등 자신의 코드나 남의 코드에서 많이 볼 수 있었던 구린내로 표현되는 22가지 리팩토링이 필요한 상태를 제시하고, 해당의 상황에 대해 저자와 주변분들이 몇 년간 수정하고 보완한 리팩토링 목록에서 찾아서 적용해 보면 됩니다.


 

 

 책에 언급이 되어 있지만 리팩토링에 있어 사람의 직감보다 뛰어난 기준은 없기 때문에 충분한 연습을 통해 감을 잡는 방법 밖에 없습니다.

 그러나 이 책을 참고하면 적어도 방향 만큼은 제대로 잡게 될 것입니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
마흔의 서재
장석주 지음 / 한빛비즈 / 2012년 11월
평점 :
구판절판


 이 책은 마흔과 서재로 이루어진 한 채의 소슬한 집이라는 저자의 말처럼 방황과 미혹을 겪은 마흔의 시절을 꿋꿋하게 넘기고 마흔앓이를 하는 이들을 위해 자신의 이야기와 책소개를 곁들여 지은 책이다.
 책들을 소개 하는 여타의 책들과 다른 점은 저자의 삶에 대한 이야기가 주를 이루고 소개하는 책은 줄거리를 소개하는 형식이 아닌 필요한 최소한의 부분만 인용한다는 점이다.

 예를 들어 사소하고 위대하게 일하라는 장에서는 작가의 일에 대한 생각을 피력하며 알랭드보통의 일의 기쁨과 슬픔 116page의 한문단을 그대로 중간에 인용하였다. 
 그러기에 총 85권의 책을 소개 할 수 있었으리라는 생각이 든다.
 소개 되는 책들 중 한 두번 더 소개되는 경우도 있을 정도로 책을 소개하기 위해 자신의 이야기를 맞추는 것이 아니라, 자신의 이야기에 맞는 책 부분을 인용함이 잘 묻어나고 있다.

 마흔에 좋은 말이면 서른에도 좋지 않을까 하는 마음에 아직 마흔이 되지 않았지만 미리 엿보는 심정으로 책을 펼쳐 보았다가 책을 읽는 것으로 끝내는 여타의 사람들과 달리 그가 인용한 좋은 책의 한 구절처럼 아니 책 처럼 살고 있는 그가 너무 부러웠다.

 마흔도 늦지 않았다고 말하며 내면을 좀 더 굽어보고 고독과 고요를 즐기라고 말하고 세상의 욕심을 내려 놓고 책만 읽으며 사는 것 처럼 사는 삶.

 

 소개 해준 책중 읽지 못한 책이 너무 많아 어느 것 부터 읽어야 할지 잘 모를 정도 있지만, 몇몇 책은 아니 저자가 아래와 같이 강조한 논어 부터 읽어 볼 마음이 생긴 것 만으로도 이책을 본 큰 수확이라고 할 수 있을 것 같다.

 

 "논어는 인생에 대해 알아야 할 모든 것들, 즉 인생박물지를 담은 책이다.

 사람답게 사는 법을 배우고 싶다면 다른 책들 보다 먼저 논어를 읽어라!"


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
빅데이터의 충격 - 거대한 데이터의 파도가 사업 전략을 바꾼다!
시로타 마코토 지음, 김성재 옮김, 한석주 감수 / 한빛미디어 / 2013년 1월
평점 :
절판


 파코 언더힐의 저서 쇼핑의 과학에서 고객을 분석하기 위해 매년 5~7만명의 쇼핑객들을 인터뷰하고 2만 시간이 넘는 비디오 촬영을 통해 고객과 매장의 모습을 기록하고 복장, 손짓, 눈짓 등 우리가 생각할 수 있는 모든 행동을 낱낱히 분석하여 제품과 매장의 개혁에 꼭 필요한 정보를 추출한다고 하였습니다.

 여기서 인터뷰와 비디오등 매모는 전부 데이터(data) 입니다.

 데이터(data)는 사전적의미가 단순히 의미없는 기록에 불과 하듯, 데이터는 아무리 많아도 정보가 되지 못한다면 의미가 없습니다. 

 데이터들을 분석, 추출, 가공등의 작업을 통해 판단에 도움이되고 의미가 부여될때 비로소 정보(information)가 됩니다. 하지만 데이터가 없거나 충분하지 않다면 정보의 품질에도 문제가 생길 수 있을 것 입니다. 앞의 예에서는 많은 데이터를 사람이 모으고 분석, 추출, 가공을 하였지만 스마트폰등 디바이스와 센서등이 발전하여 폭발적으로 생성되는 데이터를 사람이 다루기에는 한계가 있는 것 같습니다.

 

 빅데이터(Big data)라는 단어 때문에 데이터의 양만 생각하기 쉽지만 책에서는 데이터의 양(Volume)이 너무 많고, 몇가지 형식에 맞출수 없는 데이터의 다양성(Variety), 데이터가 쌓이는 속도(Velocity)를 따라 잡을 수 없어서 사용 할 수 없었던 데이터들을 빅데이터라고 정의 합니다.

 또한 넓게는 처리 기술과 인재, 조직등을 다 포함하는 단어로 정의하고자 합니다. 

 이런 데이터들이 컴퓨터의 가격대비 성능이 향상되고 저장장치의 가격 하락한 바탕에 하둡등 대규모 데이터분산처리 기술이 등장함으로써 다룰 수 있게 되었다고 합니다.

  

 이 책은 이렇게 빅데이터에 대해 안내하고 이해를 높히면서 기반 기술을 소개하고 있는데 빅데이터에 대해 궁금했던 분들이라면 꼭 IT업계 종사자가 아니더라도 쉽게 설명하고 있어서 편하게 볼 수 있을 것 같습니다.

 

 264페이지의 얇은 책에서 빅데이터를 얼마나 다룰 수 있을지에 대한 의문이 있었지만 전문적인 기술적인 부분을 제외하고 이해와 실제 사례, 활용패턴, 개인정보보호 등 많은 부분에 대한 자료와 통찰을 쉽게 볼 수 있었습니다.
 게다가 회사에서 사용되는 사례 소개에서 IT 회사가 아닌 건설기계 제조회사, 맥도날드, 운송회사등도 소개 되고 있고 이 사례를 통해 우리나라, 우리회사, 내가 적용 해 볼수 있는 부분도 생각해보는 동기가 되었고, 개인정보보호 부분은 데이터를 이용하려는 회사가 아닌 이용자로서 수집되는 데이터에 대한 경각심과 생각을 해보는 시간이 되었습니다.

  

 책을 다 읽고 가장 중요한 것은 이제까지 무시했던 데이타의 가치를 깨닫는 것이고 이를 통해 보다 정확한 판단을 위한 정보로 사용 하는 것 이라는 것을 배울 수 있었습니다.

 

 참고로 책에서는 언급한 미국 정부의 데이터를 공개한 data.gov 에 접속한 국가 정보 TOP10 중 우리나라가 일본 보다 앞선 5위 였지만 불과 3달 뒤인 현재 데이터인 2013년 2월 정보는 8위를 차지 하고 있습니다. 

http://www.data.gov/metric/visitorstats/countrystatistics

 그리고 우리나라도 최근 개편된 공공데이터포털 data.go.kr을 통해 많은 데이터를 편리하게 제공하고 있습니다. 

http://www.data.go.kr

 

 책에 언급된 Tim Berners-Lee 의 TED 영상을 같이 보면 좋을 것 같아 아래에 링크를 추가 합니다.

http://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide.html


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo