데이터 과학자 : 빅데이터 시대를 주도하는 사람들 - 그들은 무엇을 배우고 어떻게 준비하는가?
차하리아스 불가리스 지음, 안성준 엮음 / 프리렉 / 2014년 11월
평점 :
절판


요새 한창 각광받고 있는 데이터 과학자에 대해 여러 가지 관점에서 기본적인 지침들을 알려주는 입문서 성격이 강한 책이다. 나도 현재 업무 중 한 쪽 발은 빅데이터 분석에 걸치고 있어서 이 분야에 대한 기술적인 배경지식은 충분하다고 생각된다. 이 책의 저자도 정보시스템 공학을 전공한 인물이라서 그런지 주로 프로그래밍과 기술적 지식에 대해 이 책에서 자세히 서술하고 있다. 심지어는 Java 프로그램 코드, Eclipse 화면, RStudio, GIT 화면 등을 보여주고 있는데, 이런 화면은 굳이 이 책에 집어 넣지 않아도 되는 내용들이라 생각된다. 어쨌든 이 책은 빅데이터에 대한 언급으로 시작하며 늘 그렇듯이 빅데이터의 특성을 나타내는 3V 또는 4V에 대한 이야기부터 전개된다. 그러면서 데이터 과학자와 데이터 분석가는 다르다고 강조한다. 데이터 분석가는 이미 알려진 방법들을 통해서 데이터가 가진 유용한 정보를 알아내고 기업가에게 보여 줄 보고서를 작성하는 반면 데이터 과학자는 직접 모델을 개발하기도 하고, 기업가만이 아닌 많은 사람이 이해할 수 있는 철저하게 데이터에 기반을 둔 분석 자료를 내놓기도 한다는 것이다.

 

그러면서 인사이트를 줄만한 사례 하나를 제시하고 있는데, 예술 업계는 빅데이터라 불릴 만한 자료가 아직 없다는 언급이었다. 어떤 미술관에서 특정 그림을 얼마나 많은 사람이 관람하는지 감지할 수 있고, 관람자 수와 입장권 판매액수를 잘 집계하고, 미술관 블로그에 다른 그림에 대해 평해 놓은 글까지 잘 조합하면 어떤 미술품이 더 인기 있는지 알게 되고 한 해 동안 미술관 전시회 입장권 가격 결정에 영향을 미칠 수 있다는 것이다. 또한 이 책은 맵리듀스, 하둡 분산 파일 시스템, 고급 텍스트 분석, 대규모 데이터 프로그래밍 언어, 대체 데이터베이스 구조를 기본적으로 이해해야 데이터 과학자라고 할 수 있다고 언급한다. 해시 테이블, B-Tree, Log Structured Merge Tree 등의 기법으로 만든 몇 가지 NoSQL에 대한 이야기부터 R, SPSS, SAS, Stata, Matlab과 같은 통계패키지들, 그리고 Java, Python, C++/C#, Perl, SQL 등 일반 프로그래밍 언어에 이르기까지 다양한 지식들이 소개되고 있다. 게다가 객체지향 프로그래밍과 더불어 벡터화는 꼭 배워야 한다는 조언까지 담겨 있다.

 

거기에 더하여 데이터 과학 기술에만 국한하지 말고 인공지능 개발이나 분산 컴퓨팅, 정보 보안, 새로운 프로그래밍 언어, 기계 학습 등 다양한 분야에 흥미를 가져야 한다고 언급한다. 특히 요새 핫 이슈인 딥 러닝을 비롯해 오늘날에는 전혀 알려지지 않은 특정한 형태의 기계 학습도 진화의 과정에 있다고 소개한다. 딥 러닝을 이용하면 해당 분야의 지식이 없더라도 데이터 과학자가 데이터에서 쓸모 있는 패턴을 찾을 수 있다고 언급하고 있으며, 다양한 기계 학습 기법이 소개되어 있고 Python으로 구현한 코드가 들어있는 Machine Learning in Action 책으로 공부하라고 조언하고 있다. 그 밖에도 데이터 과학자는 자신이 다루는 데이터를 잘 관찰해서 바닥까지 파헤치고 싶어할 만큼 흥미를 느껴야 한다면서 당면한 문제를 해결하고 혼란스러운 빅데이터에 의미를 부여하기 위해서 새로운 도구를 개발해야 할 필요도 있다고 언급하고 있다. 전반적으로 이 책은 다양한 참고문헌들과 참고 사이트들, 동영상 강의들, 그리고 링크드인에 만들어진 데이터 과학자 그룹에 이르기까지 해당 분야에서 참고가 될 만한 많은 지식들을 유용하게 참조할 수 있어 이 분야를 공부하고 직업으로 삼는데 도움이 될 것이다.

 


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo