최근 몇년전부터 IT업계에서 밥을 먹고 사는 사람들에게는 직접 그일을 하건 전혀 관계없는 업무를 하건 Big Data라는 말을 자주 듣게 된다. 거기에 하둡이며, 맵리듀스, 몽고DB 등등 예전의 개발 패러다임과는 다른 새로운 솔루션, 개발도구들에 대한 이름을 접하면 또 뭔가 새로운 것들을 배워야 이바닥에서 버틸 수 있나 하는 생각이 들곤한다. Big Data나 Analytics로 불리는 일을 하려면 또하나 피해갈 수 없는 단어가 R이다. 대학에서 통계학을 배우는 친구들은 한번쯤 사용해봤을 오픈소스 프로그램이지만 그런 분야를 경험해 보지 않은 사람들에겐 접할 일이 없는 대상이기도 하다. 그런데 소위 데이터 분석이란 걸 경험해 보려니 통계학적 경험이 전혀 없는 사람도 R이라는 프로그램을 어떻게 다뤄야 하는지 아는게 필요하다. 물론 나도 통계학이라곤 중고등학교 수학시간에 배운 확률, 통계가 전부이고, 대학시절 수치해석이란 수업을 들었지만 교수님이 주신 소스코드를 전산실에서 visual basic이라는 프로그램으로 무슨 내용인지도 모르고 열심히 타이프 한 다음 실행 명령을 해서 결과가 어떻게 나는지만 출력해서 학점을 받은 터라-그것도 거의 20년 가까이 예전의 일이다.- 내가 R이라는 툴을 배운들 어디다 쓸 수 있을까 하는 생각도 들었다. 그나마 다행인건 이책은 통계학을 공부한 사람들을 중심으로 한 접근법이 아니라 프로그래밍을 해본 경험이 있는 사람의 시각에서 접근하는 방법이라 "검은 색은 코드요 흰색은 바탕이다."는 수준을 면할 수 있었다. 기본적인 프로그래밍 문법에서 시작해 다양한 예제를 통해 통계학을 모른다 하더라도 R을 이용해 기본적인 통계를 이용한 분석 프로그래밍이 가능하게 공부할 수 있게 해준다. 프로그래밍에 대한 감각과 경험이 많은 사람의 경우는 어지간히 통계학을 배운 사람보다도 더 나은 결과물을 만들 수 있다는 생각이 들만큼 도움이 될 것 같다. 그런데 이놈의 IT 영역에 일하는 사람들은 나이먹고 머리가 안돌아가도 어쩔 수 없이 이렇게 공부해야하는 벌을 받아야 하는지...