R로 하는 빅데이터 분석 : 데이터 전처리와 시각화 - 개념적 기초에서 심층 활용까지, 제3판
김권현 지음 / 숨은원리 / 2022년 1월
평점 :
장바구니담기


R은 1993년 뉴질랜드 오클랜드 대학의 통계학과 교수인 로스 이하카 (Ross Ihaka)와 로버트 젠틀멘(Robert Gentleman)이 만들었습니다. R은 통계언어인 S 와 S+ 의 계보를 잇고 있지만, 무료이며 오픈소스 프로젝트로 개발되고 있습니다.따라서 누구나 인터넷에서 다운로드받아 사용해 볼 수 있습니다.그리고 필요하다면 소스코드를 검증하고 수정할 수 있습니다. 


1999년에서 2000년으로 바뀌던 때에 인류는 연도의 4자리가 모두 바뀌는 기념비적 사건에 흥분했다. 하지만 20~30년 후도 대비하지 못했던 컴퓨터 때문에 Y2K 라는 버그로 인류가 종말에 가까운 재앙을 겪게 될지도 모른다며 두려워하기도 했다. (-103-)


인터넷의 폭발적 성장 이후 국제적으로 문서를 교환하는 일이 빈번해졌다. 하지만 인코딩 방법은 자신 (그리고 주변 국가의) 언어만을 고려하여 만들었기 때문에 한 나라에서 생성한 문서를 다른 나라로 전송하면 내용을 알 수 없게 깨지는 경우가 다반사였다. 이런 불편함을 없애기 위해 유니코드가 개발되었다. (-206-)


인류가 역사를 기록하면서, 지금까지 1만년이 흘러오게 된다. 1만년동안 다양한 그림과 언어,수많은 사진들을 모를 수 있게 되었고,그것을 우리는 통칭하여 데이터라고 말한다. 수많은 데이터는 인터넷에 저장될 수 있었고, 하드디스크라는 전자 매체에 기록될 수 있게 된다. 문제는 그렇게 전자화된 다양한 데이터를 ,어떤 기준에 맞게 , 규칙에 따라서 표준화된 상태로 처리한다는 건 현실적으로 불가능하다. 숫자를 아라비아 숫자로 쓴 경우와 한자로 쓴 겨우, 한글로 쓴 경우, 같은 의미를 지니지만 실제로 컴퓨터는 다른 의미로 이해하고, 데이터 전처리 과정을 진행하게 된다. 그것을 중재해주는 컴퓨터 프로그램이 R 이라는 통계프로그램이다. 이 프로그램은 SAS/SASS처럼 수백만원에 달하는 비싼 상용 프로그램이 아닌 무료 프로그램인며, 누구나 수정할 수 있고, 검증이 가능하며,디버깅을 할 수 있으며, 상황에 따라서 보정할 수 있는 프로그램이기도 하다. 즉  R 프로그램을 활용하여, 비정형화된 데이터를 어떤 특정된 규칙에 다라서,정형화된 데이터로 전화하는 과정이 필요하다.언어적 차이를 극복하고, 데이터를, 문서로 변환하면서,문서를 언어가 다른 나라 사람들과 서로 공유할 수 있는 이유는 여기에 있다.즉 R 프로그램은 파이썬에 기초한 프로그램이며, 실제로 안에 내장된 프로그램의 특징을 보면, VISUAL BASIC 가 가지고 있는 스크립트적인 특징을 가지고 있으면서, 사무적 프로그램에 최적화된 함수 정의와 VISUAL C++이 가지고 있는 객체지향적인 특징을 함께 내포하고 있으며, 데이터 전처리와 시각화에 있어서 매우 중요한 유연함과 확장성을 함께 갖추고 있다. 사용자 함수 정의 뿐만 아니라, 데이터의 특징을 선언할 수 있고,R 프로그램에 내장된 프로그램 규칙에 따라서, 데이터를 처리할 수 있는 기준이 만들어지며, 인간이 그동안 해왔던 반복적이며, 단순화된 사무적 처리를 자동화처리가 가능한 프로세스 체계를 구축할 수 있다. 
 


댓글(0) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo