Do it! 공공데이터로 배우는 R 데이터 분석 with 샤이니 - 부동산 빅데이터 분석 전 과정 수록! Do it! 시리즈
김철민 지음 / 이지스퍼블리싱 / 2022년 5월
평점 :
장바구니담기





#협찬 #책협찬 #공공데이터 #분석 #공공데이터분석 #R데이터분석 #데이터분석 #데이터 #웹애플리케이션 #전처리 #기초분석 #크롤링 #클라우드 #서울시 #김철민작가님 #김철민작가 #이지스퍼블리싱출판사 #이지스퍼블리싱 #북스타그램 #책스타그램 #R데이터                                                                                                                            아래 서평은 이지스퍼블리싱 출판사로부터 책을 제공받아 작성하였습니다~:)                                                                                      


​사회조사분석사2급자격증을 소지하고 있는 나로써는 공공데이터분석에 관심이 많았다. 무언가 분석할 때 R데이터 분석을 통해 실생활 속에서 배워볼 수 적용할 수 있다는 것이다. 부동산 빅데이터 분석 전 과정이 수록되어 있으니 전반적인 내용을 파악할 수 있다. 데이터분석가가 되기 위해 한번쯤 읽어볼만한 책일듯 싶다. 우리는 데이터 분석가로 살아남기 위해 어떻게 할까 고민이 크다. 빅데이터분석 활용으로 웹 애플리케이션 개발과 배포까지 가능하다고 한다. R데이터 분석으로 부동산 데이터 분석뿐만 아니라 한반도 지진발생 분석, 커피전문점 접근성 분석, 교통카드 데이터분석까지 가능하니 공공데이터수집뿐만 아니라 전처리 및 통계분석, 지도시각화, 샤이니로 웹 애플리케이션 개발과 배포까지 가능하다고 한다. 데이터 분석환경을 만들기 위해서 컴퓨터에 통계 프로그래밍 언어인 R과 스튜디오를 설치해야한다고 한다. R스크립트 실행을 위해서 초기화면과 작성예시가 나와있다. 실행화면을 보면서 인덱스와 값들이 제시되어있다. 데이터분석 프로젝트는 총 5단계로 구분되어지는데 1단계 문제정의에서부터 2단계 데이터 수집, 3단계 전처리, 4단계 분석과 시각화, 5단계 서비스 구현과 운용이 있다고 한다. 데이터 분석 프로젝트를 진행해보면서 최종목적지를 행햐 달려가는 것이다.



자료는 어디서 구할까 하는 공공데이터포털에서 API를 제공한다. 주문내역을 요청하고 응답하는 과정인 API 인증키가 있어야 한다는데 이 인증키를 어떻게 발급받을 수 있을지 알 수 있다. 크롤러란 웹을 돌아다니며 유용한 정보를 찾아서 수집하는 프로그램이라고 한다. 개별거래내역도 추출이 가능하니 응답내역도 저장가능하다. 자료통합에 있어 자료정리를 위해 CSV 파일 통합을 위한 데이터를 저장할 수도 있다. 정보를 어떻게 지우고 다듬으며 저장할 수 있을지 전처리 작업을 해주어야 한다. 단골코드로 정리하기 위해 날짜 만들기, 여러단계를 거쳐서 다항식 계산하기, 파이프라인 연산자를 활용하여 다항식 연산을 한 번에 계산하기, 특수문자제거로 공백과 쉼표제거하기가 있다. 카카오맵 API로 지오코딩하기로 지오코딩을 준비하고 주소를 좌표로 변환하는 지오코딩이 있다고 한다. 책을 읽으면서 지오코딩, 좌표계라는 용어가 정말 낯설었는데 용어도 쉽게 정의되어있고 그림제시도 잘 되어있어 유익했다. 지역별로 어느 지역이 제일 비쌀까 고민이 많이 될 것 같다. 평균가격정보와 함께 지도 경계를 그리는 것도 실습을 통해 경험하는 것이 좋을듯 싶다. 책을 읽으면서 느꼈던 것은 사회조사분석사라는 자격증을 가지고 있는 사람이 책을 읽었을 때 어려움이 있을 것이라고 생각했다. 포인터데이터를 어떻게 불러올 수 있을지 실행결과를 지도를 통해 알려준다.




책을 읽다보면 확률밀도함수, 회귀분석, 주성분분석이 제시되어있다. 수학적인 통계개념이 나와있다. 확률밀도분포로 변환을 위해서 어떻게 통계적으로 시각화할 수 있을까 그래프를 준비할 수 있었고 실행결과값도 나와있다. 통계분석으로 통계차트 시각화 과정으로 연속 확률밀도, 회귀분석 등으로 요약할 수 있다. 샤이니 입문하기로서 샤이니란 데이터 분석결과를 애플리케이션으로 만드는 개발도구라고 정의한다. 애플리케이션에 대해서 잘 알지 못했는데 샤이니 기본구조를 이해할 수 있다는 것에 사용자 인터페이스, 서비, 실행이라는 구성요소를 작성함으로써 웹 애플리케이션을 만들 수 있다. 샘플실행을 위해 명령형과 반응형이 있다. 데이터 흐름에 따라 샘플 데이터가 그림으로 제시되어있다. 레이아웃 정의하기에 있어 단일페이지와 탭페이지로 나뉜다. 레이아웃의 용어정의도 잘 나와있다. 반응형지도를 만들기 위해서 데이터를 불러오고 반응형지도를 만들기까지의 과정이 잘 제시되어있다. 지도 애플리케이션 만들기를 위해서 모듈화 설정도 가능하다. 애플리케이션을 어떻게 만들 수 있을지까지도 나와있다. 애플리케이션 배포를 위해 어떻게 하는지 서비스와 함께 이용방법도 나와있다. 지진발생과 함께 커피 전문점 접근성, 교통카드 데이터 분석도 흐름을 통해 파악할 수 있으니 데이터분석에 관심이 있으신 분들이 읽어보면 유익할듯싶다. 서울시 아파트 실거래 분석을 R로 데이터 분석의 전과정을 체험할 수 있어 실생활에도 유용하게 쓰이니 책을 전반적으로 읽어보면 좋을듯 싶다.





댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo