-
-
R로 쉽게 시작하는 빅데이터 분석
이안용.박은수 지음 / 광문각출판미디어 / 2023년 8월
평점 :
R을 이용한 빅데이터 예측
책을 선택한 이유
컴퓨터 기술의 엄청난 발전은 디지털 환경에서 발생하는
막대한 빅데이터를 분석하고 활용할 수 있게 한다.
빅데이터 분석을 통한 예측은 강력한 무기며, 새로운 자원으로 주목 받는다.
R은 대표적 빅데이터 분석 도구다.
R을 활용한 빅데이터 분석을 알아보기 위해
"R로 쉽게 시작하는 빅데이터 분석"을 선택한다.
"R로 쉽게 시작하는 빅데이터 분석"은
빅데이터 와 R 프로그램에 대한 기초 이론,
데이터 탐색, 모델링, 데이터베이스,
디지털 영상 처리를 다룬다.
빅데이터는 방대한 정형 및 비정형 데이터 집합에서
가치를 추출하고 결과를 분석한다.
인공지능은 특정한 문제 영역으로부터 필요한 데이터를 받아들여
내부 시스템을 통해 처리하고, 대화 또는 행위로 출력하며,
문제를 해결한다.
R은 통계를 포함한 데이터 분석을 위한 프로그래밍 언어다.
변수는 프로그램 내에서 어떤 값을 저장할 수 있는 그릇의 역할이며,
벡터는 R에서 제공하는 여러 개의 값을 한꺼번에 저장한다.
함수는 입력값에 대한 정해진 계산을 수행한 후 결괏값을 돌려주며,
자료 분석은 자료에 담겨 있는 어떤 종류의 정보나 지식을 추출해
현실을 이해하거나 문제를 해결하는 데 활용한다.
팩터는 종류를 나타내는 값을 저장하는 문자형 데이터가 저장되는 벡터며,
리스트는 자료형이 다른 값들을 저장하고 다룰 수 있도록 하는 데이터다.
매트릭스는 동일한 종류, 데이터 프레임은 서로 다른 종류의
2차원 데이터를 저장하는 자료구조이다.
R은 분석 대상이 되는 데이터를 입력한 후 입력된 데이터를 분석해
필요한 정보를 얻는다.
데이터 분석은 문제 정의 및 계획, 데이터 수집,
데이터 정제 및 전처리, 데이터 탐색, 데이터 분석,
결과 보고 절차를 거친다.
다중 변수 데이터는 변수 간의 관계를 찾는 것이 중요하다.
데이터 전처리는 데이터를 정제하고 가공하여 분석에 적합한
형태로 만드는 과정이다.
데이터 시각화는 데이터가 저장하고 있는 정보나 의미를 쉽게
파악할 수 있게 한다.
모델링은 모델을 이용해 일어날 일을 예측한다.
선형 회귀는 최적화 문제를 푸는데 사용되며,
최적화는 미분을 이용해서 해결한다.
텍스트 마이닝은 비정형 데이터 문서로부터
새로운 고급 정보를 끌어내는 과정이다.
크롤링 또는 스크래핑은 웹페이지 텍스트 정보에서
데이터를 추출하는 방법이다.
웹크롤링은 웹을 탐색하는 크롤러 소프트웨어를 이용하여
웹페이지 자료를 수집해서 분류하는 과정이다.
문서는 문장을 하나 또는 그 이상 포함하고 있으며,
형태상으로는 문단으로 구성되어 있다.
말뭉치는 특정 분야에서 발생하는 문서의 집합이다.
데이터베이스 시스템은 데이터 검색과 변경 작업을 수행한다.
디지털 영상 처리는 사진이나 동영상을 디지털 정보로 변환해
화질 강화나 변형을 수행한다.
디지털 영상 처리는 영상 개선, 복원, 변환, 분석, 인식, 압축으로,
영상 처리 알고리즘은 화소 점 처리, 영역 처리, 기하학적 처리,
프레임 처리로 나누어 볼 수 있다.
영상 개선은 영상 화질을 주관적으로 보기 좋게 변환하며,
영상 복원은 영상 화질을 객관적으로 향상시킨다.
영상 변환은 디지털 공간 영상 데이터를 물리적으로
다른 의미의 공간으로 변환한다.
디지털 영상 이미지는 다양한 색상을 기반으로 한다.
RGB 색상 분류, 경계 검출, OpenCV 활용에 대해 설명한다.
R은 통계 데이터 분석 프로그램으로, 빅데이터 분석 도구로
유용하게 활용되고 있다.
"R로 쉽게 시작하는 빅데이터 분석"은
R의 기초부터 데이터 탐색, 모델링, 디지털 영상 처리 등
응용까지 R의 활용하는 방법을 소개한다.
R의 데이터 입/출력 명령문, 제어문과 사용자 정의 함수를 배우고,
타이타닉 데이터 세트, 영국 폐질환 사망자 통계를 사용해
단일 변수 범주형 데이터 분석을 실습하고,
Pressure 데이터 세트를 통한 온도와 기업의 관련성 분석,
car 데이터 세트를 이용한 산점도와 상관계수를 계산해 본다.
데이터 분석에서 변수와 데이터 전처리를 알아보고,
다중 상자 그래프, 나무 지도, 방사형 차트, ggplot 등
다양한 그래프를 이해한다.
단순 선형 회귀, 고차 다항식 적용과 분산 분석,
다중 선형 회귀, 텍스트 마이닝 등 모델링을 설명한다.
CNC 공구 마모도 분석 사례를 실습해 보면서
데이터베이스의 개념, 특징, 시스템,
My SQL 데이터 조작 방법을 익히게 된다.
OpenCV를 이용한 이용한 Webcam 연동과 얼굴 인식,
R에서 사용되는 TensorFlow 패키지 설치 하기,
Mnist 정보 기반 학습을 이용한 이미지 분류 등을 실습하며
디지털 영상 처리에 대해 이해하게 된다.
"R로 쉽게 시작하는 빅데이터 분석"은
R의 명령어를 이해하고, 데이터 탐색,
모델링과 예측 선형 회귀, 디지털 영상 처리까지
빅데이터를 분석할 수 있도록 한다.
기초 이론을 소개하고, 실습 예제를 통해 이론을 익히며,
연습문제를 통해 학습 내용의 이해도를 스스로 점검할 수 있다.
다양한 컴퓨터 기술이 융합되면서 빠르게 발전하고 있다.
R에서 챗GPT를 사용하는 등 업무 효율을 높이는
방법을 안내한다.
"R로 쉽게 시작하는 빅데이터 분석"은
R의 기초부터 DB 데이터 연계 및 영상 처리 분석까지
빅데이터의 다양한 처리방법을 익히면서
빅데이터를 활용할 수 있도록 돕는다.
광문각 과 북유럽 서평단에서
"R로 쉽게 시작하는 빅데이터 분석"을 증정해 주셨다.
감사드린다.
#광문각 #R로쉽게시작하는빅데이터분석 #R
#이안용 #박은수