-
-
아빠가 들려주는 R 통계 - 샤방샤방 R Shiny 통계
김지형 지음 / 북앤에듀 / 2020년 1월
평점 :
어떤 것이 어떤 질병의 원인이 된다거나, 어떤 치료법은 효과가 좋다거나 이런 종류의 연구 뿐만 아니라, 어떤 검사는 어떤 상태를 잘 진단한다는 연구도 있습니다.즉 진단과 관련된 연구죠. 진단과 관련된 연구에서 가장 기본이 되는 연구는 민감도와 특이도에 관한 연구입니다. (-65-)
탐색적 분석 및 데이터 전처리
이 부분의 내용은 다른 어떤 부분보다도 주요합니다. 결측치는 없는지, 문자와 숫자는 제대로 잘 입력되었는지, 공백이 잘못 들러간 것은 없는지, 소문자/대문자의 착오는 없는지, 정규분포를 하는지, 분표는 어떠한지 등 이런 작업은 모든 작업에 앞서 시행되어야 하고 강조되어야 하지만, 안타깝게도 그렇지 못한 것 같습니다. (-125-)
R-프로그래밍언어는 통계와 확률을 주목적으로 하는 수학 프로그램으로,S언어를 기반으로 하고 있었다.그건 R 프로그래밍 언어가 인터프리터 언어로서,GPL에 따라서 만들어진 오픈소스 프로그래밍 언어로 특화되었기 때문이다.즉 이 책은 실제 현업에서 통계는 어떻게 쓰여지며,통계를 쓰기 위한 준비물, 데이터 수집과 전처리, 통계자료까지 아우르고 있으며, 의학 부분은 실제 ,현실을 반영하는 통계자료를 내야 하지만,사람을 대상으로 실험할 수 없는 한계를 통계프로그램으로 극복하고자 하였다.즉 의학 분야에 있어서,어떤 약이 폐암 환자에게 잘 적용되는지 알아내는 통계는 꼭 중요한 데이터이지만, 그것을 실제 환자에게 적용하기는 불가능한 현실과 제약조건이 따르고 있었다.
통계 프로그램은 이럴 때 쓰여진다. 수많은 데이터 중에서 , 내가 의도한 주제나 소재에 걸맞는 데이터를 필터링 해야 하고,그 필터링 된 데이터를 각각의 변수와 필드에 걸맞게 재분류되어야 한다. 또한 데이터의 근본 자료가 되는 엑셀이나 엑세스 자료들이 문자열과 숫자를 구별하지 못해서 생기는 데이터 오류들을 검출하는 데이터 전처리는 반드시 필요하다. 그건 문자열을 숫자로 이해할 수 있고,숫자를 문자열로 인식할 수 있는 전형적인 오류들을 보완하기 위해서다.
정규화되지 않은 데이터들을 클래스화, 그룹으로 묶어서,그 안에서 자신에게 필요한 자료값을 구하게 된다. 즉 데이터를 통계화 되는 과정에서 차트로 결과물을 도출하거나, 점 ,선,면을 활용하여 시각화할 수 있다.데이터 작업은 컴퓨터가 하지만, 그 분석과 해석은 인간이 하기 때문에, 인간의 오감에 맞게 데이터는 다시 재가공되어야 하며, r 프로그래밍이 필요한 이유는 여기에 있었다.즉 나에게 필요한 데이터 확보, 그리고 수확적인 계산에 따라 통계자료를 완성하는 것, 프로그래밍 언어 속에 감춰진ㅁ 다양한 툴을 이용하여, 필드값과 그 필드에 해당하는 데이터를 통계의 기반으로 삼고 있으며, 각각의 데이터 값에 가중치를 주어서 오차와 편차를 줄여 나가게 된다.