코딩 없이 배우는 데이터 분석 - AI 시대의 필수 역량 코딩 없이 배우는 데이터 시리즈
황보현우.한노아 지음 / 성안북스 / 2024년 11월
평점 :
장바구니담기


언제부터인가 데이터분석이 중요해졌습니다.  그런데 실제 행하기는 쉽지 않았죠. 왜냐하면 통계를 알아야하고 프로그램언어를 알아야 하기때문입니다.  인공지능이 발전하면서 코딩없이도 데이터분석을 할수있는 도구가 여럿나왔습니다. <코딩없이 배우는 데이터분석:AI시대의 필수역량>에서는 SAS사에서 무료로 공개한 SoDA프로그램을 통해 쉽게 통계분석을할수있는 방법을 소개합니다. 저자들은 이 방법만 잘익히면 다른 통계분석프로그램을 사용할 수있다고 확신합니다. AI는 점점더 빠르게 발전할 겁니다. 무어의 법칙보다 7배나 빠르게 진보할거라고 합니다. 가장 쉽고 확실한 것부더 기초를 튼튼히 하여 대비할때입니다. 



저자는 황보현우 서울대 산업공학과 객원교수십니다. 하나금융지주 그룹데이터촐괄상무와 서울시 빅데이터 심의위원회 위원장을 역임하셨습니다. 공저자 한노아 SAS KOREA 분석 컨설턴트십니다. 




여기서는 SoDA라는 프로그램을 사용합니다. 이 프로그램은 현재까지 출시된 무료프로그램중에 가장 우수하고 쉽다고 합니다. 반대로 이야기하면 어것도 이해못하면 포기하라는 말씀이겠죠. ㅠㅠ  아마도 저자들도 프로그램때문에 데이터분석을 포기하는 아쉬움을 많이 경험했을 겁니다.  이까짓것 데이터분석툴이뭐길래 중요한 데이터분석을 포기하면 안되죠.  진짜 중요한 것은 데이터프레임을 이해하고 통계의 전반적인 사항을 알아야 하고 그것을 근거로 조금씩이라도 데이터분석을 직접해보는 것이 중요해보입니다. 




데이터분석에서 추정과 검정은 가장 핵심적인 기초입니다.  모집단과 표본의 관계를 설정해주기때문입니다. 빅데이터에서는 데이터가 많을 수록 좋지만 그것이 모든것을 대표하지는 못하기 때문입니다. 이를 이해시키기 위해 도식을 사용합니다. 통계에서 수식만 나온다면  독자들의 어려움이 커질 겁니다. 다행이도 수식은 많이  뺏습니다. 없는 것은 아닌데 많이 있지 않음은 확실합니다.  추론에서 추정은 확률적 추측이고 검정은 모집단의 주장인 가설이 사실인지 통계적으로 판단하는 것정도는 알아야 할겁니다.  관계분석은 두변수사이의 관계죠. 통계학의 가장 기본 베이스입니다. 여기에 t-검정이 나옵니다. 표준의 평균을 비교하는 방법이죠. 솔직히 여기부터가 통계분석의 시작이라고 할수있죠. 그래서 회귀로 나갈수가 있습니다.  회귀도 관계를 알아보는 것이긴 한데, 이를 지도학습의 한분류라고 합니다. t-검정과 분산분석을 사용합니다.  페이지를 대도록이면 꽉채우지 않고 시원시원하게 배치를 해서 쉽게 편하게 이해할 수있었습니다.  회귀는 통계분석의 감초같은 분야죠. 



분류도 지도학습인데, 이는 종속변수가 범주형인걸 말합니다. 숫자가 아니라는 거죠. 직업, 종교, 성별 등이 범주형입니다. 점점 난이도가 올라가는데, 로지스틱 회귀는 종속변수가 성공과 실패로 나옵니다. 마지막은 통계분석을 정확성을 담보하면서 난이도를 낮추는 차원축소와 그룹화까지 다룹니다. 


통계분석 데이터분석에서 아주 고수준은 아니지만 지도학습과 비지도학습까지 다루었습니다. 통계학으로 대학원으로 가면 아마도 수식의 늪에 빠지게 되는데, 글쎄요. 일상의 업무에서 수식을 그렇지 잘해야 할지는 의문입니다. 왜냐하면 데이터분석 전문기업이 아니라면 경영의 의사결정을 위한 데이터분석은 중요할수도 있지만 아직은 초기단계이고 참고자료로 쓰일 가능성이 높기때문입니다.  아마 점점더 통계분석은 쉬워질겁니다. 데이터만 넣으주면 AI가 스스로 해줄 지도 모릅니다. 그 수준에 가도  데이터분석의 구조를 알아야 하는 이유는  오답의 가능성과 AI가 스스로 해줄 수있는 기간은 아직 5년이상 남았다고 보기 때문입니다. 그때까지는 인간을 보조해서 AI데이터분석을 해야 합니다. 



본 도서는 출판사로부터 무상으로 제공받아 주관적인 리뷰를 했습니다. 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo