최소한의 데이터 리터러시 - 인공지능 시대를 살아갈 모든 사람을 위한 교양서
송석리 외 지음 / 길벗 / 2024년 2월
평점 :
장바구니담기


데이터 리터러시, 데이터를 읽는 능력은 세상을 읽는 능력


정보와 데이터. 데이터는 의미 있는 정보를 가진 모든 값, 사람이나 자동 기기가 생성 또는 처리하는 형태로 표시된 것을 뜻한다. 어떠한 사실, 개념, 명령 또는 과학적인 실험이나 관측 결과로 얻은 수치나 정상적인 값 등 실체의 속성을 숫자, 문자, 기호 등으로 표현한 것이며 데이터에 특정한 의미가 부여될 때 정보가 된다.


데이터는 내가 궁금하고 알고 싶었던 대상에 대한 흔적과 힌트를 모은 것으로 데이터를 탐구는 이런 힌트를 통해 숨어 있는 사실을 알아낸다. 데이터의 우연성, 오류 가능성 때문에 발생하는 다양한 착각의 함정을 수학과 확률을 통해 논리적으로 피해야 하는데, 이 책은 이런 착각을 다루고 있다. 


책의 구성 또한 3단계로, 데이터 리터러시 감각을 익히고, 리터러시(읽기 능력) 기르기, 활용하기 순으로 1부에서는 데이터 리터러시 시작하는 시간, 여기서는 우리가 자주 이용하는 지하철은 어느 역의 이용객이 가장 많을까? 꽤 흥미로운 접근인데, 데이터를 가지고 이를 알아보는 것이다. 데이터 분야의 트렌드 분석하기, 시간, 이용객 수 등의 데이터를 보면 대략 어느 역에서 승객이 많이 타는지가 보인다. 2부 데이터 리터러시 기르는 시간, 여론조사 결과에 휘둘리지 않기와 그 너머의 무언가를 보기, 그리고 영화가 어떻게 추천되는지 추천시스템 현명하게 사용하기, 확증편향 줄이기, 아울러 평균함정 조심하기와 데이터 속에 숨어 있는 관계 찾기, 데이터를 깊게 보고 오해에서 벗어나기 등, 즉, 통계의 오류나 여론조사에서의 함정 등을 살펴본다. 그리고 3부 활용하는 시간에는 데이터를 활용하여 표시하기, 실천하기에서는 질문부터 통찰까지 꿰뚫는 설문 조사 만들기, 코탑활용 설문 응답 데이터 분석, 그리고 마지막으로 데이터 윤리에 관한 책임 등,


어떻게 배우고 활용할 것인가? 


통계학이라하면 겁부터 먹는 사람들, 통계학은 너무 어려워, 그래프도 그렇고 데이터를 분류하고 입력해야 하는 번거로움 등이 앞선다. 마치 수학포기자들이 수학이라면 지레 겁먹듯 말이다. 이 책은 이런 두려움을 전혀 다른 방향으로 돌리고 있다. 그저 최근 넘쳐나는 정보와 실제로 그런가, 어떻게 그런 것을 계산해서 알려주는지, 평소 궁금해하는 사안이나 문제에서 출발하여, 데이터를 읽는 능력을 기르자는 취지의 접근이라면... 통계학이란 이름은 언급하지 않아도 되니까, 


이 책은 인공지능을 사용하든, 엑셀, 오렌지 3, 파이썬 등을 사용하여, 설문 조사에서부터 데이터 생성, 결과보기 등을 해보는 것이다. 키가 180센티라도 평균 수심 1미터 인 계곡이 위험한 이유는, 채상병사건처럼 물살은 세더라도 평균수심이 그리 깊지 않아 사람 키를 넘는 곳이 없을텐데 어떻게 익사 사고가 났을까?, 이런 현상들을 이해하려면 평균함정에서 벗어나야...


맛집 별점 4.5와 4.7중 어느 쪽을 가는게 좋을까? 당연히 평점이 높은 쪽을 선택하겠지 그런데 왜 이런 질문을 하지, 뭘 물어보는 것일까? 바로 여기서 필요한 것은 단순히 데이터 분석만으로 끝나는 것이 아니라 합리적이고 현명한 선택을 위해 필요한 게 무엇일까를 생각하게 한다. 


또 다른 측면을 보자. 정치, 선거여론조사는 어떻게 진행되고, 어떻게 작동하는가를 이해함으로써, 그리고 우리 사회의 이슈, 기후위기, 쓰레기양의 증가 등의 현상을 조사하는 실태조사와 여론조사의 차이 등 실생활 속에서 접하는 여러 현상에 과학적인 접근을 해봄으로써, 수학, 확률, 등 기초 통계학은 물론 논리학까지, 종합적인 이해가 가능한 경로를 만드는 것이다. 꽤 효과적인 학습방법이라는 여겨진다. 책은 최소한의 데이터 리터러시라는 제목이 붙어있지만, 실제로는 기초 통계학의 내용을 담고 있다. 맛집 평점을 어떻게 주는지를 알아야. 현상을 이해할 수 있다. 일상에서 일상의 데이터를 가지고 재미있게.


이 책의 지은이들은 일선 학교현장에서 학생들을 가르치는 교사들이다. 중, 고생은 물론 일반인의 실용통계학습서로서도 충분하다. 다만, 피어슨 상관계수, 확증편향, 회귀분석, 표본오차, 표준편차, 중앙값, 가중값, 분산, 빈도, 산포도 등, 통계학에서 알아야 할 개념 정리가 필요하기도 하지만…. 아무튼 내용 설명은 그림과 도표 등을 이해하기 쉽게 풀어쓰고 있다. 



<출판사에서 보내준 책을 읽고 쓴 리뷰입니다>



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo