대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라 - 한 권으로 간추린 확률, 통계, 데이터과학, 머신러닝, AI 특강
알렉스 거트맨.조던 골드마이어 지음, 최재원.장진욱 옮김 / 책만 / 2024년 5월
평점 :
장바구니담기


데이터 분석에 대한 저작들은 무척이나 넘쳐나지만 대개 전문적인 대목을 비전공 일반 대중이 쉽게 이해하도록 쓴 책들은 많지 않을 것이다. 데이터 분석 책을 읽어보지 않고도 이런 일반화의 오류 같은 단언을 할 수 있는 이유는 여타 책들의 소개글에 필치만이 아니라 담고 있는 전문 내용에 제한이 없어 보여 그렇다. 극한의 전문성을 띤 내용들로 보이는 항목들도 즐비하다. 초보자와 입문자가 전공서를 읽지 않고도 데이터 분석의 대략을 이해하게 하는 수준의 저작은 찾아보기 쉽지 않다. 이 정도면 도전해 볼 수 있겠지 하는 기대감을 주는 책들은 쉽게 찾기 어렵다.

 

본서는 통계학자이자 머신러닝 전문가인 저자와 데이터 과학자이면서 동시에 작가이기도 한 저자들이 합심해 데이터 리드(미국에서는 데이터 헤드라고 불리는 데이터 분석 역량을 갖춘 인재를 한국인 역자가 임의로 한국에서 통용되는 어휘인 데이터 리드로 의역했다)의 필요성을 알리고 어느 수준으로 데이터에 대한 이해도를 높이고자 하는 목적에서 집필한 책이다. 역자마저도 데이터 분석가와 반도체 패키징 분석가로 본서를 읽고 이런 저작을 써보고 싶었는데 먼저 쓴 사람이 있다는 아쉬움을 느끼며 번역했다고 한다.

 

많은 전문가들이 본서를 권하고 칭찬하고 있는데 그 중 가장 인상적인 키워드는 쉽다와 데이터 문해력, 데이터 이해력이었다. 역자도 이 책은 남다르게 쉬운 서술이라고 평하고 있는데 쉽게 읽히는 반면에 함축적인 내용들이 있다고 말하고 있다. (물론 저자들은 데이터로 다가오는 일상의 문제들이 많다고 평하고 있지만) 데이터와 친근하지 않은 나와 같은 사람들과는 다르게 업무와 일상에서 데이터와 자주 만나는 분들이라면 서술과 데이터에 대한 이해도의 면에서 남다르다는 본서가 끌리지 않을까도 싶다.

 

본서에서는 데이터에 대한 정의를 부호화된 정보로 간단하게 정의하고 있다. 하지만 무엇이든 수치화한다고 데이터의 역할과 기능을 하는 것은 아니다. 정량화의 오류라고 하여 아무 숫자나 모아서는 데이터라고 주장하는 오류를 들어 설명하는데 데이터는 무작위적인 숫자나 부호의 나열을 이야기하는 것이 아니기 때문이다. 내가 파악하기로는 데이터는 목적을 가지고 기준 또는 원칙에 따라 부호화된 정보라고 생각되었다.

 

저자는 데이터 리드라면 (데이터를 대하며) 꼭 물어야 할 질문으로 5가지를 이렇게 제시했다.

 

1 이 문제는 왜 중요한가?

2 이 문제는 누구에게 영향을 미치는가?

3 적절한 데이터가 없을 경우 어떻게 해야 할까?

4 프로젝트는 언제 종료되는가?

5 결과가 만족스럽지 못할 경우 어떻게 해야 할까?

 

1, 2, 4는 데이터란 필요와 역할과 기능에 따라 존재한다는 걸 그리고 3, 5는 전문가라도 최상의 유효한 데이터만을 추출하고 제시할 수 없음을 논의하며 데이터 리드는 이런 사안도 고려하고 대안을 제시할 수 있도록 준비되어 있어야 한다는 말이라고 생각된다.

 

[4장 데이터와 논쟁하라]에서는 데이터의 근원을 확인하자누가 데이터를 수집했는지’, ‘데이터는 어떤 방식으로 수집됐나를 파악하라고 말하고 있으며, “데이터에 대표성은 있는가라는 항목에서는 표본추출에 편향이 있었는가’, ‘이상값(범주에서 크게 벗어난 값)을 어떻게 처리했는가를 고려하라고 말하고 있다. “확인하지 않은 데이터는 무엇인가에서는 어떤 방법으로 결측값(데이터에 포함되지 않고 삭제된 값)을 처리했는가’, ‘측정하려는 개념을 측정할 수 있는 데이터인가를 확인하라고 말하고 있다.

 

본서는 전문적인 내용도 물론 전하지만 데이터 리터러시의 필요성과 데이터를 대하는 태도 그리고 이해만큼이나 활용할 관점의 틀 같은 것도 제안하고 있다. 본서가 남다르게 다가오는 이유는 분명 이공계열의 전공자들이 인문학적 사례와 사고들을 구사하고 있다는 것이다.

 

2008 주택담보부대출 채권으로 인한 미국발 금융위기와 1986 우주왕복선 챌린저호 폭발 같은 사례를 예로 들며 데이터 리드의 사고방식을 갖추지 못했을 때 어떤 데이터 참사가 벌어지는지를 주지시키고 있기도 하다. ‘데이터는 여러분이 비판적 사고를 갖출 때까지 기다려 주지 않을 것이다. 스스로 학습을 이어가며 자신의 행보를 책임져야 한다.’는 조언을 남기기도 하는데 데이터만이 아니라 삶과 배움에 대한 태도를 이르는 것 같다. 올바른 질문을 하고, 데이터와 논쟁하며 불편한 대화도 감수해야 한다는 저자의 마지막 말은 더 명백히 하나의 길을 가다 보면 분명 삶에 대한 교훈을 얻게 된다는 생각도 들게 한다.

 

본서에서 전문적인 내용을 이해하기 쉽게 서술하기도 했지만 수식에서 울렁증을 느끼신다면 아주 약간은 스킵할 구간도 없지는 않다. 하지만 그럼에도 읽어볼 만한 첫 데이터 관련 책이고 권할 만한 데이터 관련 책이 아닐까 싶다.

 


책만 출판사로부터 도서를 협찬 받아 작성한 리뷰입니다

 


댓글(0) 먼댓글(0) 좋아요(23)
좋아요
북마크하기찜하기 thankstoThanksTo