최근 빅데이터에 관한 관심들이 높아지는 추세인데 전공자 수준까지는 아니더라도 이쪽 분야에 대한 기본적인 상식은 있어야 될 것 같다는 생각에 읽어봅니다. 이 책이 그나마 초심자가 접근하기 괜찮은 것 같다는 느낌이 들어 선택하게 되었습니다.
.
.
.
프롤로그에서 데이터를 기생충과 비교하며 둘 사이의 유사한 속성을 찾아나가는 저자의 접근 방식이 비전공자인 나같은 사람에게는 그나마 친숙하게 느껴졌다. 데이터하면 뭔가 화려한 수식이나 함수들이 연상되기 마련인데, 저자의 이러한 접근은 데이터의 본질을 파악하는데 더 도움이 되는 것 같다. 물론 자세히 들어가면 각종 산식들, 수식들이 나오겠지만, 적어도 초심자들에게는 이러한 접근이 잘 맞는 것 같다.

본문 처음에는 데이터의 흐름이라는 것에 입각하여 데이터와 정보 그리고 지식과 지혜에 대한 기본적인 개념 설명이 나온다. 데이터라는 건 그 자체로는 어떤 의미가 있는 것이 아니지만, 이것들을 조합하여 만들어낸 의미있는 자료를 정보라고 하고, 이러한 정보를 토대로 하여 발견하게 된 노하우나 방향성을 지식이라고 명명하며, 이렇게 쌓인 지식들을 바탕으로 어떤 창의적인 아이디어를 내는 것을 지혜라고 부른다는 게 이 부분의 핵심 포인트다.

여기 일일이 밑줄치진 않았지만 책에 나온 예시와 함께 개념을 접하면서 이해가 더 잘 되는 느낌을 받았다.

뒤이어 나오는 내용은 중고등학교 혹은 대학교의 통계관련 과목에서 기초 개념으로 나오는 평균과 분산, 표준편차에 대한 것이었다. 학교다닐 땐 의미에 대해 깊이 생각하고 하기보다는 그냥 기계적으로 계산만 했던 것들인데, 이 책에서 저자의 친절한 설명을 통해 각각의 의미들을 곱씹어보면서 이해할 수 있어서 좋았다. 왜 이렇게 되는건지를 예시와 함께 이해하기 쉽게 알려주는 느낌이랄까? 아무튼 각각의 식의 의미를 좀 더 잘 이해하는데 도움이 되는 시간이었다.

여기 별도로 밑줄치진 못했지만 오늘 읽은 부분의 마지막 부분에 ‘데이터 분석의 블루오션이 오히려 IT공간 이외의 곳에 있지 않을까?‘ 라는 저자의 말에서는 데이터 분석의 미개척 분야가 아직도 무궁무진하다는 의미로 느껴졌다. 낯선 분야일수록 오히려 기회가 많다는 말이기에 향후 AI가 급속도로 발전하는 시대변화에 발맞춰 이쪽 분야에 대한 기본 토대를 잘 쌓는 것이 중요하다는 생각이 든다.

우리가 흔히 말하는 과학자는 사전적으로 ‘이론적 또는 실험적 연구를 통해 과학지식을 탐구하는 사람‘이라고 정의한다. 즉, 특정 분야를 논리적 시각에 입각해 연구하는 사람을 의미한다. 이런 의미로 해석하자면 데이터 과학자는 데이터라는 실체를 논리적으로 연구하는 사람이어야 한다. - P4

아마도 저 명칭(데이터 과학자)은 분야와 상관없이 데이터를 수집, 설계, 분석, 가공하는 일련의 작업을 진행하는 사람들을 아우르는 큰 의미의 개념일 것이다. - P4

데이터는 그 누구의 소유물이 아니며 데이터 분석 없이 살아가는 사람도 없다. 경험에 의한 시행착오 역시 훌륭한 데이터가 된다. 단, 그 분석의 깊이가 다를 뿐이다. - P4

서민 교수의 『서민의 기생충 콘서트(을유문화사,2016)』 - P5

어라, 근데 이 기생충! 왠지 내가 다루는 데이터와 많은 것이 닮았다. - P5

첫째, 기생충이든 데이터든 혼자서는 할 줄 아는 것이 아무것도 없다. 기생충의 핵심은 숙주다. 우수한 숙주를 만나야 기생충은 번식이라는 큰 뜻을 이룰 수 있다. 데이터도 훌륭한 숙주를 만나야 큰 가치를 전달할 수 있다. 그런 의미에서 데이터에게 절대적인 숙주는 사람이다. 데이터는 누구에게 분석되고 해석되느냐에 따라 결과를 달리하는 매우 유연한 무생물이다. - P5

둘째, 기생충도 데이터도 동서고금을 막론하고 어디에든 존재한다. 전 세계 방방곡곡, 과거, 현재, 미래를 초월해서 존재한다. - P5

셋째, 기생충과 데이터 모두 좋은 것과 나쁜 것이 있다. 데이터는 누군가에게는 밝히고 싶지 않은 진실일 수도 있고 또 다른 누군가에게는 인생 역전의 만루홈런을 안겨줄 기회일 수도 있다. - P5

마지막으로 기생충과 데이터는 생김새가 모두 다르다. 많고 적음의 양적인 측면뿐 아니라 유형과 구조 등 그 형태가 다양하다. - P5

굳이 다른 점을 찾자면 기생충은 생물이기에 수명이 있지만 무생물인 데이터는 수명이 없다. - P6

데이터는 오늘 활용되고 내일 활용돼도 무한반복으로 사용할 수 있다. 그래서 진실은 그것이 좋은 쪽이든 나쁜 쪽이든 언젠가 밝혀지기 마련이다. - P6

"그러니까 저는 데이터를 수집하고 가공 처리해 일정한 데이터 분석 기법을 적용하고 분석한 후 도출된 결과를 해석해 가치를 창출하는 일을 합니다." - P7

데이터 분석은 전문가의 영역으로 치부된다. 누구나 쉽게 범접할 수 있는 영역은 분명 아니다. 전문가 집단 또는 전문 기업에서나 다룰 법한 특수한 분석 기법을 우리 모두가 알 필요는 없다. 그러나 중요한 것은 이러한 복잡한 분석 기법을 적용하는 것보다 어떤 대상을 분석해야 할지를 판단하고 대상과 내 수준에 맞는 분석 기법을 선택하는 능력이다. - P7

무슨 일이든지 알아야 지시도 하고 알아야 흥미가 생긴다. - P7

전달하는 사람도 결과를 보고 받는 사람도 이 분석이 왜 수행되고 얻고자하는 가치가 무엇인지를 미리 알고 있다면 결과를 쉽고 간결하게 만드는 데 도움이 되기 때문 - P8

문제를 바라보는 관점이 통일돼야 결과의 효용 가치가 충분히 높아진다. 데이터 분석 역시 그들만의 리그가 돼서는 안 된다. 모두가 이해하고 인정하는 보편적인 영역이 돼야 더욱 발전하고 더 전문적인 영역으로 인정받을 수 있다. - P8

데이터 분석의 영역도 친근하게 다가가야 한다. 일반인들이 쉽고 거부감을 갖지 않도록 말이다. - P9

데이터는 이미 우리 생활에 많은 영향을 주고 깊이 연결돼 있다. 여기저기서 전문가를 데려가고자 많은 노력을 기울이는 것이 이를 증명한다. 또한 데이터 분석을 통해 스스로 판단하고 결정해 실행하는 시대가 왔다. 보고 아는 만큼 사랑한다는 말처럼 데이터 분석이 우리 삶 깊은 곳까지 침투하고 있다는 사실을 기억하기 바란다. - P9

미래는 준비된 자에게 언제나 결과로 말한다. 미래를 준비하는 밑거름은 분명 데이터가 될 것이다. - P10

다시 한 번 말하지만 알아야 관심을 갖고 알아야 친해진다. - P10

‘내가 알고 있는 모든 것을 누군가에게 쉽고 재미나게 설명하기가 이렇게 어려운 것이었구나‘ - P10

소설가 황석영 선생이 "책은 엉덩이로 쓰는 겁니다."라고 했는데, - P10

데이터는 화려하거나 꾸밈이 없다. 참으로 영혼이 맑은 아이다. 데이터는 꾸미지 않은 원석 그대로의 모습을 간직하며 그 안에는 거짓없이 진실만을 담고 있다. 더욱 놀라운 점은 이러한 진실이 미래도 알려줄 수 있고 반복된 습관도 발견하게 하며 때로는 유사한 것들끼리 묶어주기도 한다. 진실하면서 정보까지 주니 정말 착하지 않은가. - P10

이 책을 읽는 모든 사람이 데이터와 분석 기법에 친숙해지기를 - P11

세상에 영원불멸한 것은 없다 딱 한 가지 데이터는 사라지지 않는다 - P17

데이터의 범위는 무엇일까? 데이터의 범위는 학자마다 분야마다 해석이 다양하다. 영어로 data를 사전에서 찾아보면 ‘원하는 결과를 얻기 위해 증명, 판단, 결정하는 과정에 필요한 자료‘라고 나온다. 이를 다시 해석하면 원하는 결과는 사람마다 다르므로 ‘각자가 필요한 자료‘라고 할 수 있다. 그래서 세상의 모든 자료는 곧 데이터라고 범위를 정할 수 있다. - P19

데이터는 의사 결정을 위해 사용된 모든 내용을 의미한다 - P20

데이터는 의사결정을 위한 모든 사실을 의미하며 모든 사실 중에서 필요한 사실만을 수집해 정리한 데이터를 정보라고 한다. 즉, 정보는 의사결정을 위해 수집하고 정리한 데이터의 묶음을 의미한다. - P20

데이터를 수집하고 정리된 정보를 통해 가치(지식)를 발견해 가는 과정을 데이터의 흐름이라 한다. 여기에 더해 가치를 창의적인 아이디어로 승화시키면 지혜가 된다. - P21

데이터(data)

fact

현실 세계의 모든 자료 - P21

정보(information)

processing

유의미하게 가공된 자료 - P21

지식(knowledge)

value

정보로 얻게 된 방법과 방향성 - P21

지혜(wisdom)

idea

지식을 활용한 창의적인 아이디어 - P21

우리는 지금 데이터의 홍수 속에 살고 있다. 엄청난 양의 데이터에서 정보를 찾고 정리된 정보에서 가치를 발견한다. 그래서 필자는 지금을 가치 발견의 시대라는 의미에서 밸류러시value rush라고 부른다. 단, 금은 한정된 지역에 있지만, 데이터는 어디에서나 있다는 사실이 다르다. - P22

평균은 표본 값의 총 합을 표본개수로 나눈 값이다. - P23

평균의 종류는 여러 가지지만, 일반적으로 산술평균을 말한다. - P23

평균은 한 가지 단점을 가지고 있는데, 그것은 극단적인 값에 민감하다는 점이다. - P23

따라서 평균을 진정한 평균으로 만들 방법이 필요하다. 그 첫 번째 과정으로 계산한 평균으로부터 각각의 관측 값 (과목별 점수)이 얼마나 멀리 떨어져 있는지를 측정한다. 측정하려면 관측 값들이 평균으로부터 얼마나 분포(산포)돼 있는지를 확인해야 하며, 이를 편차deviation라 한다. 편차는 다음 방법으로 쉽게 계산할 수 있다.

편차= 관측값(과목별 점수) - 평균 값 - P24

편차는 양수도 있고 음수도 있다. 당연한 이야기지만 관측 값이 평균보다 높을 수도 있고 낮을 수도 있기 때문이다. 이 편차를 모두 더하면 반드시 0이 된다. 다시 말해 편차의 평균도 0이다. 따라서 편차로도 평균의 대표성을 가늠하기가 쉽지 않다. - P25

편차의 합이 0이 되지 않는 방법이 필요하다. 편차가 모두 음수거나 양수라면 합은 0이 되지 않는다. 이때 음수를 양수로 바꿀 방법이 필요하다. (중략) 음수와 음수를 곱하면 양수가 되므로 각 편차를 제곱해 원래의 편차 값을 두 배로 늘리면 된다. - P25

편차의 합은 반드시 0이 되지만 두 배로 늘린 편차의 합은 0이 되지 않는다. 이처럼 두 배로 늘린 편차의 평균을 분산variance이라고 한다. - P25

제곱으로 구한 분산은 그 값이 두 배로 늘었으므로 다시 줄이는 과정이 필요하다. 늘린 값을 줄이는 방법은 제곱근을 취하는 것인데, 이를 표준편차standard deviation라고 한다. - P25

데이터 분석의 목적은 데이터로부터 창출되는 가치를 발견하는 것이다. 그런 의미에서 평균은 아주 기본적인 분석으로 수치화한 중요한 가치다. - P26

그러나 평균은 절대적인 영향력이 없음 - P26

평균을 제시할 때는 반드시 표준편차를 함께 이야기해야 한다. 그래야만 제시된 평균이 얼마나 신뢰성이 있는 가치인지를 판단할 수 있다. 평균을 올리는 것만큼 표준편차를 줄이는 노력을 소홀히 해서는 안 된다. - P26

평균이 표준편차와 짝꿍이라는 점을 잊지 말자. 명심하자. 표준편차가 0이 되면 평균을 구할 필요가 없다. - P26

IT 공간에서 생산된 것만이 데이터가 아니다. 데이터는 우리 주변에 있는 모든 것을 포함하는 광의의 개념이다. 다만 컴퓨터라는 도구가 데이터를 다루는 데 유용할 뿐이다. - P27

세상의 모든 정보가 IT 공간으로 모이고 있다. 개인의 사생활까지도 분석대상이 되는 환경이다. 데이터를 확보하고 정리하고 활용하고 분석하는 공간으로서 컴퓨터는 현존하는 최고의 도구이자 저장공간이다. - P27

우리가 일상에서 의사결정을 위해 고민하고 생각하는 모든과정이 데이터 분석인 것이다. - P27

내가 원하는 가치를 제공하는 모든 것이 데이터 저장 공간이라고 할 수 있다. 무엇인가 궁금할 때 유용한 지식을 알려주는 인터넷 역시 좋은 정보가 담긴 저장소다. 책은 두말하면 잔소리다. - P27


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
북마크하기찜하기 thankstoThanksTo