-
-
데이터의 역사 - 인간의 숨겨진 욕망과 권력 관계를 숨김없이 보여주는 데이터에 관한 진실!
크리스 위긴스.매튜 L. 존스 지음, 노태복 옮김 / 씨마스21 / 2024년 10월
평점 :
[출판사로부터 도서를 제공받아, 작성자의 주관적인 견해를 토대로 작성하였습니다.]
이제 데이터는 현대 사회에서 살아가기 위해서는 필수적인 요소가 되었다. 교육 현장 뿐만 아니라 일반 회사에서, 연구소에서, 정부에서, 스포츠 구단에서도 그렇다.
시중에는 데이터 분석을 위한 이론서와 컴퓨터 실습서가 계속 출판되어 판매되고 있고, 교육 사이트나 유튜브 등에서는 데이터나 통계학, 그리고 수학 등 관련 강의들이 넘쳐나고 있다.
하지만 데이터라는 것이 어떻게 발전하였는지 궁금해도 궁금증을 해결해 줄 수단은 많지 않았다. 검색을 통해 단편적으로 알 수 있었을 뿐이다.
그러던 중 두 명의 교수가 이러한 의문을 약간이나마(?) 해결하기 위한 책을 내놓았다. 저자 중 한 명은 데이터 과학 전공 부교수이며, 한 명은 과학기술사로 학위를 받았고 데이터 과학 및 사이버 보안 분야 전문가인 역사학 교수이다.

‘데이터의 역사‘
이 책은 파트 1과 파트 2, 그리고 파트 3으로 나눌 수 있다.
파트 1은 권력이 된 데이터의 경고로써 데이터와 관련된 역사와 발전 과정을 주로 서술한다.
우선 처음에는 이미 권력이 되어있는 데이터의 현 상황에 관해서 설명한다. 그리고 본격적으로 데이터와 관련이 가장 깊은 수학 분야, 통계학이 어떻게 발생했는지를 벨기에의 수학자, 천문학자, 통계학이자 사회학자인 아돌프 케틀레의 삶을 통해 알아본다. 그리고 추가로 사회물리학이 무엇인지를 알게 될 것이다. 하지만 그 이론은 바로 골턴에 의해서 인종의 평균적 자질에 대한 연구로 이어지고 새로운 개인적 차이의 과학이 나오게 된다.
그리고 골턴의 이론을 바탕으로 우생학이 탄생하는데, 우생학이 나오는 과정을 자세하게 밝혔다. 그리고 다음으로 우생학적 통계가 발전시킨 것은 과학의 시간으로 사회를 해석하는 것으로 발전하였지만 인종 차별 등 사회적으로 엄청난 문제 발생하는 이유에 관해서도 서술한다.
다음으로는 주로 유의성 검증과 가설 검정에 대해 나오는데 이 용어를 만들고 연구한 과학자 3명에 대해서 알게 된다, 이것이 의사결정을 위한 과학이나 진리의 알고리즘과 어떻게 연결되는지 알 수 있다.
하지만 데이터 과학이 발전하게 된 계기는 다름아닌 제2차 세계대전이다. 이 거대한 전쟁에서 승패에 엄청난 영향을 끼친 암호 해독 과정에서 ’베이즈‘ 정리가 어떻게 나왔는지가 핵심 내용이다. 베이즈 정리는 미국에서 발달한 암호 해독 과정에서 나온 정리이다. 그 후 암호 해독을 위한 수학은 2차 세계대전 시기의 암호학과는 비교할 수 없을 만큼 발전을 이루는데, 이 책에서는 이 과정도 보여준다. 그 중의 일례가 NSA에서 쓰인다고 공개된 일부 통계학 개념이다, 이 수학은 대량의 데이터를 사용하는 데 사용되는 수학이다. 이 연구는 벨 연구소에서도 사용되었는데, 주로 비즈니스의 목적으로 쓰였다.
파트 2는 진화하는 데이터로서 데이터가 진화해 어디까지 발전하고 있는지를 주로 나타낸다.
어떻게 전쟁에서 다량의 데이터를 처리하기 위해 어떤 방법을 썼는지부터 시작하여 인공지능이라는 개념이 어떻게 시작되었는지를 알려준다. 특히 논리 진영과 데이터 진영이 학문적으로 어떻게 싸우면서 발전하는지를 서사적으로 보여주기도 한다. 그리고 다음은 인공지능으로 데이터를 다루는 기술들이 점점 발전하는 것에 대해 다룬다. 데이터 처리 기술은 점점 좋아지지만, 그 반대급부로 개인정보 보호 문제가 많이 생긴다.

194쪽 캐슬린 메카시, 데이터 흐름도
개인정보 보호에 관한 문제 다음이 바로 패턴 인식과 기계학습의 발전, 소련의 데이터 산업에서 만들어진 연구 결과와 신경망의 발전 과정이다. 그리고 덧붙여 넷플릭스 상이 무엇인가도 알 수 있었다. ‘넷플릭스 상‘이라는 재미있는 주제를 넘어가면 이 파트의 주요 주제이자 기술 발전의 끝판왕인 챕터를 보게 되는데, 데이터 과학자란 용어가 어떻게 탄생하고 발전했는지, 그리고 데이터 마이닝에서부터 빅데이터까지 발전하는 과정, 그리고 그 과정에서 통계학은 어떻게 데이터과학과 결합하는지를 알려준다.

미국 국립표준기술연구소에서 공개한 검사용 숫자의 인식 비율
파트 3은 이 책의 주제인 데이터가 어떻게 권력이 되었는지이다. 크게 3가지 주제로 나눌 수 있다.
첫 번째는 기술이 발전하면 항상 따라오는 윤리에 관한 내용이다. 데이터는 결국 돈을 따라 움직일 수밖에 없다. 소수의 기업이 독점하게 되면 터질 수 있는 윤리적인 문제들과 규제 기관이나 규제를 회피하는 문제에 대해 다루고 있다. 다음은 용어가 생소할 수 있는 ‘주의력 경제’라는 단어가 중심이다. 하지만 결국은 광고와 관련된다. 정보는 홍수라기보다는 태평양이라고 불러야 할 만큼 쏟아지고 있다. 그 속에서는 당연히 광고 정보도 많이 쌓이는데, 이러한 상황 속에서 어떤 것에 집중하느냐는 문제를 심도 있게 다룬다.
이 파트의 마지막이자 책의 마지막 부분은 지금 데이터 권력 관련 어떠한 것이 필요한지를 3개의 국가권력, 기업 권력과 국가 권력, 시민 권력으로 나눠서 서술하고 있다. 기업 권력에 관해서는 주로 윤리에 대한 문제, 국가 권력에 관해서는 주로 규제와 관련된 이야기, 시민 권력에 관해서는 주로 약자 관련 문제에 대해 자세히 서술한다.
처음 책을 읽을 때는 단순히 데이터의 역사만 나열하는 ‘역사서’일 줄 알았다. 하지만 단순히 역사만 공부하는 책은 아니다. 당장 파트 1만 봐도 용어인 회귀 분석, 카이 분석 등 전문적인 통계학 용어들이 나온다. 그야말로 데이터에 대한 개념과 어우러져서 데이터의 역사를 설명하고 있다.
데이터과학과 통계학 용어뿐만 아니다. 데이터과학, 통계학과 관련된 너무나도 많은 사람이 나온다. 천문학자이자 통계학의 아버지로 불린 아돌프 케틀러부터 블레츨리 파크의 앨런 튜링, 그리고 현대의 수많은 데이터과학 및 통계학자들까지. 따라서 검색할 수 있는 수단을 갖추고 각 인물, 혹은 통계학 관련 용어들을 검색하면서 읽어보는 것도 하나의 재미이기도 하고 이 책을 더 잘 이해하는 방법이라고 생각한다.
그리고 더 자세한 사항은 주석들을 정리한 책 맨 뒷부분의 ‘주’를 참고하는 것도 좋은 방법이 될 것이다.

주석
마치며
방대한 데이터과학과 통계학의 역사, 발전 과정을 한 책에 제대로 담았다. 데이터과학과 통계학에 대해 잘 아는 사람은 쉬울 수 있으나 그렇지 못한 사람은 매우 어려울 수 있다. 관련 개념을 하나하나 알리는 책은 아니기 때문이다.
하지만 데이터의 역사를 알게 된다면, 데이터과학을 배우는 과정에서, 인공지능과 딥러닝 등을 배우는 과정에서 좀 더 쉽게 이해할 수 있으리라 믿는다. 왜 필요했는지, 어떻게 발전하는지를 알게 되면 이걸 왜 배워야 하는지 조금이나마 알게 될 것이기 때문이다.
이 책을 통해 데이터에 대해, 데이터과학과 통계학에 대해 좀 더 깊게 이해할 수 있는 시간이 되었으면 한다.
#데이터과학, #통계학, #인공지능, #데이터의역사
|