-
-
데이터의 역사 - 인간의 숨겨진 욕망과 권력 관계를 숨김없이 보여주는 데이터에 관한 진실!
크리스 위긴스.매튜 L. 존스 지음, 노태복 옮김 / 씨마스21 / 2024년 10월
평점 :
*** 리뷰어스 클럽 소개로 출판사에서 도서를 제공 받아 주관적으로 작성하였습니다. ***

데이터(DATA) 란 자료, 거의 모든 분야에서 우리를 둘러싸고 있는 데이터 중심의 알고리즘에 기반한 의사결정 시스템의 축약어이다.
통계을 배우다 보면 데이터(Data)의 위험성을 알게 된다.
개인의 동의를 받지 않고, 수집된 데이터를 이용하기 때문이다.
그리고 그 수집된 데이터에 의해 노출되어 선택을 강요당하기도 한다.
2014년 12월 몬트리올컨벤션센터에서 컴퓨터과학자 해나 왈라크가 데이터의 위험성을 경고하며, 언급되었다. 예를 들어 트위터의 사용자들의 정보를 분석하는 것은 쉽지만, 그 데이터가 미국 인구 전체를 대표하지 못한다. 그래서 데이터는 " 공정성, 책임성, 투명성"을 가져한다고 강조했다.
권력이 된 데이터의 경고
기술은 좋지도 나쁘지도 않으며, 그렇다고 중립적이지도 않다.
- 크란츠버그의 기술에 관한 첫번째 법칙(1986년)
1. 데이터의 탄생
18세기 계몽시대 유럽의 신생국가들은 자국이 사람, 토지, 금속, 기업 등 어떤 자원을 얼마나 갖고 있는지 알아야 했다. 정부의 능력을 강화하고, 정책에 활용하고 국민을 설득하기 위해.
또한 일탈, 죽음, 범죄 및 질졍에 관한 수치를 도표로 작성하며, 데이터 수집을 증가시켰다.
통계는 1890년대 영국의 빈곤 문제에 쓰였다. 가난의 원인을 분석하고, 국가의 공공지원과 빈곤의 인과관계를 조사하였다. 지금도 사용되는 빈곤선(poverty line)이 만들어지는 계기가 됐다.
1886년 기네스 사는 데이터과학을 통해 최상의 맥주를 만들기 위한 양조 과정을 알아내기 내어 사업 관행의 혁신을 추구했다. 100여년 간의 충분한 자료의 축적이 가장 최선의 결과를 얻을 수 있다고 생각했다.
2.진화하는 데이터
통계와 데이터를 가장 공격적으로 다룬 역사적 사건은 제2차 세계대전 중 일어났다.
난공불락의 돌일 암호(애니그마 기계라고 알려진 암호)를 해독하는 나름의 통계적 방법과 특수 목적의 계산 장치의 개발이었다. 애니그마를 해독하기 위해 데이터 분석을 산업적으로 만들었다.
톱니바퀴 구멍 즉 전자식 눈을 통과하는 데이터를 기록하고 관리하는 세계 최초의 컴퓨터의 탄생이다.
(1) 데이터 마이닝 (Data mining)
데이터 마이닝란 대량의 데이터에서 유용한 정보를 추출하는 것을 말한다.
다양한 통계적 기법, 수학적 기법과 인공지능을 활용한 패턴 인식 기술 등을 이용하여 데이터 속에서
유의미한 관계, 규칙 패턴 등에 대한 규칙을 발견하는 것이다.

(2) 구글 검색 시스템의 구조
해당 웹페이지에 대한 링크 개수를 세어서 권위의 높고 낮음을 평가하는 페이지랭크(PageRank)가
구글의 핵심 기능이다.
구글의 테이터 구조는 대규모의 문서들이 낮은 비용으로 크롤링(crawling 웹페이지를 돌아다니며 데이터를 수집하는 행위), 인덱싱 및 검색이 가능하도록 최적화되어 있다.

3. 데이터 권력이 되다.
국민의 여론 조사를 잘 활용해 대통령이 된 사람은 미대통령 버락 오바마이다. 각 지역의 선거 사무실의
여론 조사를 통해 지역별, 연령별 맞춤 공약으로 대통령이 되었다.
이후 선거에 여론조사와 통계가 다양하게 사용된 것은 어쩌면 당연한 결과이다.
주요 여론 조사 기관이 박빙의 승부를 예측했던 2024년 미국 대선은 트럼프의 압도적인 우세로 끝났다.
왜 여론조사와 선거 결과는 차이가 많이 났을까? 여론조사의 오차때문이라고 하기엔 너무 궁색하다. 데이터의 편향성 (한쪽으로 치우친 정도)때문이다.
사람은 생각하는 것과 행동이 달라지기때문이다. 선거인단이 여론조사 응답하는 사람과 찍은
사람이 달랐기 때문이다. 기계가 아닌 사람만이 가지는 통계적 오류가 발생한 것이다.
통계조사를 통한 자료를 보고 정책을 결정하고, 여론 조사를 통해 당선 가능성을 점칠 때,
무엇보다 중요한 것은 사람이 최우선인 선택을 하면 된다.
데이터를 만들어 내는 것도 결과를 수집해 이용하는 것도 사람이 보다 편리해지기 위해서
생겨났기 때문이다.
데이터가 만들어지고 이용되고 발전되어 오늘날엔 어떻게 사용되는지 알고 싶을 때 보면
많은 도움이 되는 책이다.