10쪽, 데이터는 가공됨으로써 가치를 갖기 시작한다.
22쪽, 구글 설문지를 만들어서 일부 특정 사용자만 접근 가능한 커뮤니티나 플랫폼에 이를 게시하여 설문을 수합한 후, 이를 절차적 공정함을 갖추었다는 증거를 제시하지 않은 채 가공하여, 마치 이것이 집단을 대표하는 의견인 양 공표하는 행위가, 사회과학자도, 컴퓨터과학자도 아닌 사람들에 의해 이루어지는 것이 그나마 다행이고, 그런 데이터를 보고 이러한 문제점에 대한 의문을 제기하지 않는다면 이는 불행이다.
![](https://image.aladin.co.kr/product/35072/69/cover150/k532934399_1.jpg)
이 책에서 말하는 ‘데이터‘란 거의 모든 분야에서 우리를 둘러싸고 있는 데이터 중심의 알고리즘에 기반한 의사결정 시스템의 축약어이다. - P10
"어느 컴퓨터과학자나 엔지니어도 천문학자의 도움 없이 천문학 데이터를 분석하기 위한 모형이나 도구를 개발할 수는 없을 것입니다. 그런데 왜 사회과학자들의 참여 없이 사회적 데이터 분석을 위한 많은 기법들을 개발하고 있습니까?" 왈라크는 기계학습 개발자들이 창조한 모형에 편향이 스며드는 방식들을 더 깊이 인식해야 한다고 촉구하는 동시에 단지 이용 가능하다는 이유로 데이터 세트를 연구에 포함해서 생기는 내재적 위험성을 경고했다. 예를 들어 트위터 사용자들의 정보를 얻어서 분석하는 것은 비교적 쉽지만, 이 데이터는 미국 인구 전체를 제대로 대표하지 못한다. - P22
|