하지만 지금껏 어떤 방법도 사람의 생각을 훤히 보여주지는 못했다.
문제는 거친 타협에 있다. 인간의 생각은 대단히 복잡한 명제다. 전쟁과 평화 (Mar and Peace)를 속독했다는 우디 앨런 Woody Allen과 달리, 우리는 이책을 그저 ‘러시아 사람들의 이야기다‘라고 말하고 치워버릴 수가 없다. 얽히고설킨 다차원적 명제를 과학자가 분석하기란 대단히 어렵다.
(서문) - P8

이 데이터는 그들이 살아 있을 때는 존계하지 않았다. 20년 전에도 존재하지 않았다. 지금에야 존재한다. 이전에는 짐작만 할 뿐 확인할 수 없었던 영역에 다양한 창을 열어주는 독특한 데이터 소스가 많다. 새로운 유형의 데이터 제공이 빅데이터의 첫 번째 힘이다.
- P72

이런 사이트들은 일종의 ‘디지털자백약‘으로 기능해서 근친상간에 대한 광범위한 매혹을 드러낸다. 비데이터를 통해 우리는 사람들이 원한다고 말하는 것, 하고 있다고 말하는 것이 아니라 사람들이 정말로 원하고, 정말로 하고 있는 일이 무엇인지를 볼 수 있다. 솔직한 데이터 제공은 빅테이터의 두 번째 힘이다.

지금은 데이터가 너무나 많기 때문에 작은 규모의 집단에 관한 유의미한 정보도 존재한다. 예를 들어, 오이 꿈을 꾸는 사람의 수와 토마토 꿈을 꾸는 사람의 수를 비교할 수 있다. 작은 집단도 클로즈업해서 볼수 있는 것이 빅데이터의 세 번째 힘이다.

빅데이터에는 더 인상적인 힘(프로이트에 관한 내 짧은 연구에서는 사용되지 않았지만 미래의 연구에서는 사용될 수 있는 힘이 있다. 빠른 통제실험을 할 수 있다는 점이다. 이로써 단순히 상관관계만이 아니라 인과관계도 확인할 수 있다. 이런 유형의 시험은 현재 기업이 많이 사용하고 있지만 곧 사회과학자들에게도 강력한 도구가 될 것이다. 인과적 실험의 실행 가능성이 빅데이터의 네 번째 힘이다.
- P73

 많은 말들이 경마 경력을 쌓은 지 얼마 되지 않아 뛰고 싶지 않으면 뭘 필요가 없다는 점을 깨닫는다. 경주 초반에 빠르게 달리다가도 어느 시점이 되면 속도를 늦추거나 완전히 멈춘다. 발굽과 관절에 통증을 느끼면서까지 빨리 달려야 할 이유가 어디 있단 말인가? 그들은 "하고 싶지 않습니다"라고 결정한다(나는 말이든 사람이든 이런 바틀비들이 좋다).
- P86

데이터 과학자들이 세이더의 기획에서 무엇을 배울 수 있을까?
우선, 가장 중요한 점은 어떤 분야에 혁신을 일으키기 위해 새로운 데이터를 이용하려 할 때는 기존의 방법이 형편없는 분야에 들어가는것이 가장 좋다는 사실이다. 세이더가 상대했던 혈통에 집착하는 경주마 에이전트에게는 개선의 여지가 많았다. 구글이 상대했던 단어의 수에 집착하는 검색엔진도 마찬가지였다.
- P91

관계를 진전시키고 싶은 남성이 여성의 입에서 들을 수 있는 가장 긍정적인 말은 ‘나‘로 밝혀졌다. ‘나‘에 대해 말한다는 것은 그녀가 편안하다는 신호다. "당신도 알죠?"나 "제 말은 처럼 자신을 드러내는 표현을 사용한다면 그 여성은 상대에게 관심이 있을 가능성이 높다. 왜일까? 과학자들은 이러한 말이 듣는 사람의 주의를 끈다고 말한다. 이런말은 우호적이고 따뜻하며 관계의 진전을 바라고 있다는 뜻이다. 당신도 내 말이 무슨 뜻인지 알지 않나?
- P103

어떤 기사가 공감을 얻을까? 긍정적인 기사일까, 부정적인 기사일까?
바로 긍정적인 기사다. 연구자들은 내용이 긍정적일수록 널리 전파될 가능성이 높다고 결론 내렸다.
여기서 주목할 점은 사람들이 폭력적이고 파멸적인 이야기에 끌린다는 기자들의 일반적인 통념과 결과가 반대되는 것처럼 보인다는 것이다. 언론 매체가 사람들에게 암울한 이야기를 많이 전달한다는 것은 사실일지 모른다. 보도국에는 피를 흘리는 기사가 주목받는다. if it bleed, it leads‘라는 격언이 전해진다. 그렇지만 와튼경영대학교 교수들이 수행한 이 연구는 사람들이 명랑하고 기운을 돋우는 이야기를 원할지도모른다는 것을 암시한다. ‘미소를 지으면 퍼간다 if it smiles, is emailed‘라는새로운 격언이 나와야 할지도 모르겠다.
- P115

2005년 공화당 의원들은 연방 상속세를 인하하기 위해 노력했다. 그들은 이를 ‘death tax‘(금방 사망한 사람에게 세금을 매기는 것같이 들린다)라고 표현한다. 민주당 의원들은 이를 estate tax (부자들에게 매기는 세금처럼 들린다)라고 묘사했다.
마찬가지로 공화당 의원들은 사회보장연금을 개인 퇴직금 적립 계정으로 옮기려고 노력했다. 공화당원들에게 이것은 "개혁"이었다. 민주당원들에게 이것은 좀 더 위험하게 들리는 "민영화 였다.
- P117

하지만 이 논문은 그렇지 않다고 말한다. 사실, 진보 편향은 신문 독자들의 요구에 맞춘 결과일 뿐이다. 신문 독자층은 평균적으로 약간 좌편향이다( 겐츠코프와 사피로는 이에 대한 데이터를 갖고 있다). 신문이 평균적으로 좌편향인 이유는 그것이 독자들이 원하는 견해이기때문이다.
거대한 음모 따위는 없다. 그저 자본주의가 존재할 뿐.
- P120

사람들은 친구에게 거짓말을 한다. 상사에게, 아이들에게, 부모에게 , 의사에게, 남편에게, 아내에게 거짓말을 한다. 그리고 스스로에게 거짓말을 한다.
또한 설문조사에서도 분명히 거짓말을 한다.
- P128

거짓으로 답하고 싶은 유혹을 느꼈는가? 설문조사에 답할 때 사람들은 당혹스러운 행동이나 생각을 축소해서 이야기한다. 사람들은 멀쩡하게 보이기를 원한다. 설문조사가 대부분 익명인데도 말이다. 이것을 사회적 바람직성 편향 social desirability bias 이라고 부른다.
- P129

사람들이 익명의 설문조사에서도 그릇된 정보를 주는 이유는 무엇일까? 미시간대학교의 명예교수이자 사회적 바람직성 편향 분야에서 세계 최고의 전문가인 로저 투랑조Roger Tourangeau에게 직접 물어봤다. 그는 우리가 ‘선의의 거짓말‘을 좋아하는 것이 문제의 핵심이라고 설명했다. 사람들은 평생 세 번에 한 번 꼴로 거짓말을 합니다. 그 버릇이 설문조사에서도 나오는 것입니다."
게다가 우리에게는 자기 자신에게도 거짓말을 하는 이상한 버릇이있다.  - P130

설문조사에서 우리가 거짓말을 하는 또 다른 이유는 인터뷰를 진행하는 낯선 사람에게 좋은 인상을 주고 싶어 하는 강한 욕구 때문이다.
- P131

이런 이유 때문에 개인적인 상황이 개입되지 않을수록 사람들은 더솔직해진다.  - P131

이 장을 읽는 동안 염두에 둬야 할 점이 하나 있다. 구글은 부적절한 생각이나 다른 사람과는 의논할 수 없다고 느끼는 생각 쪽으로 편향돼 있다. 그럼에도 불구하고 숨겨진 생각을 알아내려 한다면 그런 은밀한 생각을 캐내는 구글의 능력이 도움이 될 것이다. 아이를 갖거나 갖지 않은 후회 사이의 큰 격차는 흔히 부적절하다고 여겨지는 생각이 유의미하게 존재한다고 말해주는 듯하다.
- P135

저커버그는 중요한 비밀을 배웠다. 사람들은 화가 나고 불쾌하다며 어떤 것을 매도하면서도 여전히 클릭한다는 것을 말이다.
그가 배운 것이 하나 더 있었다. 사람들은 타인의 사생활에 대한 존중, 책임, 진지함에 관해 목소리를 높이면서도, 다른 사람 외모를 평가하는 데 관심이 크다는 점이다.  - P183

넷플릭스도 설립 초기에 비슷한 교훈을 얻었다. ‘사람들이 말하는 것을 믿지 말고 행동하는 것을 믿어라‘라는 교훈 말이다.
- P183

나는 빅데이터가 자기계발 분야에서 유명한 말, ‘자신의 내면을 타인의 외면과 비교하지 말라‘를 21세기 식으로 이렇게 업데이트할 수있다고 생각한다. 당신의 구글 검색을 타인의 소셜미디어 포스팅과비교하지 말라.
- P188

우리가 어떤 것을 클로즈업해서 집중할 때 명확하게 드러나는 중요한 점이 하나 더 있다. 세상은 복잡하다는 것이다. 우리가 오늘 취하는 조치는 의도와 다른 효과를 낼 수 있다. 아이디어는 때로는 매우 느리게, 때로는 바이러스처럼 기하급수적으로 퍼진다. 사람들은 유인에 대해서 예기치 못한 방식으로 반응한다.
이러한 연관성과 관련성은 소규모 설문조사나 전형적인 데이터 방식으로는 추적할 수 없다. 세상은 소규모 데이터가 감당하기에는 너무 복잡하고 다채롭다.
- P226

인간이 만드는 가설은 즐거움을 줄 수도 스스로를 고문할 수도 있다. 저 남자 또는 저 여자에게 적극적으로 구애했더라면 내 인생은 어떻게 달라졌을까? 저 직업을 택했더라면? 저 학교에 갔더라면? 하지만 그랬더라면 어땠을까 하는 질문에는 답이 없다. 인생은 비디오게임이 아니다. 원하는 결과를 얻을 때까지 계속 다른 시나리오로 게임을다시 할 수 없다.
체코 태생의 작가 밀란 쿤데라 Milan Kundera는 그의 소설, 《참을 수 없는 존재의 가벼움 The Unbearable Lightness of Being)에서 이에 관해 간결하면서도 함축적인 말을 남겼다. "인간의 삶은 단 한 번뿐이다. 우리가 내린 결정 중 어떤 것이 좋고 어떤 것이 나쁜지 결정할 수 없는 이유는 주어진 상황에서 한 가지 결정밖에 할 수 없기 때문이다. 우리에게는 여러 가지 결정을 비교할 수 있는 두 번째, 세 번째, 네 번째 삶이 없다."
- P267

이 책의 제목은 ‘모두 거짓말을 한다‘ 이다. 여기서 내가 의미하는 바는 사람들이 자신의 모습을 더 낫게 보이게 하기 위해서 친구에게 설문조사에 스스로에게 거짓말을 한다는 것이다.
하지만 세상 역시 오해의 소지가 있는 불완전한 데이터를 제시하는 방법으로 우리에게 거짓말을 한다. 세상은 우리에게 많은 수의 성공한 하버드 졸업생을 보여주고 성공한 펜실베이니아 졸업생은 많이 보여주지 않는다. 그렇게 해서 우리는 하버드에 가는 것이 대단히 유리하다고 생각하게 된다.
- P274

그 뒤 그가 백만 불짜리, 아니 어쩌면 수십억 불짜리 질문을 던졌다.
"이 데이터로 주식시장도 예측할 수 있다고 생각하나?"
아하. 결국 서머스가 나를 사무실로 부른 이유는 이것이었다.
- P281

그렇다면 새로운 빅데이터 소스를 이용해서 주식이 어떤 방향으로 움직일지 예측하는 것이 가능할까? 한마디로 답하면 불가능하다.
이전 장에서 우리는 빅데이터가 가진 네 가지 힘에 관해 이야기했다. 그리고 이번 장은 빅데이터가 가진 한계, 즉 빅데이터로도 할 수없는 것과 가끔은 빅데이터로 하지 말아야 할 것을 다룬다. 이 이야기는 시장을 예측하려 한 서머스와 나의 실패로 시작된다.
- P282

이 모든 주장에서 문제가 되는 것은 무엇일까? 차원의 저주다. 현대의 과학자라면 모두 알고 있듯이 인간게놈에는 수백만 가지 방식의 차이가 존재한다. 실험할 유전자가 너무나 많은 것이다.
- P287

이 연구자들은 시험 점수 모델, 학생 설문조사, 교사 관찰 중 무엇이 학생의 학습을 가장 많이 개선시킨 교사를 골라내는 데 제일 적합한지 분석했다.
이 세 가지 척도를 하나의 종합적인 점수로 통합했을 때 최고의 결과를 얻을 수 있었다. 이 연구는 "척도마다 각자의 가치가 있다"는 결론을 내렸다.
- P293

빅데이터가 가진 힘이 너무나 인상적이어서 무서울 때가 있다. 빅데이터는 윤리적 문제를 야기한다.
- P295

사실 남편, 아내, 아들, 딸, 어머니, 아버지 등 가족에 대한 언급은 돈을 갚지 않는다는 신호다. 채무 불이행을 암시하는 또 다른 단어는 ‘설명‘이다.
어째서 자신에게 돈을 갚을 능력이 있는지 설명하려는 사람은 돈을갚지 않을 가능성이 높다.
- P298

그렇지만 개인적인 수준에서 범죄 예측에 검색 데이터를 사용하려면 매우 신중을 기해야 한다. 데이터는 끔찍한 검색이 끔찍한 행동으로 이어지는 경우가 매우 드물다고 분명히 말한다. 현재로서는 정부가 이런 검색을 검토해서 특정한 잔혹 범죄를 높은 확률로 예측할 수 있다는 증거가 없다. 따라서 정부가 검색 데이터를 바탕으로 개인적인 수준에 개입할 수 있도록 허용하는 데는 각별한 주의가 필요하다. 단순히 윤리적, 법적인 이유에서만이 아니다. 데이터 과학적 이유에서도필요하다.
- P309

이런 이유로 사회과학 혁명은 E=MC 처럼 깔끔한 수식의 형태로정리되지 않는다. 사실, 누군가 깔끔한 공식을 바탕으로 사회과학 혁명을 주장한다면 거기에 회의를 품어야 마땅하다.
혁명은 연구에 이은 연구로, 발견에 이은 발견으로, 단편적으로 진행될 것이다. 우리는 인간 정신과 사회라는 복잡한 시스템에 대한 이해를 서서히 넓혀갈 것이다.
- P313

따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서, 사람들이 하는 말이 아니라 사람들이 실제로 하는 행동에 따라서 말이다. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸 것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극히 소수니까.
- P324


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo