(39)
심지어 미국의 어떤 은행은 대출받는 이유를 글로 쓰게 하고 그 글에 등장하는 단어를 분석해 대출 신청자가 돈을
잘 갚을 사람인지, 못 갚을 사람인지를 추정한다. 해당 은행이
발견한 인사이트는 다음과 같다. 대출금을 잘 갚는 사람들은 ‘금리’, ‘금리 차이’ 등의 단어를 많이 사용했고, 잘 갚지 못하는 사람들은 ‘절대로’,
‘죽어도’, ‘반드시’, ‘하나님께 맹세’와 같은 단어나 구문을 많이 사용했다. 약속을 지키지 못하는 사람들이
어떻게라도 대출을 받으려고 과장된 모습을 보인 것이다.
(43-44)
여기서 인사이트는 사전상 ‘통찰력’이라고
번역된다. 그냥 영어로 보면 인사이트란 말은 ‘in’과 ‘sight’의 결합으로 ‘안을 본다’는
뜻이다. 그 ‘안’은
보는 이의 관심에 따라 달라진다. 소비자가 고객에게 관심이 있는 판매자라면 고객의 마음속을 본다는 뜻이다. 고객이 무슨 생각을 하는지, 즉 해당 제품에 대해 어떻게 생각하는지, 왜 이 제품을 구매하는지 또는 구매하지 않는지를 아는 것이 인사이트다. 기계
장비에 관심이 있는 엔지니어게는 기계 장비 안에서 벌어지는 일이 보인다는 의미다. 품질이 나쁜 제품이
나올 때 그 안에서 어떤 일이 일어난 것인지, 특정 부품의 수명이 얼마나 남았는지 보인다는 뜻이다.
(53)
첫 번째가 묘사분석, 두 번째가 진단 분석, 세 번째가 예측분석, 네 번째가 처방분석이다. 즉 ‘도대체 무슨 일이 있는가 또는 일어나고 있는가’로부터 시작해서 ‘왜 그런 일이 일어났는가’로 이어지고 ‘앞으로 어떤 일이 일어날 것인가’, ‘그러면 우리는 어떻게 해야 하는가’로 나아간다. 과거의 상황 이애, 원인 이해, 미래
예측, 그리고 우리의 액션 플랜을 파악하는 순으로 나아간다.
(76)
최근 몇 년 간 가장 성장세가 높은 사업 분야는 플랫폼 사업이다. 플랫폼이란
생산자와 소비자를 연결시키는 일종의 시장이다. 플랫폼 자체는 생산도 하지 않고 구매도 하지 않으며, 단지 중간자 역할만 한다. 그런데 여기에 소비자가 몰려와야만 시장이
형성된다. 이 때 소비자를 끌어당기는 당근이 바로 빅데이터다. 플랫폼이
성공하려면 소비자 입장에서 많은 정보가 일목요연하게 정리되어 있어서 꼭 가고 싶은 곳이어야 한다. 대표적인
곳이 아마존, 호텔스닷컴, 유튜브, 우버 등이다.
(115-116)
예를 들어 고객이 3일 내내 밤마다 아마존 사이트에 들어가서 시계
하나를 들여다본다고 하자. 그러면 아마존은 그 고객이 그 시계를 사고 싶어 한다는 것을 안다. 고객은 시계 가격이 5000달러로 고가라서 망설이고 있다. 그런데 이 고객의 과거 구매 이력을 보니 그 가격의 제품을 못 살 고객이 아니다. 이렇게 판단되면 아마존은 그 시계를 드론에 태워서 고객에서 보낸다. 드론
안에는 시계와 함께 다음과 같은 안내문이 있다. ‘원치 않으면 반품하세요!’
이 드론을 받는 순가 고객은 어떻게 해야 할까? 그냥 가만히 있으면
자동으로 결제가 된다. 고객의 카드 정보는 아미존이 알고 있으니 말이다. 이게 지금 아마존이 추진하고자 하는 예측 배송이다.
(149-149)
어떤 연구팀은 목소리도 분석했다. 애널리스트가 “내년에는 실적이 안 좋겠죠?”라고 물어볼 때 CEO가 편안한 목소리로 “그럴 리가 없다”고 하는지, 아니면 갑자기 흥분해서 말이 빨라지는지 그 음성을 분석한다. CEO의 말이 빨라지거나 톤이 올라간 경우, 주가가 떨어지는 경우가
많다고 한다. CEO가 보통 사람들은 도저히 알아들을 수 없는 어려운 용어를 쓰면서 설명하는 경우에도
주가가 떨어지기는 예가 많다는 것을 발견했다. 안 좋은 상황을 인정하기 싫어서 어려운 말과 복잡한 표현으로
적당히 피하려는 것은 아닐까 하는 추측을 할 수 있다.
(159-160)
태스크(task)란 인사이트를 도출하기 위해 데이터에 대해 우리가
수행하는 작업을 뜻한다. 과거와 현재를 묘사하는 인사이트 관련 태스크에는 시각화, 연관분석(association mining), 클러스터링(clustering)이 있고, 미래 예측인 포사이트 관련 태스크에는
예측 및 분류와 이상탐지(anomaly detection)가 있다. 총
다섯 가지의 분석 태스크가 있는 것이다.
(256)
미국은 1970년대에 개인정보에 대한 사회적 논의를 치열하게 거친
후에 기본적으로 활용을 허용하되 대신 범죄에 악용되는 경우에만 처벌하는 것으로 정리했다. 우리나라는
범죄에 악용될 수 있는 가능성만 있어도 처벌하는 것과 커다란 차이가 있다. 이후 미국은 개인정보를 적극적으로
산업에 활용할 것을 권장하고 있다. 데이터를 구매하고 가공하고 판매하는 것이 모두 허용된다. 데이터 가공업과 데이터 산업 자체가 세계에서 가장 활성화되어 있는 이유가 여기에 있다.