세상을 읽는 새로운 언어, 빅데이터 - 미래를 혁신하는 빅데이터의 모든 것 서가명강 시리즈 6
조성준 지음 / 21세기북스 / 2019년 8월
평점 :
장바구니담기



사랑하는 딸과 아들에게 보내는 독서편지

 

0.

이 책의 첫 문장처럼, 몇 년 전부터 빅데이터라는 말은 핫한 말이 되었단다. 거의 모든 산업에서 빅데이터를 활용하려고 듯 하더구나. 빅데이터와 함께 따라 다니는 말이 인공지능이란다. 인공지능을 하기 위해서는 많은 경험을 담긴 데이터가 필요한데, 그 자료는 많으면 많을수록 좋고, 그 많은 자료 속에서 핵심을 뽑아낼 수 있으면 더욱 좋단다. 빅데이터를 분석해서 인공지능이 어떻게 행동할 것인지 결정하게 되는 것이지.

빅데이터는 오늘날처럼 온라인 쇼핑이 널리 퍼진 사회에서 많은 능력을 발휘하게 된단다. 사용자의 인터넷 검색이나 방문하는 사이트를 분석하게 되면, 그가 어떤 것에 관심을 가지고 있는지 알고 광고 창에 그가 혹할 만한 광고 링크를 연결하게 된단다. 이건 아빠도 무척 자주 경험하는 것이란다. 어떨 때는 검색이 아니라 그저 생각만 한 것 같은데도 광고 링크가 떠 있는 경우도 있는 것 같았어. 미국의 어떤 은행에서는 대출 받는 사람의 이유를 분석만 해봐도 그 사람이 돈을 잘 갚을 것인지, 못 갚을 것인지 알 수 있다고 하는구나. 이 정도로 빅데이터는 이미 우리 삶 속 깊이 들어와 있단다.

====================

(39)

심지어 미국의 어떤 은행은 대출받는 이유를 글로 쓰게 하고 그 글에 등장하는 단어를 분석해 대출 신청자가 돈을 잘 갚을 사람인지, 못 갚을 사람인지를 추정한다. 해당 은행이 발견한 인사이트는 다음과 같다. 대출금을 잘 갚는 사람들은 금리’, ‘금리 차이등의 단어를 많이 사용했고, 잘 갚지 못하는 사람들은 절대로’, ‘죽어도’, ‘반드시’, ‘하나님께 맹세와 같은 단어나 구문을 많이 사용했다. 약속을 지키지 못하는 사람들이 어떻게라도 대출을 받으려고 과장된 모습을 보인 것이다.

====================

아빠도 대충 빅데이터가 어떤 것이란 것을 대략 알고 있어서, 굳이 관련된 책을 읽은 생각은 없었어. 하지만, 전에도 이야기했지만, 회사에서 어떤 자료를 분석을 해야 하는 경우가 생겨서, 좀더 잘 분석하고 싶다는 생각이 들었거든. 그래서 통계 관련된 책들을 여러 권 샀다고 이야기를 한 적이 있는데, 그 책 중에 한 권이 바로, 이번에 읽은 <세상을 읽는 새로운 언어, 빅데이터>라는 책이란다. 이 책은 아빠도 몇 권 읽은 서가명강 시리즈 한 중에 한 권이란다. 전에 말한 것처럼 페이지에 비해 가격이 센 편이란다. 책 소개에서 이야기한 것처럼 최고의 명품 강의를 듣는다고 생각하면 비싸지 않다고 생각할 수 있지만, 이름 난 대학의 교수가 가르친다고 꼭 명품 강의일까? 책을 읽고 난 느낌은 최고의 명품 강의라는 타이틀을 달기에는 다소 부족하지 않나 싶었단다.


1.

, 그럼 어떤 것을 빅데이터라고 할까? 빅데이터가 되기 위한 조건이 있겠다는 생각을 해보진 않았지만, 이 책을 보니 빅데이터의 조건은 있어야겠다는 생각이 들었단다. 누가 빅데이터가 무엇이냐고 물어보면, 그냥 두루뭉술하게 많은 데이터라고 하면 부족한 것 같고빅데이터의 3가지 특징을 짧게 3V라고 하더구나. 첫 번째 V Volume의 제약이 없다는 뜻이고, 두 번째 V Velocity로 속도가 빨라야 한다는 뜻이고, 세 번째 V Variety로 데이터의 종류가 다양해야 한다는 뜻이란다.

데이터의 종류가 예전에는 숫자가 대부분이었지만, 오늘날에는 숫자뿐만 아니라, 문서나 사진 등 모든 것이 데이터가 될 수 있다고 했어. 이런 빅데이터를 가지고 분석을 하는데 있어서는 크게 네 단계로 설명해 주었는데, 그것을 읽어보니,  빅데이터를 분석하는 것뿐만 아니라, 어떤 문제점이 발생했을 때 그 문제점을 분석하는데 활용해도 될 것 같다는 생각이 들었단다. 하기야 그 문제점들을 분석하기 위해서는 백데이터들이 필요하고, 그 데이터들을 통해 문제의 원인을 찾고 해결방법을 찾고 있으니, 오래 전부터 빅데이터의 알고리즘을 사용하고 있었던 것 같구나. , 아주 특별해 보이지는 않았단다.

====================

(53)

첫 번째가 묘사분석, 두 번째가 진단 분석, 세 번째가 예측분석, 네 번째가 처방분석이다. 도대체 무슨 일이 있는가 또는 일어나고 있는가로부터 시작해서 왜 그런 일이 일어났는가로 이어지고 앞으로 어떤 일이 일어날 것인가’, ‘그러면 우리는 어떻게 해야 하는가로 나아간다. 과거의 상황 이애, 원인 이해, 미래 예측, 그리고 우리의 액션 플랜을 파악하는 순으로 나아간다.

====================

앞서 이야기했지만, 앞으로 빅데이터가 산업 시장에 차지하는 것은 점점 더 커질 것이야. 이런 것이 가능하게 한 것은 스마트폰 세상의 인프라와 온라인 시장의 영향력 때문일 거야. 작년 코로나 시대 이후 온라인 시장의 영향력은 더 막강해졌으니까 말이야. 아마존은 빅데이터를 이용하여 선구매 시스템까지 구축을 한다고 하는데, 그건 너무 오버하는 것은 아닌가 싶다는 생각이 들었어.

====================

(115-116)

예를 들어 고객이 3일 내내 밤마다 아마존 사이트에 들어가서 시계 하나를 들여다본다고 하자. 그러면 아마존은 그 고객이 그 시계를 사고 싶어 한다는 것을 안다. 고객은 시계 가격이 5000달러로 고가라서 망설이고 있다. 그런데 이 고객의 과거 구매 이력을 보니 그 가격의 제품을 못 살 고객이 아니다. 이렇게 판단되면 아마존은 그 시계를 드론에 태워서 고객에서 보낸다. 드론 안에는 시계와 함께 다음과 같은 안내문이 있다. ‘원치 않으면 반품하세요!’

이 드론을 받는 순가 고객은 어떻게 해야 할까? 그냥 가만히 있으면 자동으로 결제가 된다. 고객의 카드 정보는 아미존이 알고 있으니 말이다. 이게 지금 아마존이 추진하고자 하는 예측 배송이다.

====================

그리고 위와 같은 사례는 심각한 개인 정보 침해가 아닌가 싶었어. 우리가 웹 브로우저를 동작시키면 그 이후의 클릭하는 모든 것들이 데이터화되어 누군가 분석하고 있다는 생각을 하면 신경이 거슬리곤 한단다. 마치 누군가 우리를 감시하고 있는 세상을 사는 기분이랄까. 작년부터 이어진 코로나 시대에서 빅데이터를 많이 이용하곤 했단다. 우리나라 같은 경우도 일부 개인 정보 침해 논란도 있었지만, 국가에서 국민들의 개인 정보를 이용하여 코로나 확산을 지연시키는 데 성공했다는 평가란다. 다른 나라에서 우리나라를 코로나 방역에 성공한 나라라 칭찬을 하면서도, 한편으로는 지나친 개인정보 침해라는 비판을 하기도 했어. 그런데 이 책에서는 우리나라가 법적인 제한 때문에 개인정보를 산업에 너무 활용하지 않는다는 반대 입장을 보이고 있더구나. 그러면서 미국은 개인 정보를 적극적으로 산업에 활용을 권장한다며 긍정적으로 보고 있고 말이야. 이 내용이 팩트인지 모르겠구나. 분명 작년 코로나 사태 때를 생각해보면 세계 언론의 시각은 달랐는데 말이야.

====================

(256)

미국은 1970년대에 개인정보에 대한 사회적 논의를 치열하게 거친 후에 기본적으로 활용을 허용하되 대신 범죄에 악용되는 경우에만 처벌하는 것으로 정리했다. 우리나라는 범죄에 악용될 수 있는 가능성만 있어도 처벌하는 것과 커다란 차이가 있다. 이후 미국은 개인정보를 적극적으로 산업에 활용할 것을 권장하고 있다. 데이터를 구매하고 가공하고 판매하는 것이 모두 허용된다. 데이터 가공업과 데이터 산업 자체가 세계에서 가장 활성화되어 있는 이유가 여기에 있다.

====================

아빠는 코로나 같은 감염병 예방이나 안보와 관련된 것에는, 어느 정도 개인 정보를 활용해야 한다는 데 동의한단다. 하지만 이 책의 지은이처럼 개인 정보를 산업에 활용하는 것에는 반대하는 입장이란다. 산업을 발전하는데 아빠의 정보까지 가져갈 필요가 있는가 싶어. 지금도 알게 모르게 많이 빼가면서 말이야. 산업에 이용한다고 하면, 지구나 더 망가뜨리는 데 이용할 것 같고 말이지개인 정보 이용에 대한 지은이의 생각에 동의할 수 없단다.

....

앞으로 다가올 미래에는 빅데이터의 시장은 더욱 커질 것이야. 그런데 그 빅데이터의 활용을 누군가의 돈을 버는데 이용할 것이 아니라, 지구 환경을 살리고 기후 위기의 극복에 더 많이 이용되었으면 좋겠구나. 이미 늦어 돌이킬 수 없는 상황이 된 것 같지만, 마지막 희망을 빅데이터를 이용한 솔루션에서 찾았으면 좋겠어. 지금도 누군가 어디서 빅데이터를 이용하여 지구를 살릴 수 있는 방법을 연구하고 있을 바라며 오늘 편지는 마치련다.


PS:

책의 첫 문장 : 현재 우리 사회를 달구는 가장 뜨거운 화두는 단연 빅데이터.

책의 끝 문장 : 어떠한가, 여러분도 한번 도전해보고 싶지 않은가?


여기서 인사이트는 사전상 ‘통찰력’이라고 번역된다. 그냥 영어로 보면 인사이트란 말은 ‘in’과 ‘sight’의 결합으로 ‘안을 본다’는 뜻이다. 그 ‘안’은 보는 이의 관심에 따라 달라진다. 소비자가 고객에게 관심이 있는 판매자라면 고객의 마음속을 본다는 뜻이다. 고객이 무슨 생각을 하는지, 즉 해당 제품에 대해 어떻게 생각하는지, 왜 이 제품을 구매하는지 또는 구매하지 않는지를 아는 것이 인사이트다. 기계 장비에 관심이 있는 엔지니어게는 기계 장비 안에서 벌어지는 일이 보인다는 의미다. 품질이 나쁜 제품이 나올 때 그 안에서 어떤 일이 일어난 것인지, 특정 부품의 수명이 얼마나 남았는지 보인다는 뜻이다. - P43

최근 몇 년 간 가장 성장세가 높은 사업 분야는 플랫폼 사업이다. 플랫폼이란 생산자와 소비자를 연결시키는 일종의 시장이다. 플랫폼 자체는 생산도 하지 않고 구매도 하지 않으며, 단지 중간자 역할만 한다. 그런데 여기에 소비자가 몰려와야만 시장이 형성된다. 이 때 소비자를 끌어당기는 당근이 바로 빅데이터다. 플랫폼이 성공하려면 소비자 입장에서 많은 정보가 일목요연하게 정리되어 있어서 꼭 가고 싶은 곳이어야 한다. 대표적인 곳이 아마존, 호텔스닷컴, 유튜브, 우버 등이다. - P76

어떤 연구팀은 목소리도 분석했다. 애널리스트가 "내년에는 실적이 안 좋겠죠?"라고 물어볼 때 CEO가 편안한 목소리로 "그럴 리가 없다"고 하는지, 아니면 갑자기 흥분해서 말이 빨라지는지 그 음성을 분석한다. CEO의 말이 빨라지거나 톤이 올라간 경우, 주가가 떨어지는 경우가 많다고 한다. CEO가 보통 사람들은 도저히 알아들을 수 없는 어려운 용어를 쓰면서 설명하는 경우에도 주가가 떨어지기는 예가 많다는 것을 발견했다. 안 좋은 상황을 인정하기 싫어서 어려운 말과 복잡한 표현으로 적당히 피하려는 것은 아닐까 하는 추측을 할 수 있다. - P148


댓글(4) 먼댓글(0) 좋아요(31)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
초딩 2021-07-06 05:52   좋아요 5 | 댓글달기 | URL
은행 대출 신청자의 채무 패턴 분석 흥미롭니요 ㅎㅎ
빅데이터는 우리와 자연계의 몰랐던 패턴을 분석해주는데 좋은 쪽으로 잘 쓰면 좋겠다 생각합니다. 책 재미있을 것 같아요

bookholic 2021-07-06 19:47   좋아요 2 | URL
네, 좋은 쪽으로 쓰여 지구 좀 살려줬으면 좋겠는데, 자본주의 세계를 키우는데 더 많이 쓰이는 것 같아 안타까워요...

scott 2021-07-06 11:44   좋아요 4 | 댓글달기 | URL
어떤 개인정보를 가지고 있으며 이를 상업적으로 어떻게 이용하는지 알지 못하니 빅테이터가 엄청난 빅브라더스가 되버린것 같습니다

bookholic 2021-07-06 19:48   좋아요 2 | URL
알게 모르게 빅브라더 시대에 살고 있는 것 같아요.. 숨을 틈이 없어요ㅠㅠ