또 하나의 빅데이터 소스는 사물인터넷이다.
과거에는 컴퓨터 간의 연결망을 인터넷이라고 불렀는데, 이제는 사물에 센서만 부착하면 이들이 인터넷으로 모두 연결된다.
온도 센서, 습도 센서, 진동 센서, 가속기 센서, gps같은 위치 센서 등 우리 주변에는 수많은 센서가 있고, 그 모든 센서들이 사실상 ‘센서 인터넷 internet of sensor’으로서 유무선 인터넷으로 연결되어 한군데 모인다. - P23
빅데이터 분석을 할 때 소위 *표본 추출을 하지 않는다. 30만 명이 아닌 2000만 명 *전부를 분석한다.
샘풀이 아닌 전수 조사가 가능해졌다.
이로 인한 장점은 고객들의 트렌드가 아닌 *개별 고격에 대한 이해 및 예측이 가능하다는 것이다.
즉 **개인화가 가능해졌다.
이렇듯 지금은 **전체를 대상으로 무엇이든 들여다보고 분석할 수 있는 세상이다. 빅데이터 볼륨은 더 이상 제한이 없어졌다고 할 수 있다. - P24
과거에는 데이터라고 하면 숫자만을 의미했지만, 이제 문서나 이미지 같은 **비정형 데이터가 훨씬 더 많이 생성된다.
데이터의 범주가 문서와 이미지, 동영상으로 확대되었다. - P26
금융 데이터는 누구라도 돈만 주면 살 수 있다. 불룸버그처럼 이러한 데이터를 모으고 정리하고 가공하여 재판매하는 회사들도 많다. - P28
**사람과 사람 사이의 관계도 숫자 데이터가 된다.
전화, 문자, 친구 맺기, 팔로잉 덕분이다. 이들 기기나 서비스를 통해 얼마나 자주 교류하는가에 따라 **관계의 강도를 ((객관적으로 측정할 수 있다.
인플루언서 각자의 영향력도 숫자로 표시되므로 이들에 대한 순위도 매길 수 있다. - P32
음성을 텍스트로 변화해주는 기술 stt speech to text이좋은 요즘에는 이를 텍스트로 확보할 수 있다.
FOMC 위원들이 1년에만 수십 건의 연설을 하는데, 이 텍스트를 분석하여 자주 사용한 단어, 갑자기 등장한 단어, 말의 뉘앙스 등을 살펴보면 이들이 현재 경제 상황과 미래를 어떻게 바라보는지를 알 수 있다. - P35
친구들과 같이 있는 모습을 사진으로 찍어 올리면 페이스북은 친절하게도 친구들 이름을 얼굴 옆에 입력해준다.
**이미지 자동 태깅이라고 하는데, 이미 페이스북이 친구들의 얼굴과 이름 쌍에 대한 데이터를 확보하고 있기 때문에 가능한 것이다. - P36
컴퓨터는 이 세상에 있는 모든 단어와 이미지를 숫자로 바꿔준다. *사용된 단어가 *의미적으로 **가까운 개념의 단어들로 *숫자 코드가 유사하다면 *추후 분석을 할 때에 *유용하게 사용될 수 있다. - P39
*데이터의 분산화와 *계산의 병렬화라는, 과거에는 불가능하던 일이 가능해진 것이다
분산화라는 것은 데이터를 한군데에 모아두지 않고 여러 군데에 흩어져 있는 저가의 컴퓨터에 분산 저장하는 것을 말한다. 그것을 클라우드라고 한다.
클라우드라는 것은 나의 데이터가 복사돼서 나도 모르는 어딘가에 저장된다는 것이다. - P40
**병렬화라는 것은 컴퓨터의 뇌에 해당하는 CPU를 100개, 1000개 이상 *동시에 *일을 시킨다는 것이다. 즉 *일을 *나눠서 하는 것인데,
예를 들어 1부터 1만까지 더할 때 하나의 cpu가 1부터 100까지 더하면 다른 cpu는101부터 200까지 더한다.
이렇게 병렬화를 함으로써 빅데이터 분석에 드는 *시간을 획기적으로 줄이는 것읻. - P41
정리하자면, "빅데이터는 양, 속도, 다양성이다"라는 말의 뜻은 이렇다.
"데이터가 커도 괜찮아. 빨리 생성돼도 괜찮아. 다양한 데이터도 괜찮아. 난 뭐든지 할 수 있어!" - P41
빅데이터 -> 인사이트 -> 가치
빅데이터 -> 인사이트 insight : 분석 / 데이터 사이언티스트 / 애널리틱스(AI, 통계, 시각화 등)
인사이트 -> 가치 value : 액션 / 의사 결정자 / 엔지니어, 마케터, 투자자, 인사담당자 - P43
|