<세상을 읽는 새로운 언어, 빅데이터>
IT 분야 컨설팅 회사 가트너의 분석 가치 에스컬레이터
1. 묘사 description 분석: 무슨 일이 일어났는가? (하인드 사이트) 스팟파이어, 태블로, 클릭뷰
2. 진단 diagnostic 분석: 왜 일어났는가? (인사이트)
3. 예측 predictive 분석: 어떤 일이 일어날 것인가?
4. 처방 prescriptive 분석: 우린 무엇을 해야 하는가? (포사이트). 이 단계에서는 머신러닝을 포함하여, 수리계획과 최적화 같은 고도의 수리 및 계산 모델링이 필요하다. - P45
/ 빅데이터는 인공지능의 뇌다
빅데이터와 인공지능은 어떤 관계인가? 빅데이터를 *분석하는 *애널리틱스의 *핵심 방법론이 *인공지능이다.
즉 *빅데이터는 *재료이고, *인공지능은 *조리법이다. - P61
빅데이터와 인공지능은 떼려야 뗄 수 없는 관계다.
*데이터 입장에서는 *인공지능이 자신을 *인사이트로 만들어 주는 *행위이자 절차이고, *인공지능 입장에서 빅데이터는 *학습의 재료다. - P60
인공지능의 구현 방식에는 크게 두 가지가 있다.
그 첫번째 방법은 ‘지식 기반 인공지능’ 또는 ‘**기호 기반 인공지능’이라고도 한다.
우리가 아는 모든 지식은 *"A이면 B이다"같은 형태의 명제로 만들고, 이 **명제들 간의 **연역적 추론을 하여 *새로운 지식이나 사실을 만들어내는 방식이다. - P62
이보다 좀 더 현실적인 바둑이나 자율주행을 위한 인공지능을 만든다면, 여기에 동원되는 명제의 수는 수만에서 수백만 개가 될 것이다.
그러나 이들을 잘 조합하면 컴퓨터를 활용해서 새로운 명제들을 수없이 만들어낼 수 있다.
우리나라 국민 가운데 **0.01퍼센트 이내 극소수의 수학자와 공학자들만이 일상에서 연역적 추론을 한다. - P63
/ 21세기 인공지능은 머신러닝
대다수 국민들은 연역적 추론이 아닌 귀납적 추론을 한다.
**머신러닝은 인간이 자주 쉽게 수행하는 이 *귀납적 추론 방법을 컴퓨터에게 시켜서 인공지능을 구현하는 것이다.
즉, 지식 기반과 달리 컴퓨터에게 명제를 주는 대신, 사진 같은 데이터를 여러 개 반복적으로 보여줌으로써 컴퓨터가 자연스럽게 의자를 인지하고 개와 고양이를 구분할 수 있게 만드는 것이다. - P65
이 방법이 작동하려면 두 가지가 필요하다. 충분히 **많은 데이터와 반복적으로 보여주고 수정하는 **아주 빠른 컴퓨터다. 그렇지 않으면 정확도가 낮아진다.
사실 우리는 일상에서 데이터가 빈약한데도 용감하게 귀납적 추론을 한다.
과거에는 첫 번째 연역적 추론의 지식 기반 방식이 주류였으나, **오늘날은 **귀납적 추론의 머신러닝이 그 자리를 *대체했다. - P66
**1990년대 계산 속도를 **100이라고 할 때 2010년 중반에는 **10만이 되었다.
1초와 1000초의 차이는 인공지능 시스템을 만드는 데 걸리는 시간이 1년 4개월에서 *1개월로 줄어드는 것으로, 도저히 비교가 되지 않는다.
*빠른 컴퓨터가 있었기에 *수개월 만에 *수십만 개의 *기보로 알파고를 학습시킬 수 있었고, *수십억 가지의 상황을 *자율주행차에 학습시키는 것이 가능한 것이다.
인공지능 세상이 도래한 데에는 *머신러닝 기술의 발전 이외에도 *네트워크와 *컴퓨터 계산 속도의 향상이 무대 뒤에서 결정적인 역할을 했다고 하겠다. - P67
/ 빅데이터가 죽목받기 시작한 결정적인 계기
빅데이터가 주목받기 시작한 것은 네가지, 즉 센서, 스마트폰, 인터넷, 컴퓨터 덕분이다.
첫째, 과거 30여 년간 센서 기술은 엄청나게 발전해왔다. 성능은 향상되고 가격은 하락했다. 대표적으로 카메라, 온도계, 습도계, 진동 센서, 소음 센서, 중력 센서 등이다.
둘째, 07년 아이폰으로 처음 등장한 스마트폰은 이제 전세계 20억 명 이상이 가지고 다니는 휴대용 컴퓨터가 되었다. 엄청난 데이터를 생성하는 기기가 아닐 수 없다. - P68
셋째, 유무선 인터넷 또한 최근 30년간 데이터양과 속도 면에서 엄청난 발전을 이루었다. 5G 기술은 통신 속도를 획기적으로 향상시킬 것이다.
넷째, 컴퓨터 계산 속도의 끊임없는 향상이다. 데이터를 학습하여 인공지능을 만드는 데 1년 4개월 소요될 것을 이제는 1개월 만에 하게 되었다.
한 가지 더 언급할 것은 **알고리즘의 고도화다. 숫자 이외의 다른 유형의 데이터, 즉 문서와 이미지 데이터도 머신러닝으로 학습할 수 있게 된 것은 알고리즘의 고도화 덕분이다.
또한 *숫자, *문자, *이미지를 하나의 방법론으로 천하통일했다. - P70
데이터 분석은 *전문 분석가 이외에 *현업 분석가, 즉 *시티즌 데이터 사이언티스트citizen data scientist도 할 수 있다.
이들의 *장점은 현업을 잘 알기 때문에 *무엇을 분석해야 하는지 *왜 분석해야 하는지도 *전문 분석가보다 더 잘 알고 있다는 것이다. 따라서 이들의 분석은 중요한 비즈니스 가치로 나타날 가능성이 매우 높다.
최근에는 **코딩 없이 *클릭과 드래그로만 분석할 수 있는 *소프트웨어들이 등장하여 **한 달 정도 교육받으면 **‘문과 출신‘들도 **빅데이터 분석을 할 수 있게 되었다.
컴퓨터처럼 *빅데이터 분석도 전문가들의 영역에서 *일반인들의 영역으로 들어올 것이다.
사실 *국내 제조 및 *금융 분야 리딩 기업들은 이러한 가능성을 이미 간파하여 적극적으로 *직원 재교육을 하는 방향으로 나아가고 있다. - P71
분석가가 *빅데이터를 *인사이트로 바꾸고, *현업 의사결정자가 *인사이트 기반의 **액션을 실행하면 **비즈니스 가치를 얻을 수 있다.
그리고 그 과정에서 가장 중요한 것은 결국 최종적인 가치다. - P75
무언가를 실행하기 전에는 반드시 기획을 해야 한다. 그 기획의 구체적인 결과, 빅데이터를 출발점으로 해서 가치라는 목표를 창출하는 사례를 소개해 보겠다.
적용 분야는 너무 많다.
*신규 서비스 개발, *상품 기획, *제품 설계, *제조/생산, *영업 마케팅, *리스크 관리, *금융, *인상 관리까지 다양한다. - P76
첫 번째로 주목할 분야가 신규 서비스 분야다.
최근 몇년간 가장 성장세가 높은 사업 분야는 *플랫폼 사업이다. **플랫폼이란 **생산자와 **소비자를 *연결시키는 일종의 *시장이다.
*플랫폼 자체는 *생산도 하지 않고 *구매도 하지 않으며,단지 **중간자 역할만 한다.
그런데 여기에 소비자가 몰려와야만 시장이 형성된다. 이때 소비자를 *끌어당기는 *당근이 바로 *빅데이터다. 플랫폼이 성공하려면 소비자 입장에서 *많은 정보가 *일목요연하게 정리되어 있어서 꼭 가고 싶은곳이어야 한다.
대표적인 곳이 아마존, 호텔스닷컴, 유튜브, 우버 등이다.
아마존 사이트에서는 제품마다 고객들의 제품 평가 및만족도 별점이 제시된다. 구매를 하기 전에 사람들은 관심있는 제품에 대한 다른 구매자들의 평점과 평가 글을 참조해서 최종 결정한다. - P76
유튭는 조회 수를 tv시청률과 직접 비교하기 어려우나 이미 영향력 면에서는 공중파나 종편 채널을 넘어선 것으로 보인다.
내가 **몰랐지만 **내 취향과 비슷한, 즉 내가 많이 본 영상들의 공통점을 머신러닝이 학습하여 유사한 수십 개의 콘텐츠 영상을 추천해주는 것이다. - P78
**차 안에서 가능한 **서비스가 무엇인지를 고민하는 것, 그것이 지금 **운송 서비스업체의 초미의 관심사다. - P80
**기술 중심의 기획은 제품을 먼저 만들어놓은 다음에 적용 분야를 고민하는 것이다.
반대로 **사용자 중심의 기획이 있다. 애초의 발상이 사용자의 니즈 needs에서부터 시작한다. - P82
지역 주민에게 물어보면 좋다고 해도 *어느 정도로 *좋은 건지 *사람마다 그 기준이 다를 것이다.
**인간의 언어는 **애매모호하기 때문에 한 사람의 "꽤 좋다" 가 다른 사람의 "아주 좋다" 보다 더 좋을 수 있기때문이다.
반면 **공식은 *정확하며 *객관적인 수치를 제공한다. 특히 와인 선물 거래를 하는 투자자들에게는 숫자로 표현된 품질 지수가 절대적으로 필요하다.
이 보르도 와인 제조와 유사한 면을 가지고 있는 것이 반도체 제조 공정이다. 무엇이든 하나의 제품을 만드는 데는 보통 여러 개의 공정을 거친다.
반도체 같은 제품은 무려 500개의 공정을 거치기도 한다. 각 공정 내의 온도, 습도, 압력, 다양한 기체들의 농도, 전압 값들이 센서에 의해서 측정되고 데이터로 저장된다. 공정 하나를 보르도의 포도밭으로 보고 그 공정에서 생성된 데이터를 특정 해의 프랑스 기상청 날씨 데이터로 볼 수 있다.
그렇다면 그 기간에그 공정에서 생산될 제품의 품질을 예측하는 것은 보르도와인의 미래 가치를 예측하는 것과 개념적으로 동일하다. - P98
이렇게 *공정 **빅데이터를 가지고 *제품의 *품질을 *예측하고 *검사를 대신하는 것은 *제조업의 *핵심 가치 창출이 된다.
이를 **인더스트리 4.0이라고 하고, **스마트 팩토리라고도 부른다.
이제 **소비자는 **물어볼 대상이 아니라 **관찰의 대상이다. **묻지 말고 관찰해야 한다. - P120
이러한 해석은 맞을 수도 있고 맞지 않을 수도 있다.
중요한 것은 우리가 **데이터를 통해 도출한 *인사이트는 **상관관계만 밝혀진 것이라는 사실이다.
즉 **인사이트는 상관관계다.
문제는 **상관관계를 **인관관계로 오인하는 것이다. - P125
이렇게 도출된 *인사이트를 근거로 *의사결정을 내리는 경우, 이를 **증거 기반 의사결정이라고 한다.
또는 *팩트 기반, *데이터 기반이라고도 하는데, 다 같은 말이다. - P126
|