바둑의 승자 알파고는 이렇게 해야 바둑에서 이긴다고 믿어왔던 기존의 길을 벗어나 정석과 다른 길로 갔기 때문에 승리했다. 전문가인 내가 이해하지 못했다고 해서 인사이트가 틀린 것이라고 할 수 없다는 사실을 전 국민 앞에서 증명한 것이다. 알파고 덕분에 내가 모르는 길이 있을 수 있다는 것을 대한민국의 많은 전문가가 깨달았다. 이를 인정하면서 모두가 겸손해졌다. - P151
시각화는 상대적으로 단순한 분석 방법이지만 이를 통해 단순하지 않고 심오한 인사이트를 직관적으로 얻을 수 있다. - P167
인공지능이란 주변 상황을 인지하고 목표를 달성하는 행동을 하는 컴퓨터로 정의된다. - P177
뇌의 기본 단위는 뇌세포, 즉 뉴런neuron이다. - P185
우리 뇌에는 무려 1000억 개의 뉴런이 있다. 그리고 하나의 뉴런은 대략 100~1000개의 다른 뉴런과 연결되어 있다. 이 연결 구조를 시냅스라고 한다. 즉 우리 뇌는 1000억 개 뉴런들의 복잡한 연결망인 것이다. 컴퓨터 CPU와는 상대도 안되게 부실한 뉴런이지만 1000억 개라는 어마어마한 수가 동시다발적으로 일을 하면서 하나의 CPU보다 잘하는 것들이 있다. - P186
수영을 못했을 때의 뇌와 수영을 할 줄 아는 뇌는 구조적으로 다른 뇌다. 특정 뉴런들 간의 시냅스가 강화되거나 없었던 시냅스가 새로 생성된 것이다. 물론 구조적 변화는 단 한번의 자극으로 발생할 수는 없고 여러 차례 반복적인 자극에 의해서만 가능하다. 수영 강습 한 시간 만에 평영의 운동 원리는 이해할 수 있지만, 우리 몸이 따라가려면 수차례, 아니 수백 번의 반복적인 훈련이 필요한 이유다. - P187
수영뿐만 아니라 인간의 모든 학습은 이와 같은 뉴런의 네트워크 구조의 변화를 수반한다. 테니스나 골프를 배우는 것도, 새로운 노래의 가사를 외우는 것도, 새로운 이론을 공부해서 이해하는 것도 모두 다 뇌의 변화를 통해서만 가능하다. - P188
사람은 태어날 때 뉴런 간의 연결 구조인 시냅스가 많이 없거나 있어도 강하지 않은 상태다. 그러나 서서히 학습이 이루어지면서 차츰 연결이 강화되거나 새로운 연결이 나타난다. - P188
인간 뇌를 본떠서 인공지능을 학습시키고 뇌 세포들 간의 연결을 변화시키자는 것이 바로 연결주의 connectionism다. 반복적 자극에 따른 뇌의 시냅스 변화를 통해 인간의 뇌가 학습하듯이, 컴퓨터에게도 데이터로 계속 자극을 주어 컴퓨터 내의 시냅스를 변화시켜서 똑똑하게 만들자는 것이다. - P189
우선 컴퓨터 안에 뉴런 연결망 같은 구조의 네트워크를 만들고 그 네트워크 구조를 데이터를 통해 계속 변화시킨다. 그리고 뉴런의 작동을 수리 공식으로 만들고 시냅스의 강도를 숫자로 표현해서 데이터의 반복 제시를 통한 시냅스 강도의 변화로 학습을 구현한다. 반복 자극에 의해 뇌구조가 바뀌어 못하던 일을 하게 된다는 것이 핵심이다. 컴퓨터도 기계이므로 이를 학습시키는 것을 일컬어 기계학습, 또는 영어로 머신러닝이라고 부른다. - P189
기호주의의 명제로부터 명제를 도출하는 추론을 연역이라고 한다면, 연결주의의 데이터로부터 명제를 도출하는 추론은 귀납이라고 한다. - P190
우리 일상생활에 대단히 유용한 명제는 대부분 귀납적 추론에서 도출한 것들이다. 문제는 귀납적 추론은 연역적 추론에 비해 허점이 많다는 것이다. 결정적으로 항상 옳지가 않다. 특히 데이터의 개수가 적으면 적을수록 오류의 위험이 커진다. - P190
귀납적 추론의 정확도는 결국 데이터의 크기에 달려 있다. 얼마 되지 않은 데이터로 무언가를 단정 짓듯 말하는 것은 매우 위험하다. 때마침 데이터의 양이 어마어마해진 빅데이터 시대에 귀납적 추론은 그 어느 때보다도 확실히 경쟁력이 있다고 하겠다. - P191
문자 하나하나는 숫자의 조합, 즉 코드로 표현된다. - P200
단순히 텍스트 내에 어떠한 단어가 얼마나 많이 등장하는가만 세어보고 이를 시각화해도 해당 문서의 의미를 직관적으로 이해할 수 있다. - P201
엑셀 차트에서의 하나의 행을 수학에서는 ‘벡터‘라고 한다. 따라서 하나의 문서를 여러 개의 숫자, 즉 벡터로 표현하는 것을 벡터화vectorization라고 부르기도 한다. 문서를 숫자화한 이것을 벡터 스페이스 모델이라고 한다. - P205
수학에서는 두 벡터의 각 원소끼리 곱하여 이를 모두 더한 값을 내적inner product이라고 정의한다. - P205
내적은 두 벡터 각각의 절댓값과 두 벡터의 사이각의 코사인 값을 곱한 값이기도 하다. 두 벡터는 사이각이 작을수록 유사한 것이다. 코사인 함수는 0도에서 180도 사이에서는 각도가 커질수록 작아지는 성질이 있다. 따라서 사이각의 코사인이 클수록 문서는 유사하다고 볼 수 있다. - P206
내적이 좋은 것은 계산이 간편해서다. 문서가 몇 개가 되든 상관없이 이러한 계산은 순식간에 가능하다. 총 1억개 문서 가운데 1번 문서와 가장 유사한 문서가 무엇인지 찾는 일은 나머지 9999만 9999개의 문서 벡터와의 내적값을 계산한 후, 가장 큰 값을 가지는 문서를 찾으면 된다. - P206
엑셀 차트의 열 수를 획기적으로 줄여볼 수는 없을까? 수학적으로 이야기하면 하나의 문서를 1억 차원 벡터 대신 500차원 벡터로 표시할 수는 없을까? 거기에 더해 단어 간의 의미 관계를 해당 벡터들의 공간상에서의 위치 관계로 표시할 수는 없을까? - P207
신경회로망을 이용해서 단어와 문서를 동시에 저차원 임베딩embedding 벡터로 전환하는 워드투벡이나 독투벡은 문서 분석의 성능과 효율에 획기적인 향상을 이루었다. - P208
모든 단어는 맥락에 따라 의미가 달라진다. - P209
문서 분석 방법이 적용되기 전에 모든 문서는 전처리 단계라는 것을 거친다. 마치 요리사가 요리하기 전에 반드시 거쳐야 하는 식재료 준비 작업과 같다. 누군가가 식재료를 씻고 껍질을 벗기고 원하는 크기로 잘게 잘라놓아야 한다. - P210
엔그램 처리 N-gram processing다. 연속된 단어가 모여 하나의 객체를 이룰 경우, 이를 하나의 용어로 간주하는 것이다. - P212
두 개의 단어가 모여 하나의 의미를 갖는 것을 바이그램이라고 하고, 세 개의 단어 모임을 트라이그램이라고 한다. 그 기준은 문서상에서 사용되는 빈도 - P212
단어의 속성이 무엇인지 판단하는 과정을 태깅tagging 이라고 한다. - P212
빅데이터 분석의 최종 목표는 인사이트가 아니다. 최종 목표는 가치 만들기다. - P223
미리 어떠한 가치를 위해 어떠한 인사이트가 필요한지 가르쳐주지 않고 그저 데이터만 주면서 뭐든지 분석해보라고 하는 것은, 셰프에게 무얼 먹고 싶은지 말하지않고 그냥 내가 맛있게 먹을 수 있는 것을 만들어오라는 것과 똑같다. 실패 확률 100퍼센트다. - P223
반드시 가치를 먼저 생각해야 하고, 그 가치를 성취하기 위해 어떤 인사이트를 뽑아야 하는지, 그 인사이트는 어떤 재료를 필요로 하는지를 역으로 생각해야 한다. 이 과정을 기획이라고 하고, 기획이 빅데이터 분석 이전에 선행되어야 한다. - P224
빅데이터로 가치를 창출하려면 제일 먼저 가치를 정의해야 한다. - P224
기획은 가치→ 인사이트→ 데이터 순으로 계획을 만드는 단계, 분석은 데이터로 인사이트를 만드는 단계, 확인은 인사이트의 의미를 검증하는 단계, 끝으로 실행은 인사이트를 비즈니스 가치로 만드는 단계다. - P226
성공적인 기획의 3요소는 첫째 임팩트, 둘째 데이터, 셋째 분석이다. 따라서 무엇보다 가장 먼저 비즈니스 임팩트가 큰 가치를 찾아야 한다. 가치를 만드는 비즈니스 실행과 그 실행의 근거가 되는 인사이트를 생각해야 한다. - P227
다른 가치와 비교해서 애매하게 정성적으로 생각할 것이 아니라 정량적으로 살펴볼 수 있다면 객관적인 우선순위를 매길 수 있다. - P227
비즈니스 실행을 미리 설계해놓아야 한다. - P227
결국 내가 원하는 가치를 뒷받침해줄 수 있는 데이터가 존재하는지의 여부가 중요하다. 여기서 가치는 추구하는 이상이고 데이터는 처한 현실이다. - P229
이상을 현실이 받쳐주는가? 그렇지 않으면 현실에 맞추어 이상을 조금 낮추어야 한다. - P229
빅데이터 적용 대상은 기업이 보유한 기능의 전 분야다. 따라서 기획 대상도 전 분야다. 전략, 재무, 영업, 구매, R&D, 생산, 품질, AS 등 소위 비즈니스의 전 분야에 모두 해당한다. 그리고 여기서 데이터의 형태는 숫자로 된 정형 데이터와 텍스트나 이미지, 음성, 로그 등의 비정형 데이터가 있다. - P231
즉 목표를 달성하기 위해서는 어떤 비즈니스 실행이 있어야 하고, 어떤 인사이트와 데이터가 필요한지, 그리고 예상되는 어려움은 무엇인지를 미리 생각해봐야 한다. 의사결정자의 기획력을 확보하기 위해서는 이와 같은 브레인스토밍을 여러 차례 해봐야 하는 것이다. - P231
애널리틱스의 종류와 예상 결과, 그 한계 등에 대한 이해가 있어야 한다 - P235
원하는 음식을 주문하려면 식당 손님, 즉 의사결정자는 그 식당에 무슨 요리가 있는지, 그 요리의 맛은 어떠한지, 그걸 먹으면 어떤 효과가 있는지를 알아야 한다. 즉 직접 체험해봐야 한다. 이처럼 의사결정자들은 빅데이터를 분석한다는 것이 무엇인지, 인사이트는 어떻게 생겼는지, 그 실행 과정에서 어떤 어려움을 만나게 될지를 직접 체험해봐야 한다. 바로 빅데이터 분석 교육이 필요한 이유다. - P236
수없이 연습해야 클럽으로 공을 제대로 맞히고, 많이 먹어봐야 내가 원하는 요리를 주문할 수 있다. 의사결정자들은 빅데이터 및 애널리틱스 교육을 통해 그 과정에 대한 이론적 이해와 실제 분석을 체득해야 한다. 그래야만 기획도 하고, 인사이트 검증도 하고, 자신 있게 인사이트 기반의 실행을 할 수 있다. - P237
의사결정자를 위한 애널리틱스 교육과정에서는 의사결정자가 애널리틱스, 실습, 문제 셋업으로 불리는 포뮬레이션, 그리고 기획 및 실제 인사이트 도출까지 공부하고 경험한다. - P237
첫째, 기본 이론 및 알고리즘을 공부하고, 둘째, 실제 데이터를 가지고 컴퓨터를 활용해서 애널리틱스 방법론을 적용함으로써 인사이트를 도출하는 실습을 수행하며, 셋째, 비즈니스 문제 상황 및 원하는 가치가 주어졌을 때 어떻게 분석 문제로 변환시키는지 도상 훈련을 한다. 그리고 넷째, 각자의 업무 분야에서 중요한 가치를 줄 수 있는 가치-인사이트-데이터로 이어지는 기획을 수행한 후, 마지막 단계에서는 자신이 수립한 기획에 따라 실제 데이터를 확보하여 애널리틱스 방법으로 인사이트까지 도출하는 것이다. - P238
물론 각 단계를 공부함에 있어서는 몇 가지 난관이 있다. 첫 번째 난관은 데이터 사이언스 이론이다 보니, 문과출신 현업 의사결정자에게 생소한 선형대수, 확률, 통계 개념이 등장한다는 것이다. - P238
두 번째 난관은 실제 분석에서 부딪치게 된다. 데이터 사이언티스트가 사용하는 도구는 R 또는 파이선이라는 프로그래밍 언어다. 코딩을 배운 적 없는 문과생이나 대학 1학년 교양 수업에서 코딩을 딱 한 번만 해보았던 이공계 학생이라면 추가로 6개월에서 1년 동안을 배워야 한다 (공대생은 모두 코딩을 잘한다고 생각하지만 실제로 컴퓨터공학과나 산업공학과, 전기공학과 정도에서만 코딩을 배운다. 다른 학과 출신은 자신이 따로 독학하지 않았다면 코딩을 하지 못한다). 배보다 배꼽이 더 큰 상황이다. - P239
다행히 최근에는 래피드마이너rapidminer와 같이 코딩하지 않고 클릭과 드래그만으로도 데이터 분석을 하는 소프트웨어 패키지가 등장해서 이를 활용하면 코딩이 필요하지 않다. - P239
세 번째와 네 번째 난관은 앞에서 배운 내용을 활용해서 브레인스토밍을 통해 스스로 문제를 풀어야 하는 단계에서 찾아온다. 우리나라 교육 방식이 주입식, 암기식이 많아서 문제 해결을 하라고 하면 누구나 매우 당황한다. 그러나 이 단계는 반드시 거쳐야 할 단계다. 특기할 만한 사항은 앞 단계에서 젊은 대리나 과장에 비해 힘들어하던 부장이나 팀장급들이 아주 잘 해낸다는 것이다. 이들이 업무에 대한 넓고 깊은 이해를 가지고 있고 경험도 많아서 사내에 중요한 가치로는 어떠한 것이 있고, 이 가운데 어떤 것이 데이터 분석을 통해 구현될 수 있을지 잘 이해하고 있기 때문이다. - P240
필요한 인사이트를 도출하는 데 맞춤한 데이터를 찾고 확보해서 분석하는 것은 시간이 걸리고 담당자를 설득해야 하며 상사에게 확신을 심어줘야 하는 어려운 과정이다. 그러나 결국은 빅데이터 가치 창출의 주요 과정을 직접 경험해보는 것이기에 반드시 필요한 과정이기도 하다. 재료준비에서부터 요리를 만들고 먹어서 만족을 얻는 전 과정을 제대로 경험하는 것이기에 그렇다. - P240
빅데이터를 분석하는 데 필요한 능력은 다양한 전공을 공부해야 습득할 수 있는 것이다. 통계학, 컴퓨터공학, 산업공학의 관련 과목을 골라서 수강해야 하며, 이 가운데 어느 한 학과에서 전공을 이수하면서 타 학과 수업도 충분히 수강하는 것이 좋다. 하지만 문제는 그것이 쉬운 일이 아니라는 것이다. 게다가 빅데이터가 적용되는 분야의 지식도 어느 정도 필요하다. 제조 공정에 적용한다면 기계공학, 화학공학, 재료공학에 대한 기초지식이 있으면 좋고, 영업 마케팅에 적용한다면 경영학이나 심리학을 알면 좋다. 이렇다 보니 한 사람이 이런 능력을 모두 갖추는 건 사실상 쉽지 않은 일이다. - P241
빅데이터를 활용하는 데 있어 리더에게는 무엇보다 빅데이터 가치를 이해하고 애널리틱스의 메커니즘을 이해하는 일이 우선되어야 한다. - P248
|