답이 맞았으니, 답을 찾는 접근법이 맞았다는 논리는 완전히 틀린 논리이다. - P165
숫자가(혹은 데이터가) 객관적일 수 없다...(중략)... 즉, 데이터가 동일하더라도, 상황에 따라 받아들이는 정도가 다르기 때문이다. 즉, 데이터 자체가 객관적이지 않다는 것이 아니라 숫자(데이터)를 인지하는 방법이 사람에 따라 달라지고 상황에 따라 달라진다는 뜻이다. 그리고 이러한 "상황"들은 사실 여부와 상관없이 얼마든지 감정적으로 극대화 될 수 있다. 이러한 이유로 무엇인가를 대변하는 데이터는 객관적일 수가 없다. - P170
왜 사람들은 상황에 따라 수를 인식하는 정도가 달라질까? 왜 서는 곳에 따라 풍경이 달라질수 밖에 없는가? 결론부터 이야기하자면, 인간은 기본적으로 편향된 생각(혹은 자신의 경험)을 기반으로 사실을(세상을) 인지하기 때문이다. - P170
세상은 크게 인지적 편향을 인식하는 자와 인식하지 못하는 자로 나뉘며, 이러한 편향을 인식한 자들 가운데서는, 이러한 편향을 이용하려는 자와 이용당하지 않으려는 자로 나뉜다고 봐도 된다. 그러면 인지적 편향을 이용하려는 자들은 누구인가? 이러한 부류의 대표 주자들은 정치인과 언론인이다. 그리고 정보를 독식하고 있는 부동산 중개인이나, 자동차 딜러, 자칭 전문가라는 가면을 쓰고 있는 펀드매니저, 미래를 내다볼 줄 안다는 예언가, 자기네 가게 물건이 싸다고 호객을 하는 점원 언니까지도 모두 이런 인지적 편향을 이용한다. 우리는 이미 알게 모르게 나의 인지적 편향을 이용하는 사람들 사이에 둘러싸여 있다. - P171
당신이 만약, 스스로 다른 이들 보다 인지적 편향에 대해서자유로울 수 있다고 장담한다면, 당신은 인지적 편향 자체를 인식하지 못하는 것일 뿐이다. - P172
아무리 데이터 리터러시를 외치고, 데이터의 객관성을 외친다 해도 스스로 인지적 편향성을 인식하지 못하면, 아무리 데이터 분석을 잘하더라도 편향된 결론에 도달하게 된다. - P172
내가 인지적 편향을 인식한다는 것은 나를 포함한 모든 인간들이 이러한 인지적 편향을 하고 있다는 것을 인정한다는 의미이다. 그리고 이러한 인지적 편향의 인식하는 것이 객관적인 데이터 분석을 할 수 있는 기본이 된다. - P172
데이터 리터러시를 갖고 있다는 것은 어떤 의사결정이 필요한 문제를 과학적으로 접근해 모델링을 하고, 감정이나 감성이 아닌 합리적인 판단을 하도록 돕는 능력을 의미한다. - P173
행동경제학은 인간들이 이성적이고 합리적인 판단을 한다는 전제를 부수고 들여다보는 학문이기에, 개인이나 집단에서 표출되는 인간 습성의 데이터를 다루는 사회과학분야에서는 꼭 필요한 학문적 도구이다. 이러한 인지적 편향을 깨는 것들(행동경제학, 게임이론 등)을 잘 이용해야 데이터 리터러시를 갖게 된다. - P173
페이오프 함수Payoff Function(각 플레이어가 전략적 선택에 따라 받게 되는 보상이나 결과를 수학적으로 표현한 것) - P177
가장 흔하게 사용되는 게임이론 중 하나인 혼합 전략MixedStrategy은 게임 이론에서 플레이어가 여러 전략 중 하나를 확률적으로 선택하는 방식이다. 이를 통해 전략적 우위를 분석하거나 내쉬 균형을 찾기도 한다. 혼합 전략의 일반적인 적용은 바로 일명 "찍기" Randomize라 불리는 방법이다. - P178
(때로는 찍기가 최선의 전략이다) - P179
우리 큰 딸이 나나 아내 몰래 나쁜 짓을 덜 하는 이유는 아빠인 내가 모든 일을 알고 있어서가 아니라, 내가 어느만큼 알고 있는지 모르기 때문이다. - P179
딸 아이 예제에서의 최선의 전략을 적용하는 방법은 아이가 뭔가 나쁜 짓을 하다가 들켰을 때 무조건 혼내는 것이 아니라 때로는 (1)혼도 내다가, 또 때로는 (2) 모른 척 넘어가기도 하다가, 또 가끔은 (3) 나중에 슬쩍 알려주기도 하는 것이다. 각각의 비중은 상황에 따라 차이가 있지만, 통상적으로는 (2)>(3)>(1)의 순서가 좋다. - P180
즉, 도덕적으로 아주 중요한 문제가 아니면 되도록 혼은 내지 말고 설령 눈치를 채더라도 대부분은 그냥 넘어가 준 다음, 가끔 딸에게 "너 예전에 그런 거 아빠가 알고 있었다" 정도만 말하는 것이다. 이러한 순서가 중요한 이유는 혼을 내는 것은 가장 직접적으로 영향을 줄 수는 있지만, 그 효과가 오래가지 않기 때문이다. 잘못했다고 매를 들면, 처음에는 바로 효과가 나타나는 것같지만, 결국 (아이들 입장에서) 내성이 생겨서 더 강한 자극을 요구 받는 것과 같은 이치이다. - P180
게임 이론은 데이터 분석이 필요하다고 생각되는 문제를 다른 각도에서 바라보고 이에 대한 해결책을 제시할 수 있는 좋은 대체재 - P181
다양한 문제 상황에 대해 과학적, 논리적으로 표현(모델링) 하는 훈련에 있어 수학만큼 좋은 도구가 없다 - P182
어떤 문제에 대한 최적화된 문제 꼴을 찾고, 해당 문제 꼴을 쉽게 풀 수 있는 기법을 선정하는 것이 바로 시스템 및 프로세스 설계이다. 즉, 데이터 분석을 하기에 앞서 이 같은 프로세스 설계가 문제의 현상과 본질을 이해하고 적용하는 것이 더 중요하다. 데이터 분석보다 훨씬 더 말이다. - P182
데이터 사이언스에서 시스템이나 오퍼레이션이 중요한 이유는 데이터 사이언스를 이용한 분석 도구가 하나의 시스템으로 설계한다고 했을 때, 일련의 절차를 필요로 하기 때문이다. 그리고 분석을 잘하기 위해서는 제대로 된 시스템과 절차 설계가 데이터 분석 도구 자체의 성능보다 훨씬 중요하게 작동한다. - P188
"Everybody‘s responsibility is no one‘s responsibility." 모두의 책임은 어느 누구의 책임도 아닌 것이 된다. - P195
데이터와 관련한 분야를 아우르는 기초 학문은 통계학이며, 컴퓨터 이론과 관련된 분야를 아우르는 기초 학문은 수학이다. 이렇게 다른 듯 같은 분야를 두루두루 이해하기 위해서는 기초가 되는 학문 영역을 잘 알아야 한다. 이러한 기본이 되는 영역을 제대로 안다는 의미는 단순히 데이터 사이언스 자체를 공부한다는 것을 넘어서 문제의 본질을 다양한 각도로 파악할 줄 아는 것과도 깊은 연관이 있다. - P197
문제의 본질을 정확히 이해하고 파악하는 데 필요한 것이 리버럴 아트Liberal Arts (인문학)이다. 인문학 공부를 아주 간단하게 요약하면 미래에 발생할 문제를 해결하는 데 있어서 필요한 바탕과 기본을 공부하는 학문이라고 할 수 있다. 즉, 무엇이 문제이고 그 문제가 왜 일어났는지를 정확히 파악할 수 있어야 문제 정의를 할 수 있고 필요에 따라서는 데이터 사이언스를 이용해 문제 해결을 할 수 있다. 문제가 제대로 정의되지 못하면 아무리 뛰어난 분석을 한다고 해도 다 헛일이다. - P198
조기 교육 단계에서는 세상을 살아가는 데 있어서 발생하는 수많은 크고 작은 문제들을 스스로 해결하는 기본을 배우는 공부에 집중하는 게 맞다. 그래야 새로운 문제를 당면했을때, 그 문제의 본질을 제대로 읽을 수 있다. - P198
우리가 데이터 리터러시라고 말하는 것도 결국 또 다른 문제 꼴인 데이터를 제대로 이해하는 것이다. 그리고 이러한 제대로 된 문제의 이해는 데이터와 관련된 모든 문제를 푸는 시발점이 된다. 이는 비단 데이터에만 해당하는 것도 아니다. 문제를 표현하는 모든 수단(문장/글, 수학 수식, 데이터 세트, AI 모델 등)에 다 해당한다. - P198
결국은 문제의 본질을 읽는다(혹은 이해한다), 라는 기본 의미에서 벗어나지 않는다. - P199
리터러시는 정보를 읽고 이해하는 능력이다. 그 정보가 어떤 경로(책인지, 모니터인지, 킨들인지, 휴대폰인지 나아가 빅데이터인지, AI인지, 챗GPT인지)를 통해서 만들어지는지는 중요한 요소가 아니다. - P199
리터러시를 향상하기 위해서는 주어진 문제의 문맥(상황)이나 인과관계를 논리적으로 추론할 수 있는 기본적인 소양을 갖추는 것이 중요하다. 이때 필요한 것이 수학적 사고력을 포함한 리버럴 아트, 인문학이다. - P199
챗GPT는 GPTGenerative Pre-trained Transformer를 기반으로 한 챗봇chat Bot이다. GPT는 (인공지능) 언어 모델 중 하나로 빅데이터를 사용하는 거대 언어 모델LLM: Large Language Model 계열에 속해 있다. 여기서 "거대"라는 단어가 의미하는 바가 바로 빅데이터이다. 그러니까 빅데이터라고 불리는 거대한 언어데이터가 없었다면, GPT는 탄생할 수 없었다. - P204
GPT가 가지는 또 하나의 특징은 바로 생성형 인공지능Generative Artificial Intelligence 인데, 어떤 결과를 도출하는 데 있어서 기존의 인공지능 모델들은 학습에 사용된 데이터를 기반으로 그 결과를 도출하는 것에 반해 생성형 인공지능은 기존의 학습을 기반으로 결론이나 데이터를 새롭게 만들어 내는 모델이라는 점에서 차이점을 갖고 있다. - P204
리즈닝 Reasoning이란 주어진 조건(혹은 데이터)을 가지고서 여러 각도로 추리해서 결과를 생성해 내는 것으로, 인간만이 할 수 있다고 생각한 영역을 이제는 인공지능이 해낼 수 있게 된 것이다. - P206
이제 점점 더 데이터 분석만 할 줄 아는 데이터 과학자들이설 자리가 없어짐은 지극히 당연하다 하겠다. 데이터 사이언스를 이용하고자 하는 영역의 지식 없이 기본적인 데이터 사이언스 도구만 사용할 줄 아는 수준의 데이터 분석가들은 더이상 살아남을 수 없다. - P206
일반인들 입장에서 중요한 것은 인공지능을 습관처럼 사용하는 버릇을 들이는 것이 중요하다(배운다는 것과는 약간 차별점을 두고서). - P207
챗GPT를 사용하는 습관을 만들기 위해서는 "(GPT를 이용해) 무엇을 할 것인가?"에 대한 고민이 우선 되어야 한다. 이 고민은 챗GPT와 직접적인 관련은 없다. 챗GPT가 되었건, 달리 DALL-E(이미지 생성 인공지능)가 되었건, 에덱셀SDXL(이미지 생성 인공지능)이 되었건 관련 도구들은 "무엇을 할 것인가?"를 정한 다음에 배워야 한다. - P207
기술은 나날이 발전하고, 당신이 미래에 어떤 필요 때문에 해당 기술을 사용할 시기가 되었을 때는 해당 기술은 이미 당신에게 다가와 있을 것이다. - P207
당신이 최신형 컴퓨터를 사려고 한다고 가정해보자. 언제사는 것이 좋을까? 컴퓨터가 필요한 바로 그 순간이다. 하지만 아무리 최신 컴퓨터라도 2~3년이 지나면 구닥다리가 된다. 그러니 필요하지도 않는데 지금 당장 컴퓨터를 구매하는 건 어리석은 짓이다. 기술이란 그런 것이다. 특히, 발전 속도가 빠른 기술은 더더욱 그렇다. 지금 내가 쓰고 있는 기술이 아무리 최신이어도, 1~2년이 지나면 구닥다리가 된다. 그리고 그 기술이 정말 혁신적인 기술이라면, 시간이 지날수록 점점 더 사용하기 편리해지고, 머지 않은 미래에 누구나 사용할 수 있도록 개선된다. 그리고 그때가 되면 지금의 잡지식들은 깡그리 쓸모없는 구닥다리가 된다. - P208
지금 모두가 챗GPT를 쓰고, 달리를 쓰고 있다고 해서 너무안달복달하지 마시라. "The technology shall come to you if you don‘t come to the technology." 당신이 기술에게 다가가지 않는다면, 기술이 당신에게 다가올 것이다. - P208
챗GPT는 자신이 뭔가를 알아서 대답하는 것은 아니다. 챗GPT의 기본이 되는 NLP Natural Language Process (자연어 처리)는 기존 정보를 주는 것이 아니라 기존에 학습한 내용을 기반으로 관련 사항을 "조합"Generative 하는 원리이다. 그래서 많은 양의 학습을 한다고 해서 반드시 좋은 답이 나오는 것은 아니다. 많은 양의 데이터를 학습하면 다양한 조합이 가능한 가짓수가 늘어나고, 결과적으로 그럴싸한 답을 해줄 수 있다는 장점이 있을 뿐이다. - P210
조합 형태의 모사가 중요한 이유는 인간이 생각하는 문학, 예술과 같은 창조 영역이 더 이상 인간의 전유물이 아닐 수도 있다는 이유 때문이다. 이 말인즉슨, 우리가 창조라고 부르는 것도 알고 보면 조합을 통한 모방이었음을 역으로 증명한다. - P210
챗GPT는 앞으로 크리에이티비티 Creativity(창의성/창조성)를 새롭게 정의할 것이다. 우리가 창조적이라 여겼던 많은 것들이(글, 음악, 그림, 디자인, 심지어 혁신 활동까지) 더이상 창조적인 것과 전혀 관련이 없는 "조합"의 영역임을 깨닫게 해준다. - P210
나는 개인적으로 평범한 머리의 집단 지성을 좋아하지 않는다. 그 이유는 평범한 머리가 아무리 모여서 새로운 아이디어를 내봐야 대동소이하다고 생각하기 때문이다. - P211
집단의 구성원이 가진 데이터나 정보를 조합하는 것에서 창조적인 생각이나 아이디어가 전혀 나오지 않는 것은 아니다. 다만 이런 수준의 창조성은 한 명, 혹은 소수의 천재에게서 나온다. 이들의 생각은 세상을 바꾸는 초석이 된다. 이 같은 진정한 의미의 창조성은 챗GPT가 기존의 데이터를 조합해서 만들어 내는 "가짜" 창조성과는 확실하게 구별된다. - P212
앞으로의 예술 작품에 대한 가치는 오로지 대중들에게 얼마나 오랫동안 인기가 있느냐 없느냐로 판단이 될 것이다(가치 = 인기 X 지속 시간). 그러면 예술 작품의 가격은 그 당시의 인기 정도에 따라 매겨질 것이며, 이때 매겨진 가격이 예술 작품의 가치라고 착각하게 된다. - P213
이미 유명한 셀럽의 발로 그린 그림이 몇 십년 미술 전공을 한 예술가의 그림보다 더 비싸게 거래 되는 세상이다. 유명한 유튜버의 1분짜리 음악이 몇십 년 작곡 공부를 한 이들의 곡보다 훨씬 더 인기를 얻을 수도 있다. 결과적으로 예술적 가치는 오로지 대중들의 인기와 그에 상응하는 가격으로 평가 받는 세상이 될 것이다. - P213
인쇄술이 발전하면서 글쓰기의 가치가 사라졌고, 사진기가발명되면서 그림의 (기술적)가치가 사라졌고, 축음기가 나오면서 음악의 가치도 사라졌다. 앞으로는 인공지능이 예술 전반을 향해 그 가치를 사라지게 만들지도 모른다. 오직 인간에 의해 창조되었다는 이유만으로 부여되는 절대적인 예술적 가치따위는 더이상 존재하지 않을 것이다. - P213
챗GPT의 특성 즉, 기존의 데이터(학습)를 기반으로 답을 구하는 것이 아니라 데이터를 기반으로 답을 조합한다는 점은 문학, 사회, 예술과 같이 딱히 정답이 없는 분야에서 더 나은 답을 구하기 위한 집단 지성을 무력화시킨다. 이는 문학, 사회, 예술과 같이 정답이 딱히 없는 분야에서 보다 나은 답을 구하려는 집단 지성은 더 이상 의미가 없음을 뜻하고, 수학이나 과학과 같이 정답(혹은 진리)은 존재하지만 아직까지는 완벽한 정답을 찾아가는 분야에서는 다수(데이터)가 떠드는 대로 해당 연구의 방향성이 쏠릴 가능성이 높아진다는 것을 의미하기도 한다. - P214
혹자는 해당 분야를 알고 있는 전문가 그룹의 데이터를 기반으로 학습하게 될 경우, 대답의 질이 좋아지지 않겠느냐고 하겠지만, 전문가들조차도 정답을 모르는 (그렇지만, 안다고 착각하는) 분야의 문제들에 대해서는 무용지물이다. 오히려 챗GPT와 같은 생성형 인공지능에의 의존은 완전히 정답을 찾기 위한 새로운 방향의 접근을 방해하는 도구로 동작할 가능성이 높다. - P214
챗GPT가 16세기에 나타나 그 당시의 지식을 학습했다고가정해보자. 천동설이 주류였던 그 시대의 챗GPT가 내놓는 답은 지동설이 아닌 천동설일 가능성이 높다. 전문가 집단의 좋은 데이터로 학습했다 하더라도 마찬가지 결과가 나왔을 것이다(16세기에는 전문가들 또한 천동설을 진실로 믿었다). 대중의 집단 지성이 아니라 극소수의 천재(?) 과학자들의 과학적 사고가 없었다면 지동설은 당분간 세상 밖으로 나오지 못했을 것이다. - P215
인공지능의 근간이 되는 데이터 사이언스는 과학이 아니다. 데이터를 기반으로 도출된 해답은 실제에 대한 답(진실)을주는 것이 아니라, 답을 얻기 위해 학습에 사용된 데이터의 대푯값에 따른 결과만 정답으로 제공할 뿐이다. 그리고 이러한 대푯값은 데이터의 다수결에 의해 결정된다. 천동설이 대세인 데이터를 학습한 챗GPT에서는 천동설이 정답이 될 수밖에 없는 것처럼 말이다. - P215
데이터 사이언스는 과학적 기법이라기보다는 다수결(데이터의 대표성)에 의해 정답이 바뀌기에 비과학적 기법으로 보는 것이 타당하다. 특히 찾고자 하는 해답이 사람이나 사회와 관련된 것들(사회 과학 분야)이라면 분석이나 학습을 위한 데이터는 해당 집단의 비과학성(혹은 비합리성)이 개입될 수밖에 없다. 그리고 이러한 데이터의 비합리성은 이후 아무리 정교한 데이터 사이언스 기법이 나온다 하더라도 올바른 해답을 찾기에는 역부족일 수 밖에 없다. - P216
많은 양의 데이터를 기반으로 학습하는 인공지능 기술이ㅈ엄청난 발전을 한다고 하더라도 우리의 미래가 마냥 밝지만은 않은 이유는 누구나 할 수 있는 범용성과 학습 데이터의 태생적 한계로 비롯된 데이터의 비과학성 때문이다. 그래서 우리는 챗GPT와 같은 인공지능을 이용할 땐 하더라도 태생적 한계를 알고 이용해야 한다. 그렇지 않으면 영원히 천동설을 주장하는 사이비 과학자가 된다. - P216
|