지난번 포스팅의 후반부에서 저자는 사회과학 분야 중 경제학이 그나마 자연과학과의 접점이 어느정도 있다는 얘기를 했었다. 물론 두 분야는 완전히 다른 분야인 것처럼 보이지만 어떤 변수들을 변동시켰을 때 결과값이 얼마나 변하는지를 측정하는 속성만 놓고 본다면 경제학과 자연과학이 어느정도 유사한 면이 있음을 알 수 있다.

결과값의 측정을 위해 경제학은 수학적, 통계학적 기법 등을 동원하기도 했는데 저자는 이러한 노력들이 자연과학의 연구 방식과 일맥상통하는 측면이 있기 때문에 전반적으로 사회과학 분야에 대한 비판적인 시선과는 달리 경제학에 대해서는 상대적으로 조금은 긍정적인 관점을 갖고 있는 듯하다.

하지만 저자는 경제학도 피할 수 없는 약점들이 있음을 지적하는 데, 이것은 물리학 같은 것에도 어느정도 내포되어 있는 것으로서 비단 경제학만의 문제로 보기보다는 이론적인 학문과 실제 현실 간의 괴리정도로 보는 것이 맞을 듯하다.
.
.
.
뒤이어 경제학에 대한 얘기를 잠시 접어두고 과학자들이 추구하는 수학적 모형이 지녀야 할 4가지 덕목에 대한 얘기가 나오는데, 4가지 모두 중요한 속성들이라 그 중 하나도 간과할만한 것이 없다고 느껴졌다. 최소한 이 4가지 속성은 있어야 그나마 가치 있는 이론이라는 생각이 들었다.

자신이 만들거나 혹은 다른 사람들이 만든 이론이나 모델 등을 활용해 과학자들은 어떤 것을 예측하는 경우가 많은데, 통제된 환경에서는 예측의 정확성이 높지만 통제되지 않는 변수들이 많은 외부환경에서는 그 정확성이 현저히 떨어진다는 얘기가 본문에 나온다. 과학적이라고 여겼던 이론이나 모델들의 현실적인 한계를 보면서 개인적으로는 과학이라는 것도 어느 수준을 넘어가면 한계에 부딪칠 수밖에 없다는 것을 여실히 느낄 수 있었다. 나는 이것이 마치 성경에 나오는 바벨탑 사건과도 비슷하다는 생각이 들었다. 인간이 하늘에 닿고자 온 힘을 다하지만 인간의 위에 있는 신이 그것을 허락하지 않아 온 세상의 언어를 뒤섞어버렸던 바로 그 사건 말이다.

물론 과학자들은 인간의 한계를 매순간 뛰어넘기 위한 연구들을 여지껏 지속해왔고 지금 이 순간도 계속하고 있는 줄 안다. 실제로 요근래에 급부상하고 있는 인공지능만 봐도 과학기술의 발전이 어마무시하다는 생각도 든다. 지금 과학의 발전 속도를 보면 일단 갈 수 있는 데 까지는 최대한 빠르게 가보려는 듯하다. 하지만 인간이 신에 가까워지고자 노력할수록 어떤 특정 시점이 되면 그것이 성경에 나오는 바벨탑처럼 무너지는 날이 올 수도 있지 않을까하는 생각도 해보게 된다. 물론 인간의 한계는 어디까지인지 그 끝을 아직은 알 수 없지만 말이다.

신고전주의 이론의 평형 모형은 오늘날에도 경제 이론의 최전선에 남아 있다. 정밀함에 대한 강조는 여전하다. - P341

"경제학은 현실적으로 측정될 수 있는 개념들에 초점을 맞추고 있다." _폴 새뮤얼슨(PaulSamuelson) - P341

현대 경제학 이론의 약점들은 두 가지로 요약된다. 뉴턴적이며 난해하다는 것. 뉴턴적인 이유는 경제 이론가들이 가능한 모든 경제 상황들을 포괄하는 단순하고 일반적인 법칙을 간절히 원하기 때문이다. 인간 행동의 타고난 형질들 중 일부만이 있음직하거나 가능하지만 보편성을 추구하는 것은 논리적이며 가치 있는 것이다. 물리학의 근본 법칙만으로는 비행기를 만들 수 없듯이 일반화된 평형 이론이 완성되었다고 해서 그것만으로 최적이나 그보다 못한 안정적 경제 질서를 시각화하지는 못한다. - P342

한편 모형들은 난해하기 때문에 난점이 있다. 인간 행동의 복잡성과 환경이 부과하는 제약에 매몰되어 있는 경제 이론은 난해할 수밖에 없다. 결과적으로 의심의 여지가 없이 경제 이론가 중에는 천재들이 수두룩하지만 경제의 미래를 예측하는 데 성공한 사람은 거의 없었고 오히려 당혹스러운 실패들로 고생한 사람들만 많았다. - P342

몇몇 국가 경제의 부분적 안정화는 예외적인 성공 사례이다. 미국의 연방 준비 제도 이사회(Federal Reserve Board, FRB)는 돈의 흐름을 제어하고 경제가 재앙적인 인플레이션과 디플레이션으로 가지 않도록 막을 지식과 법적 능력을 충분히 가지고 있다. 그리고 되돌아보면, 우리는 또 다른 최전선에서 성장을 이끌고 있는 기술 혁신의 추진력에 대해서도 대체로 잘 이해하고 있다. 그리고 또 다른 최전선에서는 자산 자본 가격 결정 (capital-asset pricing) 모형이 월가에 주요한 영향을 준다. - P342

경제학자들이 침묵하지 않고 이야기를 해 줘야 우리의 형편이 더 나아진다. 그러나 이론가들은 사회와 관계 있는 주요 거시 경제적 질문의 대부분에 대해 단정적인 해답을 줄 수 없다. 예컨대, 재정 조정(fiscal regulation)의 최적량, 국가 내(그리고 국가 간) 미래 수익 분포, 최적 인구 성장과 분포, 시민 개인의 장기적 재정 안전성, 여러 자원들(토지, 물, 생물 다양성 그리고 고갈되는 다른 자원들)의 역할 그리고 황폐화하고 있는 전 세계 환경과 같은 ‘외적 요소들‘의 강도 등에 대해서는 확실한 대답이 없다. - P342

세계 경제는 위험한 파도가 넘실대는 미지의 바다를 빠르게 통과하는 배이다. 그것이 어떻게 작동할 것인지에 대한 일반적인 합의는 없다. 그렇다면 경제학자들이 누리는 자긍심의 출처는 어디인가? 그것은 경제학이 수많은 성공을 거두었기 때문이 아니라 회사와 정부가 결국 돌아갈 곳이 경제학밖에 없기 때문이다. - P343

그들(경제학자들)은 모형을 통해 이동과 변동 같은 과정들뿐만 아니라 원자와 유전자 같은 단위들에 대해서도 정확한 정의를 내리도록 요구받는다. 이것이 바로 모형화 작업의 큰 장점이다. - P343

착상이 좋으면 모형은 더 이상 그 전제에 대해 의심할 필요가 없다. - P343

모형은 중요한 요소들을 열거하고 그 요소들 간의 상호작용에 대해 근거 있는 추측을 내놓는다. 스스로 부과한 틀 내에서 연구자들은 실재 세계에 관한 예측을 하며, 그 예측이 정확할수록 그 모형은 더 좋은 것으로 승격된다. 그들은 그 예측들을 증거의 바다에 노출시켜 입증이나 반증을 시도한다. - P343

과학에서 깔끔한 정의와 놀라운 예측보다 더 도발적인 것은 없으며 그런 예측이 구체적으로 입증된 것보다 더 높은 가치는 없다. 이런 목표를 위해 과학자들은 이론, 특히 수학적 모형이 지녀야 할 네 가지 덕목을 추구한다. - P343

첫째는 검약성(parsimony)이다. 즉 현상을 설명하기 위해 사용된 단위와 과정이 적으면 적을수록 더 좋은 이론이라는 기준이다. 물리과학이 보여 준 검약성의 승리 덕분에 우리는 이제 장작이 불타는 현상을 설명하기 위해 플로지스톤이라고 불리는 상상의 물질을 상정하거나 진공을 채우기 위해 존재하지도 않는 에테르를 끌어들일 필요가 없다. - P343

두 번째 덕목은 일반성(generality)이다. 즉 모형으로 포괄되는 현상의 범위가 넓으면 넓을수록 그 모형이 참일 개연성이 더 높다는 기준이다. 화학에서 주기율표는 각 원소와 화합물에 대한 개별 이론을 배제한다. 한 이론이 모든 것들을 정확하게 포괄한다. - P344

다음은 통섭(consilience)이다. 다른 분야에서 탄탄하게 검증된 지식에 순응하는 어떤 분야의 단위와 과정은 이론과 실천에 있어서 그렇지 않는 경우보다 일관성의 측면에서 더 우월하다고 입증되었다. DNA의 화학에서부터 화석의 연대 측정에 이르기까지 생물학의 모든 수준에서 얻는 모든 자료들에서 자연선택에 따른 진화론이 창조론을 물리친 이유가 바로 그 때문이다. 신은 존재할 수도 있고 우리가 이 작은 행성 위에서 꾀하고 있는 일에 대해 기뻐할지도 모른다. 그러나 생물권을 설명할 때에는 신의 정교한 손을 빌릴 필요가 없다. - P344

그것(마지막 덕목)은 예측성(predictiveness)으로서 이미 다른 덕목들로부터 유도된 덕목이다. 많은 현상에 대해 예측할 수 있고 그 예측을 관찰과 실험을 통해 검증하기 쉬우면 그 이론은 좋은 이론이 된다. - P344

하디-와인버그 원리(Hardy-Weinberg principle), 혹은 ‘법칙‘은 집단유전학의 원형으로서 기초적인 멘델 유전자에 기반한 간단한 확률 공식이다. 이 원리에 따르면 유성 생식을 하는 종에서 유전자가 2개의 대립 유전자(alleles)ㅡ가령, 상이한 혈액형이나 귓불 모양을 규정하는 유전자ㅡ를 가지고 있고, 만일 그 개체군 내에서 두 대립 유전자의 비율을 안다면 우리는 대립 유전자의 다른 쌍을 갖고 있는 개체들의 비율도 정확하게 예측할 수 있다. 반대로 그러한 쌍들 중에서 단지 한 쌍의 비율을 안다고 하면 우리는 전체 개체군 내의 그 대립 유전자들의 비율을 곧바로 계산해 낼 수 있다. - P345

하디-와인버그 원리는 멘델 유전과 무작위성ㅡ수정 시에 난자의 대립 유전자 하나가 정자 속에 있는 대립 유전자 하나와 무작위적으로 결합한다.ㅡ에 따른 결과이다. - P345

단순한 하디-와인버그 예측이 정확하게 들어맞을 조건들은 우선 자연선택이 유전자 조합을 선호하지 않을 것, 둘째, 개체군의 구성원들이 무작위적으로 짝짓기할 것, 셋째, 개체군이 무한정 커야 한다는 것이다. 그런데 처음 두 조건들은 있음 직하지 않고 세번째 조건은 불가능하다. 이론 생물학자들은 현실 세계에 더 가깝게 다가가기 위해서 이런 제약 조건들을 처음에는 한 번에 하나씩 ‘느슨하게‘ 해 주다가 나중에는 한꺼번에 느슨하게 해 준다. - P346

개체군이 크기가 작으면 작을수록 변이는 더 많다. 같은 원리가 동전 던지기에도 적용된다. 만일 편향이 없는 100만 개의 동전을 계속해서 던지면 앞면과 뒷면이 거의 반반씩 나올 것이지만, 10개의 동전을 동시에 던지면 매우 드물게만 반반씩 나온다. 그리고 한꺼번에 10개의 동전을 던져서 모든 동전이 앞면이 나오거나 뒷면이 나오는 경우는 평균적으로 512번 시행 중에 한 번뿐이다. - P347

유전적 부동에 따른 진화는 세대를 거치며 우연히 유전자의 빈도에 변화가 생기는 과정을 뜻한다. 만일 한 개체군의 개체 수가 100 이하일 때 유전적 부동은 효능을 발휘할수 있다. - P347

유전적 부동에 따른 유전자 빈도의 변화 속도는 동일 크기의 표본이 통계적으로 어떤 변화를 겪는지를 통해 정확하게 기술될 수 있다. 이런 통계치를 통해 알 수 있는 것은 유전적 부동으로 인해 개체군의 몇몇 유전자 형태가 제거됨으로써 결국 그 개체군 내의 변이가 줄어든다는 점이다. 여기에다 무작위적인 측면을 함께 고려하면 창조성의 측면에서 유전적 부동이 자연선택보다 훨씬 못한 이유가 바로 여기에 있다. - P347

자연선택이 이 모형에 추가되면 그것은 예측 가능한 속도로 유전자 빈도를 한 방향으로 추동하면서 유전적 부동의 효과를 감소시킨다. 집단유전학자들은 자신의 모형을 훨씬 더 복잡하게 만들어 어떻게든 자연에 좀 더 가깝게 만들려고 한다. - P347

집단유전학의 모형들은 평가를 위해 선택된 전제들에 기반을 둔 가상의 세계에서 정확한 예측을 만들어 낸다. 그것들은 조심스럽게 취급된 동식물 개체군에서 잘 들어맞는다. 하지만 자연에서 벌어지는 진화를 예측하는 데에는 형편없다. 이런 흠은 이론의 내적인 논리에 있는 게 아니라 오히려 자연 자체의 비예측성에 있다. - P347

환경은 쉴새 없이 변하기 때문에 유전학자들도 자신의 모형에 집어넣는 변수들을 변화시킬 수밖에 없다. 기후 변동과 날씨 격변은 개체군의 확장, 합체 그리고 파멸을 일으키기도 한다. 기존의 포식자나 경쟁자가 사라지면 새로운 놈들이 침입한다. 질병이 서식지를 할퀴고 가기도 한다. 전통적인 먹이가 사라지고 새로운 것이 부상한다. - P348

진화생물학자들은 기상 예보관과 같이 현실 세계의 요동에 당황한다. 그들은 작은 유전자군과 형질 들이 몇 세대 동안 어떻게 변동하는지를 예측하는 것에는 더러 성공하기도 했다. 그들은 화석 기록과 생존 종의 계통수에 대한 재구성을 통해 과거의 오랜 진화 역사들 중 많은 부분을 돌이켜 설명할 수는 있다. 그러나 미래의 일에 대해서는 거의 실패했다. 그들은 과거의 사건들을 예측할 때ㅡ즉 과거사건을 추적하고 재구성하는 작업에 착수하기 전에 과거 사건들을 예측할 때ㅡ에도 동일한 어려움에 봉착한다. 이런 어려움들은 생태학과 다른 환경과학이 이 같은 예측을 잘할 만큼 성숙하여 진화가 일어나는 맥락을 정확하고 완전하게 설명할 수 있을 때까지는 계속될 것이다. - P348

사회과학의 최전선에 있는 경제학은 집단유전학과 환경과학의 이런 난점들을 똑같이 갖고 있다. 경제학은 ‘외부 충격‘, 즉 역사·환경적 변동 중에서 설명 불가능한 모든 사건들로 인해 결국 변수를 조정해야만 하는 상황 때문에 큰 타격을 입는다. 이것 하나만으로도 경제 예측의 정확성이 떨어진다. - P348

경제 모형들은 강세 징후(onset of bull)와 약세 시장(bear market), 또는 전쟁과 기술 혁신으로 촉발되는 10년 주기를 정확히 예측할 수 없다. 그 모형들은 국가의 총수익을 늘리는데 가장 효과적인 방법이 세금을 삭감하는 것인지, 아니면 국가의 적자를 줄이는 일인지, 또는 경제 성장이 수익 분배에 어떤 영향을 줄 것인지를 우리에게 알려줄 수 없다. - P349

집단유전학과 환경과학과는 달리 경제학은 단위와 과정에 있어서 견고한 토대가 부족하다. 경제학은 자연과학처럼 진지한 통섭을 이룬 적도, 심지어 시도해 본 적도 없다. - P349

경제 과정의 광범위한 패턴들이 어떤 형태로든 인간ㅡ 개인으로서의 인간이건 아니면 회사와 정부기관의 일원으로서의 인간이건 간에ㅡ의 수많은 결정들로부터 시작되었다는 사실을 이해하지 못하는 분석가는 없다. 가장 세련된 경제 이론의 모형은 그러한 미시경제적 행동을 ‘경제‘라고 넓게 정의되는 더 큰 집합적 측정 단위와 패턴으로 번역하려고 한다. - P349

경제를 비롯한 사회과학 전반에 걸쳐 개인에서 집단 행동으로 번역하는 작업은 핵심적인 분석의 문제이다. 그러나 사회과학에서 개인적 행동의 정확한 본성과 출처는 아직까지도 거의 고려되고 있지 않다. 오히려 모형을 세우는 이론가들이 사용하는 지식은 대개 상식과 막연한 직관에 근거를 둔 통속 심리학적 지식이다. 하지만 불행히도 이런 지식의 유효 기간은 이미 지나 버렸다. - P349

경제 이론은 개념의 혁명이 필요한 만큼 심각한 구조적 결함을 가지고 있지는 않다. 즉 경제 이론이 프톨레마이오스적인 것은 아니다. 미시·거시 모형들 중에서 가장 진보된 것들은 올바른 방향으로 가고 있다. 그러나 이론가들은 대상에 대한 자세한 기술과 실험 그리고 통계 기법을 통해 얻은 원리들로 구성되어 있는 진지한 생물학과 심리학으로부터 자신의 이론들을 고립시킴으로써 자기 자신을 쓸데없이 불구로 만들었다. 아마도 그들은 이런 근본 과학들의 만만치 않은 복잡성에 빠져들고 싶지 않아서 그런 식의 행동을 하는 것 같다. - P349

그들(경제 이론가)의 전략은 미시 수준에서 최소한의 전제들을 가지고 미시에서 거시로의 문제를 해결하는 것이었다. 즉 그들의 마음속에는 검약성의 원리가 늘 자리 잡고 있다. 경제 이론가들은 가장 넓은 적용 범위를 가진 모형을 창조하고자 한다. 하지만 종종 극단적으로 추상화되어 마치 응용 수학 연습을 하고 있는 착각을 일으킬 때도 있다. 지금까지는 주로 일반성에 집착해 왔던 셈이다. 그처럼 엄격한 연습을 통해 얻은 것은 겨우 내적 일관성만 확보한 이론들이다. - P350

경제적 추론의 대부분이 사회적인 기본 욕구(음식, 주거, 오락)에 따라 인간 행동이 결정된다는 암묵적인 전제에 기반을 두고 있다 - P350

어떤 유형의 집, 가구, 식당, 여가 활동이 더 좋은가라는 선택의 문제는 개인적 경험과 통제를 넘어서는 사회적 영향에 따라 달라진다. 만일 인간 행동이 완전하게 설명되어야 한다면 이 선택의 효용성(즉 소비자가 인식하는 그 선택의 가치)이 경제 모형에 반영되어야 한다. - P350

합리적 선택의 원리 ...(중략)... 정량적 모형화의 근본 원리 .., (중략)... 그 원리는 사람들이 계산에 입각하여 행동함으로써 자신의 만족을 극대화한다는 단순한 의미를 담고 있다. 이런 개념을 사용한 경제모형은 자신의 이해관계에 기반을 둔 효용성(utility)에 주로 집중되어 있었다. - P351

합리적 선택을 지배하는 또 다른 힘, 즉 때로는 이타적이고 때로는 충직하고 또 때로는 악의적이며 피학적이고자 하는 욕망들도 고려해야 한다 - P351

예측은 "이것은 좀 더 저것은 좀 덜"과 같은 식이다. 전형적으로 그 예측들은 모델 연구자들의 상식적 직관, 즉 통속 심리학에 뿌리를 두고 있으며, 형식적인 분석 단계들을 밟아 가면서 결국에는 상식적 믿음을 입증한다. ...(중략)... 이런 모형들의 전제들은 좀처럼 자세히 검토되지 않는다. 그리고 그 결론들도 정량적으로 정확하게 검증받지 않는다. 그런 결론들은 엔진의 광택과 소리에만 호소하지 속도와 용도에 호소하지 않는다. - P352

베커처럼 심리학적 편향을 가진 분석가들ㅡ예를 들어, 잭 허슐라이퍼(Jack Hirshleifer), 토머스 셸링(Thomas Schelling), 아마르티아 센(Amartya Sen), 조지 스티글러 (George Stigler) 등ㅡ의 목표는 미시경제학을 강화하고 미시경제학으로부터 거시 경제적 행동에 대한 좀 더 정확한 예측을 유도하는 일이다. 물론 그것 자체는 훌륭하다. 하지만 훨씬 더 앞서 나가기 위해서는 그들을 포함한 사회학자들이 자연과학과 사회과학의 경계를 건너 다른 동네에 살고 있는 생물학자와 심리학자들과 교류해야 할 것이다. - P352

경제학자들로 하여금 행동에 대한 사회과학 표준 모형에서 완전히 벗어나서 인간 본성에 대한 생물학적·심리학적 토대를 진지하게 고려하도록 하는 일 - P352

압도적인 반대 증거들에도 불구하고 대다수의 사람들은 현대인들이 기본적인 생물학적 필요는 제쳐놓고 (베커의 말처럼) "유아기, 사회적 상호 작용 그리고 문화적 영향에 의존하는" 선택을 한다는 관점을 여전히 붙들고 있다. 놀라운 뿐이다! 인간 본성의 유전적 후성 규칙은 그 어디에도 언급되고 있지 않다. 그러니 가장 탁월한 모형들도 통속 심리학을 수용하고 형편없는 결과들을 낼 수밖에 없는 것이다. - P353

심리학과 생물학을 경제학을 비롯한 사회과학에 도입하는 일은 결국 효용성이라는 복잡 미묘한 개념을 미시적으로 검토하는 일이다. 이런 검토는 왜 사람들이 궁극적으로 어떤 특정한 선택으로 기우는가 그리고 어떤 조건에서 그런 선택을 하는가를 물음으로써 이뤄진다. 이런 작업의 너머에는 미시에서 거시로 이행하는 문제, 개인의 결정이 사회적 패턴으로 번역되는 여러 과정들이 놓여 있다. 하지만 여기까지도 시공간적 규모가 큰 편인데, 또 그 너머에는 생물 진화가 문화에 영향을 주는 방법 그리고 문화가 생물 진화에 영향을 주는 방법, 다시 말해서 공진화의 문제가 놓여 있다. 이 세 영역 모두ㅡ즉 인간 본성, 미시에서 거시로의 이행 그리고 유전자 · 문화의 공진화ㅡ는 사회과학에서 심리학으로, 심리학에서 뇌과학으로, 그리고뇌과학에서 유전학으로의 가로지르기가 필요하다. - P353

심리학과 생물학에서 수행된 연구들을 한데 모아 보면 효용성에 대해서 다음과 같은 일반화가 가능하다.

선택의 범주들에는 우열이 매겨져 있다. 다시 말해 한 범주의 필요와 기회는 다른 것들의 강도를 변화시킨다. 성적 행위, 지위 보호 행위, 놀이 행위와 같은 범주들 사이에서 존재하는 우열 순위는 유전적으로 프로그램되어 있는 듯하다. - P353

몇몇 필요와 기회는 다른 것들에 비해 단지 우위를 점하는 데 그치지 않고 우선권을 가지고 있다. 약물 중독과 성적 소유와 같은 조건들은 감정을 하나의 목표로 몰아갈 수 있다. 그런 조건들은 다른 많은 범주들 내의 행위들을 실제로 없애 버릴 만큼 강력하다. - P354

합리적 계산은 경합하는 감정들의 동요에 기반한다. 그리고 감정간의 상호 작용은 유전과 환경적 요소의 상호 작용으로 해결된다. 예컨대 근친상간 회피의 배후에는 강력한 유전적 후성 규칙이 있다. 그런 회피 행동은 문화적 금기를 통해 강화되거나 특별한 개인적 경험들을 통해 극복될 수 있다. - P354

합리적 계산은 종종 이타적으로 나타난다. 예를 들어 애국심과 이타성은 가장 강한 감정들이지만 우리는 이 복잡한 현상에 대해 여전히 모르는 게 많다. 상당히 많은 사람들이 자신의 생명을 무릅쓰고 낯선 이들의 생명을 기꺼이 구한다는 사실은 여전히 놀라운 사실이다. - P354

선택은 집단 의존적이라는 점은 분명한 사실이다. 그러나 아직 잘 알려지지 않는 것은 동료들의 영향이 행동의 범주마다 엄청나게 다르다는 점이다. 예컨대 옷 입는 취향은 주위 동료들이 어떻게 여기는지에 거의 전적으로 의존하지만 근친상간 회피는 대체로 독립적이다. 이런 차이점은 유전적 기초와 더불어 결국 진화적 역사를 가지는가? 틀림없이 그럴 것이다. 이제 그런 가능성을 좀 더 주의 깊게 검토하기 시작해야 한다. - P354

의사 결정은 후성 규칙들에 의해 범주마다 다르게 형성되는데, 이 규칙들은 처음에 특정한 것을 배우게 하여 계속 그런 선택을 하게 만드는 선천적 성향들이다. 많은 성향들이 대체로 연령과 성별에 따라 서로 다르다. - P355

의사 결정의 심리생물학적 미묘함은 번식 전략의 r-K 연속체를 떠올리면 잘 이해된다. 자원이 희귀하고 불안정할 때 사람들은 전략을 채택하는 경향이 있다. 여기서 전략이란 많은 자손을 낳아서 그중 다만 몇이라도 생존할 수 있게 하는 전략이다. 반면 자원이 풍부하고 안정적일 때에는 K 전략을 따르는 경향이 있다. K 전략은 자손을 적게 낳고 자원을 몰아 주어 높은 사회·경제적 수준에 이르게 만드는 전략이다. (여기서 r는 인구학에서 r 전략으로 증가하는 개체군의 성장률을 지칭하고, K는 개체군의 성장이 멈추는 크기, 즉 환경의 수용 능력을 지칭한다.) - P355

사회적으로 강력한 남성이 가임 연령대의 여러 여성들을 얻어 결국 진화적 이득을 증대시키려는 일반적인 경향은 r-K 연속체 전역에 나타난다. - P355

효용성은 생물학과 심리학을 통해 온전히 이해될 것이다. 물론 효용성을 인간 행동의 요소들로 환원하는 방식을 통해 상향식으로 종합할 때 가능한 일이다. 직관적 지식에 기초한 하향식 추론과 추측을 통해, 즉 사회과학을 통해서는 그런 이해에 도달하지 못할 것이다. - P355


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 

지난번 포스팅의 마지막 부분에서 저자는 데이터 분석의 궁극적인 목적은 데이터 분석의 결과를 바탕으로 해결하고자 하는 문제를 해결하는 것이라고 했었다. 이를 위해서는 데이터 분석시 사용되는 수집 데이터들의 정확성이 담보되어야 한다는 얘기도 덧붙였다.

오늘 시작하는 부분에서는 앞서 언급했던 수집 데이터들의 정확성이 항상 담보될 수는 없다는 한계점을 지적하면서 궁극적인 목적인 문제 해결을 하는 데 있어서 만약 데이터 없이 그것이 가능하다면 그것이 가장 최선이라고 독자들에게 말한다.

데이터 관련 서적에서 저자가 문제 해결만 잘 된다면 데이터가 없어도 크게 상관없다는 얘기를 하는 게 처음엔 좀 의아하게 들렸지만 뒤이어지는 글에서 그 이유를 보고는 저자의 말에 어느정도 수긍할 수 있었다. 그것은 바로 데이터 취합이나 분석과정에서의 오류발생가능성 때문이었다.

수많은 데이터들을 다루다보면 거기에 파묻힌 나머지 궁극적인 목적을 망각한 채 데이터의 홍수에 이리저리 휩쓸려 떠다니다가 결국에는 궁극적인 문제 해결과는 그닥 상관없는 그리 유용하지 않은 결과물이 나올 수 있다는 게 저자의 생각인듯하다.

그리고 좀 다른 얘기이긴 하지만, 비단 이 책에 나오는 데이터 분석뿐만아니라 우리가 어떤 분야의 일을 하든 관계없이 그저 단순한 과업에만 매달린 나머지 그 일이 궁극적으로 어떤 것을 하기 위함인지를 망각할 때가 있지는 않았는지를 돌아보게 만드는 내용이기도 했다.

다시 본문으로 돌아와 이어지는 글에서도 기업들의 성공 핵심 역량이라는 것이 어떤 데이터를 잘 활용한 것에 있다기보다는 궁극적으로 고객이 아쉬워하고 어려워하는 문제를 잘 해결해준 것 뿐이라는 말이 나온다. 이건 결국 수단보다는 목적이 더 중요하다는 것을 방증한다.
.
.
.
뒤이어 읽다가 개인적으로 인상적이었던 사례 중 하나는 사고 위험에 처한 비행기의 기장이 사고 발생 가능성이 있으니 이에 대비할 수 있는 조치를 해달라는 방송을 하자, 어느 통계학자가 비행기 사고의 확률을 줄이기 위해 모든 탑승객들에게 양말을 뒤집어 신으라고 말하는 장면이었다.

단순히 확률적으로만 본다면 비행기 탑승객들 모두가 양말을 뒤집어 신고 죽을 확률은 극히 낮을 것이다. 하지만 이것은 단순히 확률값을 낮추는 것일 뿐 사고 발생시 생존하는 것과는 전혀 관련이 없기에 의미없는 행위일 뿐이다.

이 특이한(?) 사례를 통해 단순히 데이터 확률 수치에만 집착하다보면 큰 그림을 보지 못하는 이런 어처구니없는 상황이 생길 수 있음을 뼈저리게 느낄 수 있었다. 아마 내 기억 속에서 두고두고 회자될 수 있을 것 같다. 작은 것에 집착하다가 큰 것을 보지 못하는 우(愚)를 범하지 않길 바란다.

정확한 측정이 있어야 풀려는 문제에 대해서도 정확한 해석(혹은 해결)이 가능하다고 하지만 측정은 늘, 언제나, 항상 오차를 갖기 마련이다. - P37

이렇게 한 번 생각해 보는 건 어떨까? "문제 해결을 위해 정확한 측정값을 얻는 것보다 측정과정 없이 문제를 해결하는 것이 더 낫다." 이렇게 생각한다는 것은 데이터 없이 문제 해결을 하는 것이 더 나은 판단이 될수 있다는 것을 뜻한다. - P37

데이터 사이언스에 대해 경험과 지식이 있는 부류일수록 데이터 분석을 통해서만 문제 해결이 가능하다고 주장한다(자기 밥그릇 챙기기가 아닐까 싶기도 하다). 하지만 앞에서도 밝힌 바와 같이 최선의 해결책은 데이터 취합과 분석 과정없이 문제를 해결하는 것이다. 취합에서의 오류나 분석에서의 헛다리 짚기를 해결할 수 있기 때문이다. - P37

내가 정작 말하고 싶은 부분은 세상의 많은 문제들이 우리가 생각하는 것 이상으로 데이터 분석 없이도 해결이 가능하다는 것이다. 그래서 데이터에 경도 되어 모든 것을 그렇게 판단할 필요도 없고, 그래서는 안 된다. - P38

우리는 빅데크 기업들의 성공을 보면서, 그들이 말하는 공식(데이터 기반의 의사결정)이 마치 전부이고 성공의 핵심 역량으로 생각하지만 그들은 고객이 아쉬워하고 어려워하는 문제를 잘 해결해준 것 뿐이었다. 시작은 거기서 출발해야 한다. 이 사실을 절대 잊어서는 안 된다. - P38

문제 해결을 위해서는 데이터 분석이 반드시 필요한 것이라 할지라도 많은 양의 데이터를 다루느냐 그렇지 않느냐는 또다시 별개의 문제임을 잊어서는 안 된다. - P38

"반드시 데이터 분석이 필요한가?" "필요하다면 꼭 빅데이터이어야 하는가?" 이 두 개의 질문은 데이터 분석을 시작하기 전 반드시 해야 하는 질문이다. - P39

무림고수가 실제로 천하제일검을 사용해서 상대를 제압하는 경우는 매우 드물다. - P41

무림 고수에게 필요한 진짜 내공은 천하제일검을 사용하는 검법이 아니라 적당한 때에 맞춰 그에 맞는 무공을 사용하고 꼭 필요한 경우에만 천하제일검을 사용하는 능력이다. - P41

데이터를 이용해 문제를 해결하는 데 있어서 문제 본질을 파악할 줄 아는 능력 다음으로 중요한 것은 실제로 데이터 분석의 고급 기술 혹은 많은 양의 데이터가 필요한 때가 언제인지를 아는 것이다. 즉, 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 훌륭한 능력이라 할 수 있다. - P42

분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다. - P44

우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다. - P45

어떤 영역에서든 데이터 사이언스는 측정, 수집, 분석의 3단계가 필요하다. - P45

데이터 사이언스를 배울 때 꼭 전제되는 것이 준비된 데이터 묶음이 있다는 가정이다. 측정 Measurement과 수집은
"이런 데이터 묶음이 있다"는 식으로 건너뛰고 여러 가지 분석 기법을 배운다. 하지만 정작 중요한 것은 측정이다. - P46

설령, 본인이 직접 측정을 하지 않는다 하더라도, 스케일 scale에 맞게 측정을 할 줄 알아야 제대로 된 분석이 가능하다. - P47

측정을 단순하게 생각하기 쉬운데, 실제로는 가장 중요하고 가장 정확해야 한다. - P47

‘스케일이 맞는‘ 장비(적정한 측정 도구) - P48

데이터 분석 시스템을 설계할 때는 각 단계의 스케일을 적절하게 맞추는 것이 그 어떤 분석보다도 중요하다. - P48

데이터 사이언스를 위해 필요한 기초 과목은 (실험)물리이다. - P48

우리는 물리 실험을 함으로써 데이터 사이언스의 전체 단계를 경험해볼 수 있다. 이는 특히 자연대생이나 공대생이 데이터 사이언스 영역에서 문과생(경영, 심리학 등)보다 월등히 유리한 이유이기도 하다. 과정 전체를 한 번 경험해보면 단계 사이의 미묘한 간극을 알게 된다. 또한 무엇이 적정한 스케일인지에 대한 감도 생기게 된다. - P49

데이터를 모으려면 그 값을 "측정"할 수 있어야 한다. 측정할 수 없다면 데이터를 모을 수 없고, 데이터를 모을 수 없으면 데이터 분석은 당연히 불가능하다. 그런데 대상의 실체가 불분명해서 측정이 불가능한 것이 있다. 바로 감정, 기분, 능력, 성과 같은 사회 과학에서 다루는 개념이다. - P49

측정이 불가능한 것을 억지로 측정하기 위해 도입된 것이 대체 지표이다. 예를 들어 ‘만족‘은 측정 불가능하다. 그래서설문을 통해 1점에서 5점 사이의 척도를 주고 ‘만족도‘를 고르게 하는 지표를 사용한다. ‘술에 취함‘ 또한 측정 불가능하다. 그래서 이를 대체하고자 ‘혈중 알콜 농도‘라는 지표를 사용한다. ‘능력‘ 또한 측정 불가능한 대상이다. 그래서 이를 대체하고자 ‘(시험)성적‘을 만들었다. - P49

아무리 많은 대체 지표라도 원래 대상이 측정 불가능하다면, 어찌 됐건 그건 가짜일 수밖에 없다. 대체 지표는 대상을 모사할 뿐이지, 원래의 대상이 될 수 없다. - P50

수집Acquisition은 실제 분석이 가능할 정도의 전처리 과정을 포함한다. 흔히 하는 착각이 빠진 데이터를 메꾼다거나, 분석을 위해 데이터 포멧을 맞추는 것을 전처리라고 생각하는데, 실제로는 그보다 훨씬 광범위하다. - P50

학부 수준의 전자공학을 전공했다면 "신호처리" Signal Processing를 배울 때 사용하는 푸리에 변환법이라는 것이 있는데, 이것이 전형적인 전처리 기법에 해당한다. - P50

전처리을 제대로 하기 위해서 기본적으로 알면 좋은 과목이 앞서 언급한 "신호처리"이다. 특히 영상이나 음성 신호(요즘은 데이터라는 표현이 더 흔하긴 하다)를 다루는 경우라면 필수적으로 알고 있어야 하고, 영상이나 음성이 아닌 다른 종류의 데이터를 다룬다 하더라도 신호 처리에서 배우는 내용을 광범위하게 응용할 수 있어야 한다. 그리고 여기에 복소함수론까지 포함한다면 더욱 금상첨화이다. - P51

예전에 주식 분석을 하기 위해서 신호 처리 과목에서 배우는 필터링 이론을 적용한 것을 본 적이 있다(논문으로). - P51

될 수 있으면 적은 데이터로 간단한 분석 도구를 써서 문제를 해결하는 것이 좋다. 실제로 빅데이터와 현란한 인공지능 도구를 써서 얻은 결과와 PC에서 엑셀로 돌린 분석 결과가 대동소이한 경우가 있다. 정작 중요한 것은 많은 양의 데이터보다 분석 시스템의 설계이다. - P52

데이터 분석을 하는 데 배보다 배꼽이 커지는 경우(즉, 측정과 데이터 수집에서 더 많은 비용과 시간 투자가 필요한), 데이터 분석 자체를 포기하는 결단도 필요하다. - P52

일상 혹은 비즈니스 현장에서 접하는 많은 문제들은 데이터 분석 없이도 해결 가능한 것들이 많다. 데이터 사이언스를좀 안다고 모든 문제를 데이터 분석으로 해결하고자 애쓴다면 자칫 함정에 빠질 수 있다. - P54

열린 사고는 혁신을 필요로 하는 거의 모든 영역에 필요하다. 데이터 사이언스 또한 예외는 아니다. 사고가 열려있지않으면 제대로 된 데이터 분석 설계를 할 수 없다. 열린 사고를 하기 위해 가장 경계해야 할 것이 데이터에 매몰된 사고방식이다. - P54

이 세 단계(측정, 수집, 분석)는 상호 연관되어 있어서 제대로 측정이 되었다면 수집이나 전처리 과정이 약해도 제대로 된 결과를 가져올 수 있고, 반대로 수집과 전처리 단계가 강력하다면 분석이나 측정이 약해도 제대로 된 결과를 얻을 수 있다. 이는 분석자에 따라 "측정"이 한방 일 수도 있고, "수집과 전처리"가 한방일 수도 있다는 뜻이다. 반드시 "데이터 분석"이 강력한 한방이어야 할 필요는 없다. - P55

양질의 데이터가 ‘나‘에게 직접적인 연관성이 있어야 의미가 생긴다 - P56

거시적인(국민 전체를 대상으로 하는) 데이터는 미시적인 행동(혹은 결정)에 생각보다 관련이 없다. - P58

관점에 따라서 확률 데이터(확률 값)가 바뀐다. 이런 식으로 관점에 따라 바뀌는 데이터는 나의 데이터가 아니다. (중략) 다양한 확률 데이터는 현재 당면한 가위바위보 의사결정을 하는 데 있어서 전혀 도움이 안 된다. - P59

새로운 투자는 이전 투자와는 연관성이 없고 독립적이다. 즉, 매번 처음 하는 것과 같은 가능성(성공하거나 실패하거나) 50%의 확률을 가지게 된다. - P60

어떤 데이터 분석 값은 "나의 데이터"이지만, 어떤 데이터 분석 값은 "남의 데이터"이다. 때로는 복잡한 분석으로 만들어진 데이터 분석 값이 가장 간단한 논리로 만들어진 분석 값보다도 못할 수 있다. 설령, 복잡한 분석이 타당하다고 하더라도 말이다. 그러니 남의 데이터에 시선이 빼앗겨서는 안 된다. - P60

때로는 복잡한 분석으로 만들어진 데이터 분석이 아무 소용이 없을 때가 있다. 나와 상관없는 남의 데이터라서 그렇다.
마치 연관성이 있는 것 같지만, (중략) 아무런 연관성이 없을 수 있다. - P60

평균 값은 데이터 사이언스(혹은 통계)를 하면서 가장 많이 사용하는 데이터 값이다. 중요한 것은 평균값이 현실에서는존재할 수 없는 ‘상상의 값‘일 수 있다는 점이다. - P61

데이터 분석을 통해 도출되는 평균값이 현실 세계에서는 아무 의미 없는 값일 수 있음을 꼭 기억해야 한다. - P62

나의 데이터, 남의 데이터 문제가 아니라, 확률(혹은 가능성)의 본질을 묻는 질문 - P61

사고 "확률(가능성)"이라는 숫자를 줄이는 행위는 아무 의미가 없고, 비행기 사고 시 사망 하는 사건(혹은 이벤트) 자체를 줄이는 것이 훨씬 더 중요하다. - P63

우리는 평소에 사건(혹은 이벤트)을 대표하는 숫자(확률)를 언급하길 좋아한다. 뭔가 확정적인 숫자 값을 이야기해야 (상대에게) 신뢰를 준다고 생각하는 경향이 강하기 때문이다. 하지만 이러한 사건을 대표하는 숫자 값(확률)과 실제 사건이 일어나는 것과는 별개의 문제이다. 더구나 사건 혹은 현상이 일어날 숫자 값(확률)만을 줄이는 행위는 실질적인 문제 해결에 아무런 도움이 되지 않는다. - P64

데이터 분석을 통해 얻어진 값들을 올바르게 바라보는 가장 기본적인 방법은 "나의 데이터"인지 "남의 데이터"인지를 잘 구별하는 것이다. - P64

데이터 사이언스, 비지니스 애널리틱스, 빅데이터 등 많은 데이터 분석 기법과 도구들이 난무하지만 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다. - P64

데이터 사이언스를 제대로 하고자 할 때 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터 분석 자체보다 데이터(혹은 데이터 분석한 값)가 내 것인지, 남의 것인지를 파악하는 데 도움이 되기 때문이다. 그렇지 않으면, 비행기가 떨어지는 데 양말을 바꿔 신는 어리석은 일을 하게 된다. - P64

오차 범위는 우리가 확률이든 뭐든 어떤 것을 알아내고자 할 때 측정값이 실제 값과 얼마나 차이가 나는지 그 범위를 의미한다. 여기서 실제 값이란 측정이 아닌 진실인 값이다. - P65

키가 180cm라고 하면 이는 실질적으로 존재하는 값을 측정한 것이다. 하지만 좋은 자로 재었다 하더라도 아주 조금의 오차는 있을 수밖에 없다. 다만 우리는 오차의 범위가 작다고 생각하고 거의 0에 가깝다고 생각하고 측정 값 (180cm)을 신뢰할 뿐이다. 이처럼 신뢰 구간이라고 하는 것은 측정 값이 실제 값으로부터 얼마나 떨어져 있는 지를 확률(백분율)의 형태로 나타내는 것을 말한다. - P66

오차 범위의 크기는 실수Real의 범위로 변화가 가능하지만, 원래의 실제 값 크기 이상으로 벗어날 수 없는 것으로 간주한다. 즉, 오차 범위의 크기는 1(혹은 100%)을 넘지 못한다. 이때의 신뢰 수준은 -1에서 +1 사이가 된다. - P66

뉴스를 보다 보면, 여론 조사 결과를 소개하며 플러스(+) 마이너스(-) 몇 % 라며 오차 범위를 꼭 밝히는 걸 볼 수 있다. 많은 이들이 데이터 분석에 의한 예측(당선 확률 몇 % 같은)이 실제로 현실로 나타나면 해당 분석이 맞는 것으로 그렇지 않으면 분석이 틀린 것으로 이야기하지만, 분석 모델 자체의 정확도와 실제 사건의 발생여부는 별개의 문제다. - P66


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 

지난번 포스팅의 마지막 부분에서 ‘로버트 니스벳‘이라는 사람이 했던 얘기가 일부 나왔었다. 이런저런 얘기들이 많이 나오지만, 이 사람의 생각은 결국 사회학이라는 것이 과학과는 별개로 창조되고 발전해왔다는 것이었다.

이 부분을 읽으면서 독자인 나는 자연과학자인 저자가 니스벳의 얘기에 쉽사리 동의하기 어렵겠다는 생각이 들었다. 이 책의 전반적인 논조상 저자는 사회학이라는 것도 궁극적으로는 유전자 등과 같은 과학내용에 기반하여 생각하고 분석해야 한다는 생각이 강하기 때문이다. 그런데 사회과학자들은 저자의 생각에 그닥 개의치 않는 듯한 눈치다. 이로인해 저자는 이 부분에 대한 답답함을 본문을 통해 지속적으로 토로한다.
.
.
.
오늘 포스팅의 후반부에서 저자는 자연과학과 그나마 유사하다고 생각하는 사회과학 분야는 바로 경제학이라는 얘기를 한다. 실제로 경제학을 공부해본 사람이라면 저자가 본문에서 얘기한 것들을 어느정도는 공감할 수 있지 않았을까 생각해본다. 개인적으로는 물리학과 마찬가지로 어떤 외부적인 다른 조건들이 동일하다고 가정했을 때 특정 조건을 변화시킬 경우 결과값에 미치는 영향을 파악하는 과정 (전문용어로는 한계 변동marginal shifts) 을 통해 자연과학과 사회과학 중 한 분야인 경제학이 조금이나마 서로 간의 접점을 찾을 수 있겠다는 저자의 생각이 흥미롭게 느껴졌다. 어쩌면 이러한 생각이 이 책의 제목이기도 한 《지식의 대통합 : 통섭》으로 가는 첫 단계가 될 수도 있다.

니스벳은 후기 계몽주의 시대 선각자의 예언과는 달리 사회학이 자연과학의 논리적 연장(extension)으로 성장하지 않았다고 생각했다. 그에 따르면 사회학은 오히려 서양 사조의 주요 주제들ㅡ예컨대, 개인주의, 자유, 사회 질서, 진보적 변화 등ㅡ로부터 창조되었다. - P327

사회학이 오늘날 사회과학 표준 모형(Standard Social Science Model, SSSM)이라는 철옹성에 갇혀 있는 이유는 바로 사회학이 이렇게 과학과 인문학의 뒤범벅 속에서 생겨났기 때문이다. 사회과학 표준 모형은 20세기 사회 이론의 정통이다. 그것은 문화를 개인의 마음과 사회 제도를 형성하는 기호와 의미의 복잡한 체계로 본다. 그러나 그 모형은 문화가 생물학과 심리학의 요소로 환원될 수 없는 독립적인 현상이며 따라서 환경과 역사적 전례들의 산물이라고 말한다. - P328

가장 순수한 형태의 사회과학 표준 모형은 직관적으로 명확한 인과 연쇄를 도리어 뒤집는다. 즉 그 모형에 따르면 인간의 마음은 문화를 창조하지 않지만 그 마음 자체는 문화의 산물이다. 이것은 인간본성의 생물학적 근거를 대수롭지 않게 여기거나 철저하게 거부하기 때문에 나온 잘못된 추론이다. 반면 이런 추론의 반대 극단에는 유전자 결정론이 있다. 유전자 결정론은 인간 행동이 유전자 속에 고정되어 있으며 인간 행동의 파괴적인 성향, 예컨대 인종주의, 전쟁, 계급구분 등은 어쩔 도리가 없다는 견해이다. - P328

사회과학 표준 모형의 극단적 형태를 옹호하는 이들은 유전자 결정론이 사실의 차원에서 틀려서가 아니라 도덕적으로 옳지 않기 때문에 거부되어야 한다고 말한다. - P328

혼돈은 횡행하고 분노는 활활 타오른다. - P328

이제 제발 그만 좀 하자! 오해의 한 세기, 서양 지성사의 베르당(Verdun)와 솜므(Somme) 전투 (제1차 세계 대전의 격전지로서 이곳에서 벌어진 전투는 병사 개개인에게 무의미한 희생만을 강요했고 결국 쌍방 모두에게 엄청난 인명 피해를 주었다.)는 갈 데까지 다 갔으며 그놈의 문화 전쟁은 썩은 내가 진동하는 해묵은 경기일 뿐이다. - P329

실제로 사회과학 표준 모형과 유전자 결정론 사이에 넓은 중간 지역이 존재한다. 이 지역 내에서는 사회과학이 태생적으로 자연과학과 양립 가능하다. 이 거대한 학문의 두 갈래는 인과적 설명이 일관적으로 조직되는 정도에 비례해서 서로에게 이득을 줄 것이다. - P329

통섭을 향한 첫 걸음은 사회과학이 서술적·분석적으로 진행될 때 진정한 과학이겠지만 사회 이론은 아직 진정한 이론이 아니라는 사실을 인식하는 일이다. - P329

사회과학은 초기 자연사 전통의 자연과학과 동일한 일반적 특징을 갖고 있다. 즉 사회과학은 풍부한 자료로부터 사회 현상들을 체계적으로 분류한다. 사회과학은 공동 행동의 예기치 않은 양상을 발견해 왔고 역사와 문화 진화의 상호 작용을 성공적으로 추적해 왔다. 그러나 사회에서 마음과 뇌로 이어지는 여러 수준들을 관통하는 인과적 설명망을 만들어 내지는 못했다. 이런 실패로 인해 사회과학은 진정한 과학 이론의 본질을 결여하고 있다. 따라서 비록 사회과학자들이 종종 ‘이론‘을 이야기하고 더 나아가 동일한 수준에서 동일한 종류의 언급을 하는 것처럼 보이지만 실상은 통합되지 않은 이야기에 불과하다. - P329

사회과학에서 자연사에 해당하는 단어로서 자주 접하는 용어는 해석학(hermeneutics)이다. 이 용어는 그리스 어 헤르메네우티코스(her-meneutikós, ‘해석에 능한)에서 비롯된 말로 원래는 문헌, 특히 성경에 대한 분석과 해석을 의미하는 말로 사용되었다. - P329

자연사의 분석은 수평적이지 수직적이지 않다. - P330

자연사는 조직의 여러 수준들을 가로지르는 최고의 가용적 지식들을 연결함으로써 과학 이론을 만들어 낼 수 있다. 더욱이 학자들이 상이한 수준들에서 작용하는 모든 가능한 사건들을 포착하는 입증 가능한 경합 가설들을 제시하게 되면 자연사는 엄밀한 과학 이론을 창조하게 된다. - P331

만일 사회과학자들의 궁극적인 목표가 자연과학자들과 마찬가지로 엄밀한 이론을 선택하는 것이라면, 그들이 시공간의 넓은 범위들을 얼마나 자유롭게 왕래하며 조망할 수 있는지에 따라 성공의 질이 결정될 것이다. 바로 자연과학의 설명과 사회과학의 설명을 같은 선상에 놓아야 한다는 뜻이다. - P331

(리처드) 로티는 해석학과 인식론(지식에 대한 체계적인 이론)을 다음과 같이 대조했다. "현상을 완벽하게 이해하고는 있지만 그 현상을 좀 더 확장하거나 강화하거나 가르치거나 정초하기 위해 그것을 암호화하기를 원할때 우리는 인식론적으로 된다. 반면, 현상을 이해하지는 못하지만 그 현상을 받아들일 만큼 정직해질 때 우리는 해석학적으로 된다." - P331

그(로티)에 따르면 해석학은 "인식론의 몰락 때문에 남겨진문화적 공백이 결코 채워지지 않을 것ㅡ즉 더 이상 제약과 대립을 위한 강요가 느껴지지 않는 문화이어야 한다는 것ㅡ을 소망하는 하나의 표현"이다. 간단히 말해 학자들 간의 논의는 통섭을 염두에 두지 않고도 진행될 수 있다. 또한 그러면서도 엄격함이 유지될지 모른다. 하지만 그런 양보는 포스트모던적인 학자들에게 환영받을지는 몰라도 학문의 능력과 기쁨을 고갈시킬 수 있는 미숙한 포기이다. - P331

연구의 창조성은 어떤 형태의 탐구에서도 예기치 않게 발생할 수 있지만 인과적 설명으로 발견들을 연결하지 않으려는 태도는 그 발견의 신뢰성을 떨어뜨린다. 그런 태도는 종합적인 과학적 방법, 즉 인류의 지성이 그동안 창조해 온 가장 강력한 도구를 뿌리치는 어리석은 짓이며 인간의 지성을 평가절하하는 게으른 행동이다. - P331

문제는 관점이다. 왜 진짜로 관점을 넓히지 않는가? - P333

인간은 행동의 가변성 측면에서 가장 특출할 수도 있으며 인간만이 언어와 자의식 그리고 통찰력을 가지고 있을 수도 있다. 그러나 인간의 체계 중에서 알려진 모든 것들은 수많은 고도의 사회성 곤충과 척추동물이 보여 주는 특성들의 아주 작은 부분집합에 불과하다. - P333

만일 사회 행동에 대한 참된 과학을 창조하고 싶다면 1억 년 단위의 기간 동안 일어난 이 유기체 집단들의 발산 진화(divergent evolution)를 추적해 볼 필요가 있을 것이다. 또한 인간의 사회 행동이 궁극적으로 생물의 진화를 통해 시작되었다는 사실을 인식하는 것도 유용할 것이다. - P333

자연환경은 인간이라는 종이 진화해 온 극장이다. 또한 인간의 생리와 행동은 그 환경에 정교하게 적응되어 있다. 인간 생물학이나 사회과학도 이러한 틀을 고려하지 않는 한 완전한 의미를 가질 수 없다. - P334

사회과학자들은 전통적인 분석에서 시작한다. 그들은 사실들에 순서를 매기고 그것들을 수량화하여 표와 그래프로 표시하며 통계학적 해석을 가한다. 그들은 역사적 배경도 조사한다. 그들은 다른 장소에 일어났던 유사한 현상과도 비교하고 주변 문화의 제약과 편향을 조사하며 그 사건이 속한 장르가 그때 그 장소에서 고유한 것인지 아니면 널리 일어나는 일인지를 결정한다. 이 모든 정보로부터 그들은 사건의 원인들을 추측하고 다음과 같이 묻는다. 이 사건의 의미는 무엇인가? 이 사건은 계속될 것인가? 다시 일어날 사건인가? - P335

오늘날 대부분의 사회과학자들은 여기에서 멈춘 채 보고서를 작성한다. 하지만 통섭 이론으로 무장한 미래의 분석가들은 더 깊이 있게 탐구할 것이고 그래서 더 많은 것을 이해하게 될 것이며 더 큰 예측력도 갖게 될 것이다. 가까운 미래에 벌어질 일들을 장밋빛 청사진으로 보면 그들은 머지않아 심리학, 특히 사회심리학의 원리들을 인수 분해할 것이다. - P335

"사회심리학"이라는 용어는 한 개인이나 팀의 직관이 아니라 인간 행동에 관해서 통속적이기는 하나 감정적으로는 만족스러운 믿음을 뜻한다. 하지만 나는 성숙하고 정확한 심리학으로부터 얻을 수 있는 완전한 지식을 원한다. 이런 지식은 그동안 사회과학자들에게 일반적으로 무시당해 왔다. - P335

통섭 연구의 완전한 시나리오를 제시해보겠다. 미래의 분석가들은 사회 행동이 주어진 환경 속의 개인이 지닌 감정과 의도의 총합으로부터 어떻게 발생하는지를 매우 잘 안다.
또한 그들은 개인의 행동이 생물학과 환경의 교차점에서 어떻게 발생하는지도 안다. 문화 변동에 대한 그들의 이해는 인간 행동의 종적 특이성을 유전적 진화의 산물로 해석하는 진화생물학의 통찰로 인해 강화된다. 그들은 유전자가 행동을 단순한 일대일 대응으로 규정한다는 전제를 피하면서도 어떻게 이런 아이디어를 표현할 수 있을지 매우 조심스러워한다. 그들은 자신의 견해를 좀 더 정교하게 전달하는 좀 더 세련된 공식을 다음과 같이 사용한다. 행동은 후성 규칙들의 안내를 받는다. - P335

후성설(epigenesis)은 개체가 유전과 환경의 공동 영향 아래에서 어떻게 발달하는지에 관한 개념으로서 원래 생물학에서 처음 나왔다. - P336

감각 체계와 뇌의 선천적 작용들의 집합체인 후성 규칙은 개체가 환경에서 직면한 문제들에 대해 빠른 해결책을 찾도록 만드는 일종의 어림법 (rules of thumb)이다. 그것은 인간으로 하여금 세상을 특정한 방식으로 보게끔 선천적으로 규정하고 자동적으로 특정한 선택을 하게 한다. - P336

우리는 이 후성 규칙들 때문에 무지개를 파장의 연속체가 아니라 네 가지 기본 색으로 본다. 우리는 근친상간을 피하고 문법적으로 정합적인 문장으로 말하고 친구에게 미소를 지으며 혼자일 때에는 낯선 이에게서 공포를 느낀다. - P336

후성 규칙들은 대개 감정을 통해서 작동되는데 모든 행동 범주에서 개인으로 하여금 상대적으로 빠르고 정확한 반응을 하도록 하여 결국 생존과 번식에 더 성공적이도록 만든다. 그러나 다른 한편으로 그 규칙들은 문화적 변이들과 조합들이 발생할 수 있도록 열려 있다. - P336

복잡한 사회에서는 그 규칙(후성 규칙)들이 건강과 복지에 더 이상 기여하지 못하는 경우도 있다. 그 규칙들이 지시하는 행동이 굴절되어 결국 개인과 사회의 이득에 반하는 방향으로 나아갈 수도 있다. - P336

자연선택에 따른 진화 (중략) 즉 협력과 갈등 행동은 그런 행동을 하는 개인의 생존과 번식을 향상시키기 때문에 본능으로 진화해 왔다는 논리 - P337

조류와 포유류(인간을 제외한)에서 가족은 기본적으로 불안정하지만, 적어도 고품질의 자원들을 통제하는 가족의 경우에는 그렇지 않다. 하나의 유전적 계통이 여러 세대에 걸쳐 영속되는 경우(왕조)는 자원이 늘 풍부한 세력권에서 발생한다. - P337

가족 구성원들의 유전적 관계가 가까우면 가까울수록 협력의 정도는 더욱 증가한다. 예컨대 아버지와 아들 사이의 협력은 삼촌과 조카 사이의 협력보다 더 빈번하다. - P338

이런 협동성과 근친상간 회피에 기인하여 가족 구성원들의 유전적 관계가 밀접할수록 성적 갈등의 빈도는 낮아진다. - P338

가족 구성원들의 유전적 관계는 갈등과 헌신의 형태에도 영향을 준다. 수컷은 자신의 부권이 불확실하면, 즉 그 자손이 자기의 자식이라는 것에 대한 확신이 없으면 그 자손에게 투자를 덜 한다. - P338

만일 어떤 가족에서 부모 중 하나가 죽으면 죽은 그 부모의 반대성을 가진 자식이 양육자의 지위를 놓고 살아남은 그 부모와 경쟁한다. 가령, 아버지가 죽으면 여전히 임신 가능한 어머니는 자신의 아들이 새롭게 얻을 수도 있는 배우자의 지위를 놓고 그 아들과 충돌할 개연성이 높다. 또한 그 아들은 자신의 어머니가 새로운 성관계를 맺지 못하도록 방해한다. - P338

생물학에서 밝혀진 이러한 갈등과 헌신의 패턴은 복합 가족(step-family)이 생물학적 가족(biological family)보다 더 불안정하다는 사실을 예측할 수 있게해 준다. 계부모는 친부모보다 부양 자식들에게 덜 투자한다. 많은 종에서 계부모는 자신의 번식 성공도를 높이기 위해 현재의 자식들을 죽이기까지 한다. 이런 행동은 계부모가 지배적인 성일 경우에 특히 더 자주 일어난다. - P338

만일 낮은 서열의 구성원이 그 가족을 떠나 자신만의 가족을 구성하는 것에 도움이 된다면, 가족 내의 구성원들은(외부로부터 온 배우자들을 이용하여) 번식을 보다 고르게 하게 된다. 그러한 관용은 그 구성원들이 유전적으로 매우 가까울 때 가장 크게 나타나며 협동하는 개체들은 부모자식보다는 대개 형제자매들이다. - P338

문화의 변이들은 때로 엽기적이고 기이한 것까지 포함할 정도로 다양하다. 예컨대 예전에 뉴기니의 포어 족(Fore)은 죽은 친지들의 뇌를 먹음으로써 죽은 이에 대한 애도의 뜻을 표하는 풍습을 갖고 있었는데, 이 때 쿠루병 (동뉴기니 원주민에게서 나타나는 치명적인 뇌신경병.)에 감염된 친척의 뇌를 먹게 되면서 그 병이 마을에 점점 널리 퍼지게 되었다. - P339

근친상간 회피와 같은 행동 등에 대한 연구는 동물의 강한 본능이 인간 행동의 후성 규칙들로 번역될 수 있음을 보여 주었다. 고고학자의 삽을 기다리는 유프라테스 강 유역의 고대 문명처럼 후성규칙은 문화의 긴 역사를 발굴할 우리의 손을 기다리고 있다. 진화론의 실제적인 역할은 후성 규칙이 있을 만한 위치를 정확하게 지적해주는 일이다. - P339

사회과학적 탐구 중에서 자연과학과의 간격을 메울 준비가 가장 잘 되어 있으며 형식과 자기 확신 측면에서 자연과학을 가장 닮은 학문분과는 경제학이다. 수학적 모형들로 무장되어 있고 매년마다 노벨경제학상을 받으며 재계와 정부로부터 보상을 받는 이 분야는 사회과학의 여왕이라는 칭호를 받을 만하다. 그러나 ‘진정한‘ 과학과의 유사성은 종종 피상적이며 엄청난 지적인 대가를 치르며 얻어 왔다. - P339

경제 이론의 잠재력과 가치는 역사적 배경에서 가장 분명하게 이해될 수 있다. - P339

18세기부터 19세기 초까지의 고전주의 시대에는 애덤 스미스(Adam Smith), 데이비드 리카도(David Ricardo), 토머스 맬서스(Thomas Malthus)와 같은 창시자들이 경제를 순환하는 소득의 폐쇄계로 보았다. - P339

수요와 공급에 따라 경제는 세계의 자원들을 통제하고 이로운 결과를 내기 위해 그것들을 전환한다. - P339

애덤 스미스는 이 기간(18세기부터 19세기 초)에 자유시장 경제학의 중심 공리를 도입했다. "보이지 않는 손"이라는 그의 개념에 따르면 개별 생산자와 소비자는 자신의 최고 이익을 자유롭게 추구하도록 내버려 둘 때, 오히려 경제를 발전시키며 결과적으로 전체 사회에 최고의 이득을 안겨 준다. - P340

1830년경에 시작되어 그 후로 40년이 지났을 때 절정에 이른 한계주의 시대에는 보이지 않는 손의 속성들로 초점이 움직여 갔다. 경제의 내적 작동이 사람, 회사, 정부와 같은 행위자의 개별적인 결정들로 분석되었고 이 행위자들의 활동들은 수학적 모형들의 도움을 받으며 고찰되었다. 물리학 이론과 같은 추상적인 틀 내에서 생산과 소비의 수준이 어떻게 변하는지를 평가하고 예측함으로써 분석자들은 경제를 마치 실제 세계인 양 조작할 수 있었다. 미적분학은 생산과 소비에 있어서 매우 작은 ‘한계‘ 변동(marginal shifts)의 결과를 계산하는 데 사용되었고 이것으로써 경제 변화가 평가되었다. - P340

희소성과 수요가 등락하면서 새로운 생산물(예컨대 금, 석유, 집 등)의 각 단위도 그에 따라 가격이 등락한다. 종합적으로 복잡한 교환망을 통해 진행되는 이런 변동은 경제를 수요와 공급의 평형 상태에서 멀어지게 하거나 가깝게 만든다. 따라서 경제 변화를 정확한 값으로 기입하려고 하는 미시경제학의 토대가 형성되었다. - P340

한계 비용(marginal cost)은 생산물 한 단위를 추가로 생산할 때 필요한 총비용의 증가분으로, 한계 생산물(marginal product)은 하나의 생산 단위를 추가로 입력함으로써 생기는 총생산물의 증가분으로, 한계 수익 (marginal revenue)은 생산물 한 단위를 판매함으로써 생기는 총수익의 증가분으로, 그리고 한계효용(marginal utility)은 생산물 한 단위를 소비할 때 얻는 만족으로 정의된다. - P340

한계주의 경제학자들은 모형들을 만들어 자연과학자가 하는 식으로 다른 변수들은 고정하고 하나의 변수 혹은 한 조합 변수를 변화시킨다. 유능한 경제학자들은 그런 모형을 통해 깔끔한 그림을 그려 낸다. - P341

고전주의 시대의 거시 분석은 결국 한계주의 시대의 미시 분석과 결합되었는데, 1890년에 『경제학 원론(Principles of Economics)』을 쓴 앨프리드 마샬(Alfred Marshall)의 영향이 가장 컸다. 토르슈타인 베블렌 (Thorstein Veblen)은 1900년에 이런 결합의 결과를 신고전주의 경제학이라고 불렀다. - P341

신고전주의 경제학은 오늘날 우리가 받아들이는 것이기도 하지만 모형 구성 시대(the Era of Model Building)의 경제학과 중첩되기도 한다. 신고전주의는 그때부터 무르익기 시작했다. 이론가들은 1930년대부터 경제학의 세계를 훨씬 더 정교하게 시뮬레이션하기 위해서 선형 프로그램, 게임 이론 그리고 강력한 수학적·통계학적 기법들을 동원했다. 그들은 정확성에 대한 자신들의 느낌에 도취되어 평형에 대한 주제로 계속 되돌아갔다. 그들은 수요와 공급, 회사와 소비자의 충동, 경쟁, 시장 동요와 실패 그리고 노동과 자원의 최적 사용 등을 그들의 능력이 닿는 데까지 구체적으로 서술했다. - P341


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
 전출처 : 즐라탄이즐라탄탄 > 좋은 기회가 되어 읽어볼 수 있게 되었다. 밑줄친 문...

1년 전 오늘 읽었던 데일 카네기의 인간관계론인데, 주저리주저리 많은 말들을 써놨지만, 오늘 다시 읽으면서 상대방을 비난하지 말라는 말이 굉장히 마음에 와닿았습니다. 비난은 그저 상대의 감정을 자극할 뿐 상대를 진정으로 변화시키지는 못하기 때문입니다. 물론 살면서 상대방이 내 생각과 다르게 행동하거나 마음에 들지 않는다고 해서 화가 날 수는 있겠으나 그것을 그 상대방에게 직접 표출하는 건 다시 한 번 생각해봐야 할 것 같습니다. 정말로 중요한 일이라면 모르겠지만 그런 경우보다는 보통 우리를 자극하는 일이라는 게 크게 보면 그리 중요하지 않은 그저 사소한 것들인 경우가 많기 때문입니다. 화가 난다고 무작정 비난하기보다는 웬만하면 그냥 넘어가는 것이 상책일지도 모르겠습니다.

댓글(0) 먼댓글(0) 좋아요(12)
좋아요
공유하기 북마크하기찜하기
 
 
 

데이터관련 분야에서 다양한 경험을 한 저자를 통해 데이터의 본질과 그 속성에 대해 알아보는 시간이 되길 기대해본다.
.
.
.
이 책은 일반적인 다른 책들의 구성과는 조금 다르게 맨 앞부분에서 본문에 나오는 핵심 메시지들을 요약해서 보여주고 시작한다. 이러한 구성 덕분인지는 몰라도 개인적으로는 본문에 들어갔을 때 접하는 내용들이 좀 더 익숙하게 느껴졌다.

맨 처음 본문에 나오는 내용은 데이터 분석의 목적이 무엇이냐에 따라 필요한 정보들이 각각 다르다는 것이었다. 저자는 데이터 분석의 목적을 크게 4가지 정도로 나눠서 독자들에게 말해주는데 단순히 목적에 따른 역할 뿐만 아니라 그 목적을 이루기 위해 필요한 역량들이 무엇인지 까지도 간단명료하게 알려주어서 독자들이 자신의 목적에 맞게 그러한 역량들을 준비하는데 조금이나마 도움이 될 수 있을 듯하다.

이어지는 내용에서는 데이터를 측정하는 것의 궁극적인 목적에 대해 생각해볼 수 있었다. 우리가 데이터를 측정하고 분석하는 것은 단순히 그 행위자체가 목적이라기보다는 그 측정한 데이터에 기반하여 우리가 해결하고자하는 문제를 해결하는데 도움을 받기 위함이다.

이러한 데이터 분석의 궁극적인 목적은 사회과학 분야의 마케팅 뿐만아니라 자연과학분야의 실험에서도 동일하게 적용된다. 궁극적으로 해결하고자 하는 문제를 최대한 잘 풀어내기 위해서는 측정하려는 데이터의 속성이 문제해결에 목적적합해야 함은 물론이고 그 측정값 또한 가급적 정확해야 한다.

오늘 포스팅은 이 정도로 하고 다음 포스팅에서 이와 관련된 내용을 좀 더 다뤄보도록 하겠다.

데이터를 세상에 있는 존재, 일어난 사건, 어떤 순간의 상태, 사람의 주관에 따라 달라지지 않도록 해석을 고정하려고 애쓴 정보라고 정의할 때, 결국 데이터는 세상에 관한 것이므로 데이터 과학자는 세상에 대한 이해를 갖추어야 한다. - P2

어려운 내용을 어려운 언어로 말하기는 쉬울지 모르지만, 어려운 내용을 쉬운 언어로 풀어쓰는 것은 전체를 조망하는 혜안과 긴 시간에 쌓인 내공을 필요로 한다. - P2

가장 중요한 것은 도구가 아니라 도구를 선택하는 능력이며, 이는 그 무엇도 넘볼 수 없는 인간의 영역이다. - P3

내가 하는 일에 있어서 데이터의 역할을 정의하자. 즉, 데이터와 관련해서 나의 롤이 무엇인지를 알아야 데이터에 관한 공부의 목적성이 분명해진다. - P10

내가 데이터 수집 전문가인지, 수집된 데이터를 갖고서 분석을 하는 전문가인지, 마케터로서 분석된 데이터를 갖고서업무에 활용하려는 사람인지 이를 분명히 할 때, 데이터 사이언스와 관련해서 무엇을 알아야 하고, 무엇을 주의해야 하는지가 결정된다. - P10

빅데이터든 스몰데이터든 얼마나 양질의 정제된 데이터를 갖고서 분석하느냐가 더 좋은 결과를 담보한다. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 더 낫다. - P11

분석만큼이나 중요한 것이 데이터의 수집이다. 수집이 잘못되면 아무리 좋은 기술을 갖고서 뛰어난 대가가 와서 분석한다 하더라도 그 결과는 쓸모가 없어진다. - P11

데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실이 아니라 진실에 가까운 추정치일 뿐이다. 그래서 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다. - P12

문제의 본질을 이해하고, 데이터 분석 여부와 분석 방법 등을 아는 것이 중요하다. 많은 양의 데이터 다룰 줄 아는 능력보다 언제 써야 하는지 아는 것이 훨씬 더 중요한 능력이다. - P12

데이터 분석이 어려운 항목은 대체 지표를 개발해서 분석을 할 때가 있다. 학습 능력을 측정하기 위해 대체 지표로 시험 성적을 활용하는 것과 같은 원리이다. 하지만 시험 성적이 학습 능력을 100% 반영한 진실이라고 말하기 어려운 것처럼 이 또한 완벽할 수 없다. 그래서 데이터 사이언스가 만병통치약이라는 생각은 관둬야 한다. 의사결정을 돕는 도구일 뿐이다는 사실을 잊어서는 안 된다. - P12

데이터 분석을 할 때 자주하는 실수 중 하나가 ‘나의 데이터‘ ‘남의 데이터‘를 구분하지 못하는 것이다. 어떤 문제를 해결하고자 온갖 데이터(결과적으로 빅데이터)를 갖고 오다 보니 문제 해결에 전혀 상관없는 ‘남의 데이터‘가 마치 ‘나의 데이터‘처럼 취급될 때가 있다. 쓰지 않아도 될 시간과 비용을 지출하는 것이다. - P13

‘나의 데이터‘인지, ‘남의 데이터‘인지를 잘 구분하기 위해서는 해결하고자 하는 문제의 정의를 잘 내려야 하고 문제 안의 변수들 사이의 관계 파악도 잘해야 한다. 결국 비즈니스 경험에 바탕을 둔 판단이 중요하다. - P13

분석 결과가 만능일 수는 없다. - P13

가능성의 오차 범위 - P13

확률이란 ‘예측‘이 아니라 ‘관리‘의 의미가 있다. ...(중략)... 확률에 따라 자원을 어떻게 효율적으로 운영하느냐이다. - P14

데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다. - P14

데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계를 알려주는 것이지, 인과관계를 알려주는 것은 아니다. - P14

데이터 분석에만 치중하다 보면, 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. - P14

통찰은 결국 비즈니스 경험에서 나온다. 그리고 통찰이라는 것 역시도 조건과 경험에 따라 내용은 달라진다. 절대 진리는 없다. - P14

데이터 리터러시는 "데이터를 읽을 줄 아는 능력"을 의미한다. 일상에서 만나는 무수한 문제들에 우리는 감정적 판단을 하는 경우가 많은데, 이는 데이터 리터러시가 부족해서 그렇다. - P15

리터러시 역량을 키우는 방법은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것이다. - P15

필요한 것은 세상을 이해하고, 상황을 이해하고, 맥락을 유추하는 과학적 사고를 포함한 인문학(리버럴 아트)적 능력을 갖추는 것이다. - P15

기술의 진보는 생각 이상으로 빠르다. 지금 우리가 말하는 빅데이터는 향후 몇 년 뒤에는 스몰 데이터 수준이 될 수도있다. 그러니 빅데이터를 만능이라고 생각해서는 안 된다. - P15

데이터를 학습한 인공지능이 내놓는 답이 반드시 진리라는 보장은 없다. 이 말은 집단 지성이 언제나 진리는 아니라는 말과 같다. 지금의 여러 데이터가 편향된 것이라면 인공지능이 내놓는 답 또한 편향적일 수밖에 없다. - P15

인공지능은 주어진 데이터의 학습을 통해 결과를 도출하는 알고리즘일 뿐이다. - P15

데이터 분석 모델링(시스템 설계)을 할 때는 필요로 하는 데이터가 무엇인지 알아야 하고, 측정하기 쉬운 데이터를 선택해야 한다. - P16

시스템 설계의 핵심은 시간을 줄이고, 비용을 줄이고, 품질을 높이는 것이다. 다만, 이 셋을 동시에 해결하려다 보면 추후 결과 값 분석에서 무엇이 원인이었는지 가리지 못할 수 있다. 그래서 동시보다 하나씩 해결하는 것이 현명하다. - P16

무조건 데이터 사이언스 기법만이 문제 해결을 할 수 있는 것은 아니다. - P16

데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자. - P16

분석 이전의 문제의 본질을 봐야 - P17

기술에만 빠져서 문제의 본질 읽기를 놓치는 일이 없어야 한다. - P17

문제의 본질을 읽는 것. 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력. 그것이 곧 인문학(리버럴 아트)적 능력이다. - P17

데이터 분석을 배우고자 할 때 가장 먼저 해야 하는 일은 데이터 사이언스를 공부하고자 하는 이유가 어떤 상황 때문인지를(어떤 필요가 있는지)파악하는 것부터다. 왜냐면 공부하고자 하는 분들의 데이터 사이언스의 목적에 따라 필요로 하는 요소들(분야나 익혀야 할 기술)이 달라지기 때문이다. - P25

데이터로 문제를 해결해야만 하는 사람

데이터로만 문제 해결이 가능한 분야와 이를 해결하려는 사람을 말한다. 즉, 데이터 분석을 해야만 문제가 풀리는 경우이다. 국가의 인구나 주식, 경상수지 같은 각종 경제 지표를 수집하고 분석하는 통계청이라든가, 실험을 통해 얻은 데이터를 분석하여 물질의 성질을 정의하는 실험 물리학자들 같은 경우가 대표적이다. 이 부류에 있는 분들의 1차 목적은 "분석 그 자체"이다. - P27

데이터 사이언스를 다루는 이들 사이에서 자주 회자되는 속담(?)이 "Garbage In, Garbage Out" 이다. 아무리 분석 방법을 잘 알고 분석 실력도 출중하더라도 분석 데이터의 질이 좋지 않으면, 좋은 분석이 나올 수 없다는 뜻이다. 그래서 분석 실력만큼 중요한 것이 데이터의 가치를 판단하는 능력이다. 이를 위해서는 분석하려는 분야에 대한 전문성이 필요하고 기초적인 통계 지식을 갖추는 것이 중요하다. 그리고 어느정도의 통계 패키지(분석 프로그램) 사용 능력까지도 갖고 있다면 금상첨화이다. - P28

데이터로 문제 해결을 해야 하는 사람 입장에서는 어떤 통계 패키지를 사용하느냐는 크게 중요하지 않다. R(통계 계산과 그래픽을 위한 프로그래밍 언어로 오픈 소스이며 무료로 사용 가능)도 괜찮고, 누구나 쓸 줄 아는 엑셀도 괜찮다. 충분히 좋은 데이터를 모으고 이를 가공할 수 있는 익숙한 툴만 있다면 얼마든지 좋은 분석을 할 수 있다. 연장을 탓할 필요는 없다. - P28

데이터의 문제를 해결하는 사람은 이미 어떤 형태로든 데이터화 된 정보를 다루는 사람을 뜻한다. 이미 자료는 데이터 형태로 되어 있기 때문에 이들에게 데이터가 어디서 왔느냐는 중요한 문제가 아니다. 이들에게 중요한 것은 어떤 식으로 데이터를 구조화(DB화) 하느냐?"와 "어떻게 원하는 유효한 값들을 신속하게 계산할 것인가?" 이다. - P29

사실상, 이 영역(데이터의 문제를 해결하는 영역)은 데이터 과학의 영역이라기보다는 소프트웨어 개발자의 영역에 가깝다. 특히 데이터 분석을 다루는 범용 패키지나 커스터마이징 된 모듈을 다루는 분들이 이런 일을 한다. 그래서 이쪽 분야에서는 당연히 전산학computer Sciences 관련 기술을 필수적으로 본다. 여기에는 데이터베이스 Database, 분산 컴퓨팅 Distributed Computing, 데이터 마이닝 Data Mining과 같은 데이터 처리 관련 기술이 포함되어 있다. 이 기술들은 데이터를 현란하게 다룰 줄 아는 프로그래밍 기술(코딩 능력)이라고 봐도 무방하다. 이 분야도 마찬가지로 기본적인 통계 이론을 알면 좋다. 정리하면, 통계학적 이론과 이를 프로그래밍 할 수 있는 능력을 갖추고 있다면 최고 능력자로 대우받을 수 있다. - P29

데이터로 설득하려는 사람

(중략) 쉽게 이야기해 장사하려는 사람들이다. 즉, 사업을 하는 비즈니스맨이거나 마케팅 담당자가 여기에 해당한다.
기본적으로 데이터를 다룰 줄은 알지만 이들에게 중요한 것은 보여주는 것, 시각화visualization 능력이다. 보통 데이터의 시각화를 이야기하면, 연관 검색어 보여주기 혹은 시각화 기능이 뛰어난 R 같은 프로그래밍 언어를 생각하기 쉽지만, 이보다 범용적으로 쓰이는 용어는 인포그래픽스 Infographics이다. - P30

이분들(데이터로 설득하려는 사람)에게는 데이터가 의미하는 바를 정확하게 이해하는 보편적인 지식도 필요하겠지만, 정작 필요한 것은 예술적 감각이다. 한 때는 인포그래픽스나 데이터 시각화Data Visualization와 같은 용어가 빅데이터와 함께 주목을 많이 받았지만 산업디자인 쪽에서는 오래전부터 다뤄왔던 주제이다. 그래서 산업디자인 관련 지식을 갖고 있다면 큰 도움이 되고, 데이터를 갖고서 시각화하는 소프트웨어까지도 쓸 줄 안다면 능력자라봐도 된다. 참고로 엑셀도 괜찮은 데이터 시각화 도구 가운데 하나이다(엑셀은 정말 못하는 게 없다). - P30

데이터로 문제를 해결하려는 사람

(중략) 데이터를 다루는 전공자는 아니지만, 데이터 사이언스에 관심을 갖고서 이를 자신의 영역에 적극 사용하고자 하는 분들이다. 이분들은 데이터 사이언스 내지는 데이터 분석까지 자신의 영역에서 사용하고자 한다. 전산학이나 통계학이 아닌 분야에서 말하는 데이터 관련 이야기들은 모두 여기에 해당한다. - P32

이분들(데이터로 문제를 해결하려는 사람)에게 필요한 것은 데이터를 다루는 기술이나 통계학적 지식이 아니라 "문제의 본질을 파악하는 능력"이다. 여기서 문제란 데이터를 통해 밝히고자(풀고자) 하는 어떤 사안을 말하며, 이를 위해서는 통계적 가설을 설정하고 확인하는 것이 필요하다. 가설에 따라 수집해야 할 데이터가 결정되고, 이를 정리하고 분석하는 것이 문제해결의 과정에 해당한다. - P32

데이터 사이언스를 사용한다(혹은 학습한다)는 것은 데이터를 이용해 내가 일하는 분야에서 발생한 특정 문제를 해결하고자 하는 목적일 가능성이 높다. 이때 가장 중요한 것은 문제의 본질을 얼마나 제대로 파악하고 있는가이다. 문제의 본질은 데이터 사이언스를 통해 알려고 하는 것, 데이터 사이언스를 통해서 하려는 정확한 의사결정이 무엇인가 파악하는 것이다. 이를 어떻게 알고 있느냐에 따라 해야 하는 일(나아가 내가 해야 하는 공부)이 달라진다. 그것은 데이터의 속성을 파악하는 일이 될 수도 있고, 통계 처리가 될 수도 있고, 데이터 처리와 관련된 컴퓨터 기술 습득이 될 수도 있다. - P33

데이터 사이언스를 업으로 하는 이들 대부분은 "데이터로문제 해결을 ‘해야만‘ 하는 사람으로 퉁쳐서 말하지만, 사실상 대부분은 "데이터로 문제를 해결하려는 사람"에 해당한다. 즉, 우리가 접하는 대부분의 데이터 관련 문제들은 분석 자체가 목적이 아니라, 어떤 문제를 해결하기 위해 데이터를 이용한다 정도로 보아야 한다. - P34

이즈음 다시 고민해봐야 할 것이 "과연, 내가 갖고 있는 문제는 꼭 데이터로만 해결이 가능한가?" "이 문제를 해결하는데 데이터 사이언스가 반드시 필요한가?" 이다. 다시 한번 강조하지만, 데이터 분석이든 뭐든 시작하기에 앞서, 문제의 본질부터 파악하는 것이 첫 번째 단추라는 것을 잊지 말아야 한다. 그리고 반드시 위의 질문 "꼭 데이터로만 해결이 가능한가"를 되짚어 보아야 한다. - P34

데이터 분석의 목적은 크게 두 가지이다. 하나는 ‘분석(혹은 측정)‘ 자체가 목적인 경우, 또 하나는 데이터 분석을 기반으로 자신의 문제를 해결하는 것이 목적인 경우이다. - P35

수요 예측은 사실 예측을 하는 것 자체에 목적성이 있는 것이 아니라 이를 기반으로 공급망 운용을 효과적으로 하기 위한 것으로 봐야 한다. 그러면 수요 예측은 원래 문제를 풀기 위한 준비 작업에 해당한다. - P36

소셜 마케팅에서의 데이터 분석 또한 마찬가지다. 연관 검색어를 분석하고 사용자가 몇 번 클릭했는지 집계하는 이유는 데이터 분석으로 얻어진 정보를 바탕으로 마케팅에 활용하고자 함이다. 좀 더 직설적으로 말하자면 고객 확보가 원래의 목적이다. 즉, 데이터 분석 과정 자체가 목적이 아니라공적인 마케팅 전략 수립이 문제의 본질이다. 이러한 관점에서 생각해볼 문제는 어떻게 하면 소비자의 데이터를 잘 분석하느냐가 아니라 "소비자를 끌어들이기 위해서는 고객의 어떤 데이터를 어떤 식으로 수집해서 분석하는가?" 이다. - P36

어떤 식으로든 데이터를 수집하기 위해서는 읽을(측정) 수 있어야 한다. ...(중략)... 데이터 사이언스는 과학이나 공학실험에서 말하는 "측정"과도 깊은 연관성이 있다. - P36

대부분의 물리실험은 자연 현상을 측정하는 과정을 포함하는데, 실험에서 이러한 측정은 측정 자체가 목적인 것보다 원래 가지고 있던 문제 해결을 위한 선작업일 때가 훨씬 많다. 그래서 이쪽 연구를 하는 많은 공학도들은 어떻게 하면 정확한 측정값을 얻을 수 있을까를 고민한다. - P37


댓글(0) 먼댓글(0) 좋아요(9)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo