직관과 객관 - 과잉 정보의 시대, 본질을 보는 8가지 규칙
키코 야네라스 지음, 이소영 옮김 / 오픈도어북스 / 2026년 1월
평점 :
장바구니담기


'이 리뷰는 컬처블룸을 통해 출판사에서 도서를 제공 받아, 직접 읽고 작성한 리뷰입니다.'





직관의 함정에서 벗어나는 데이터 리터러시







책을 선택한 이유


빅데이터 의 시대다.


정보 통신 기술의 발달로 방대한 양의 데이터 를 분석하여

유용한 정보를 만들어 낼 수 있다.


데이터 가 아니라 데이터 의 의미를 포착하는 것이 중요하다.

데이터 의 본질을 파악하기 위해 "직관과 객관"을 선택한다.





"직관과 객관"은 창발성과 인과적 복잡성이 얽힌 세상,

데이터 선택, 지표의 활용, 분포, 차수 추정, 편향,

상관관계, 무작위성, 베이즈 정리, 확률. 일반적 베팅의 오류,

파레토 최적, 최적화, 직관, 착각을 다룬다.





혼돈 시스템 이란 본질적으로 예측할 수 없는 현상을 의미한다.


삶에는 수많은 상황이 얽혀 있는 인과적 복잡성이 존재한다.

모든 원인이 영향을 서로 주고받는 상호 작용에서 시작된 결과도 있다.


수많은 존재는 자신의 구성 요소에 없는 성질을 띄며,

해당 요소가 상호 작용하여 전체를 이룰 때만 발현되는 행동을 보인다.


20세기 과학의 핵심 주제는 생물학의 거의 모든 것이 창발적이라는 발견이다.


사회적 현상은 집단적 상호 작용에서 창발한다.


우연하거나 단순하거나, 이기적인 상호 작용이 쌓여

나타난 결과일 뿐인 사건도 있다.


많은 사회적 현상도 자기 조절적 특성을 지닌다.


평형 상태는 사실 드물다. 우주의 법칙은 오히려 무질서를 향해 나아간다.

무한히 가능한 상태 가운데 생명에 적합한 상태는 극히 일부에 불과하다.



좋은 데이터 를 선택하는 작업은 분석에서 필수적인 단계이다.

모든 지표에는 반드시 한계가 존재하며, 결론을 내리기 전에 맹점을 인지하는 것이 중요하다.


최빈값은 집합 안에서 가장 높은 빈도로 나타나는 수를 의미한다.


중앙값은 데이터 의 중심이 어디에 있는지를 알려주는 유용한 데이터 포인트 이다.


중앙값은 평균의 함정을 피할 수 있고, 극단적인 값이 존재할 때,

대체로 더 유용하고 신뢰할 만한 경우가 많다.



분포를 시각화하는 일은 탐색적 데이터 분석이라는 작업의 일환이다.


구체적인 목표 없이 데이터 집합을 이해하고 초기 관찰 결과를 얻고자

탐색하는 과정을 말한다.


차수 추정은 세상을 정량적으로 바라보는 데 도움을 준다.



방향성 비순환 그래프, DAG는 변수간 연관성과 인과관계 분석에 쓰인다.


대상의 잠재적 원인 변수는 노출 또는 처치,

또 다른 변수는 효과 또는 결과라고 부른다.


나머지 변수는 간섭 요인에 해당하며 존재만으로 교란 요인이 될 가능성이 있다.



전화 여론조사 방식의 편향은 표본 편향이다.

여론조사 응답은 무응답 편향이 생길 수 있다.


가중치 기법은 각 응답자에게 서로 다른 가중치를 부여함으로써

이용자 표본의 대표성을 높인다.


다층 회귀 및 사후층화, MRP를 활용하면

원래 표본에서 과대표집된 집단과 과소대표된 집단을 파악할 수 있다.




상관관계는 인과관계를 의미하지 않는다.


인과성은 한 변수의 변화가 다른 변수의 변화를 일으키는 것이다.

교란 요인은 상관관계를 인과관계로 착각하게 하는 주된 원인에 속한다.


조건화, 변수 통제는 공식적인 통계 기법으로 해결할 수 있다.

핵심은 교란 요인을 제거하는 데 있다.


교란 요인을 해결하는 방법은 가설에 반론을 제기하며 검증을 반복하는 것이다.



콜라이더 는 두 변수의 공통 결과에 해당하는 변수다.


콜라이더 가능성이 있는 변수는 절대로 통제하거나 조건화해서는 안 된다.

무분별하게 많은 변수를 통제하는 행위 역시 피해야 한다.



인과성을 탐구할 최고의 방법은 실험이다.


무작위 대조 시험은 인과관계 입증에 가장 효과적인 방법으로 여겨진다.

실험은 결정을 내리는 상황, 학습 기회 제공에 유용하다.


실험만으로는 질적 기준을 판단할 수 없다.

문제의 본질은 실험으로 알 수 없다.


상관관계가 인과관계를 의미하지 않지만,

인과관계의 실마리를 푸는 단서로서 유용하다.


상관관계가 실제로 인과관계를 의미하는 경우도 있으며,

현실을 묘사하는 일 자체가 가치 있다.


현상의 원인을 알지 못하더라도 예측에 활용할 수 있다.


인과관계가 없는 연관성도 충분히 유용하다.

연관성을 무시하는 것은 어리석은 일이다.



평균 회귀는 세상의 수많은 믿음을 설명한다.


우연에는 무작위성의 근본적인 문제라 부를 만한 측면이 있다.


현상에는 규칙성과 잡음이 복잡하게 얽혀 있어

서로를 분리해 내기가 쉽지 않다.


실제 상황은 완전한 체계성과 무작위성 사이에 존재한다.

평균을 향해 회귀하지만 반드시 평균까지 돌아가지는 않는다.



신호와 잡음을 구분하기 위해 좋은 지표를 선택하는 일이 중요하다.


평균의 장점은 잡음을 제거한다는 것이다.


신호를 필터링 하는 대가는 관찰 결과에 지연이 발생하는 것이다.


과거 조사에 더 큰 비중을 두면 잡음을 더 많이 걸러낼 수 있으나,

실제 변화를 감지하는 데는 둔감해질 수밖에 없다.


성가신 잡음을 제거하는 일과 신호의 지연을 줄이는 일

사이에서 균형을 찾아야 한다.



측정값의 평균을 내면 무작위적인 오차가 줄어든다.


조사가 동일한 편향을 공유하지 않는다면,

조사를 결합하면 체계적 편향을 줄일 수 있다.


표본이 작을수록 신뢰도가 낮으며, 극단적인 결과가 자주 나타난다.



인간은 표본의 크기에 둔감하다.


인간의 직관이 대수의 법칙을 무시한다.

몇 번의 관찰을 통해 본 사례와 전체의 특성이 비슷하리라고 가정한다.


인간의 사고방식은 유사성 또는 대표성을 기반으로 추론한다.



군집 착각은 무작위 현상의 변동성을 과소평가하는 경향으로 생겨난다.


무작위성에 대한 오해는 군집 착각과 정반대의 방식으로,

작은 표본의 결과가 특성을 대표해야 한다는

소수의 법칙이라는 착각으로도 드러난다.


사람은 쉽게 착각에 빠지며, 존재하지 않는 패턴 을 보려는 경향이 있다.



대부분의 연관성은 우연으로 설명된다.


결과가 우연이라는 의심을 피하려면

데이터 탐색과 가설 검증이라는 두 작업을 분리해야 한다.


탐색은 변수를 서로 비교하면서 여러 아이디어 를 구상하고,

데이터가 아이디어 에 대해 말하는 바가 무엇인지 살펴본다.


검증 절차는 가설을 세우고, 데이터 집합을 찾으며,

가설이 맞는지 검증한다.


탐색은 데이터 를 가설로, 검증은 가설을 사실로 바꾸는 과정이다.



가설을 검증하는 과정은 확실함에 가까운 방향으로 조금씩

밀어 가는 일이다.


통계적으로 유의미한 결과는 확실한 것,

그 반대는 존재하지 않는 것으로 받아들임을 뜻한다.



직관에 따라 판단하려는 충동은 반드시 경계해야 한다.



기저율 오류는 직관이 통계적 개념을 다룰 때 겪는 문제다.


베이즈 정리가 직관적으로 와닿지 않는 것은

기저율 수치가 결과에 결정적인 영향을 미치는 것을

간과하는 기저율 오류에 해당한다.



확률은 확실성의 정도를 나타내는 척도이다.


물리 법칙이 너무 방대한 나머지 정확한 예측을 하지 못할 뿐이다.

예측할 수 없는 수많은 미세한 요인을 우연이라 부른다.



확률 모델 의 강점은 극도의 정밀함이 아니라,

다른 방법보다 상대적으로 높은 신뢰성에 있다.


확률적 예측은 예측이 빗나갈 가능성까지 함께 알려준다.



확률처럼 직관적이지 않은 개념을 다룰 때는

명확한 전달을 위한 노력을 아끼지 않아야 한다.



확실성은 행동의 필수 조건이 아니다.


확실성이 없다는 이유로 아무 행동도 하지 않는 태도는

과학주의적 오류에 빠져 있는 것이다.



기준값은 임의적이며, 확실성은 연속적이다.


기술적 동률이라는 개념은 격차가 오차 범위보다 작을 때 사용된다.


과학적 관점을 유지하면서 증거를 수집한다.

신중함을 잃지 않되, 세상의 불확실성을 인정하며,

정보가 완전하지 않더라도 행동해야 함을 받아들인다.



슈퍼 예측가는 정보를 찾아내고 평가하여 판단을 내리는 데 능숙하다.

슈퍼 예측가는 예측 결과를 확률로 수치화하여 나타낸다.


높은 보정도는 예측이 신뢰할 만한가를 판단하는 기준이다.

예측 실력을 평가하려면 반복적인 예측이 필요하다.


망치형 예측가는 단일한 논리를 모든 상황에 적용하려 든다.

스펀지형 예측가는 새로운 정보를 수용하여 판단을 조정한다.


열정적인 예측가는 일반화를 통해 예측의 출발점이 되는 수치를 얻는다.


베이즈 이론을 예측에 활용하는 것도 좋은 전략이다.


사건의 사전 확률을 먼저 부여한 뒤, 새로운 증거가 등장할 때마다

확률을 갱신하는 방식이다.


집단이 내놓은 예측값의 단순 평균 또는 중앙값만으로도

거의 모든 개인의 예측보다 더 정확한 결과를 얻을 수 있다.



슈퍼 예측가에게 중요한 것은 정확도이다.


정확한 예측인지, 그 밖의 동기가 작용한 것인지 자문해야 한다.

평판이 좋은 분석가라면 보수적으로 예측할 것이다.


자신감 넘치고 사람들을 사로잡는 전문가는 실패하는 경우가 잦다.




일반적 베팅의 오류는 불확실한 상황에서 추론할 때 저지르는 실수에 해당한다.



일방적 베팅의 오류는 딜레마 로 가득한 세상에서 비롯된다.


트레이드오프 는 측정량이나 속성 사이에 존재하는 긴장이다.


원하는 것을 한꺼번에 다 가질 수는 없다.

인생은 균형을 찾기 위한 결정의 연속이다.


인생은 선택의 연속이며, 선택은 다른 대안을 밀어낸다.

여러 목표가 서로 충돌할 때, 균형을 찾아야 한다.


파레토 최적은 범위의 한계선에 위치한 최선의 선택지다.


서로 다른 파레토 최적의 선택지들을 파레토 전면 이라고 하는

곡선으로 나타낼 수 있다.


파레토 개선은 한쪽이 손해를 보지 않으면서도 최소한 다른 한쪽에는

이익이 되는 방향으로 개선할 수 있다.


균형은 노력을 어디에 집중할지를 현명하게 선택하는 데서 온다.



선형계획법은 문제를 일반화하여 하나의 수식으로 표현될 수 있다.


최적화의 핵심은 해답이 무한히 존재하는 문제를 해결하는 데 있다.

최적화는 수천가지 해법을 시도하면서 점점 더 나은 해법을 찾아 나간다.



실행 가능한 여러 대안 가운데서 구체적인 목표를 최대화할 결정을 내려야 한다.

최적화 문제는 제약 조건, 결정 변수, 목적으로 정의된다.



최적화는 인간의 문제를 해결하지 못한다.


문제를 제대로 정식화하는 방법 조차 모른다.

목표를 정의하는 것도 간단한 일이 아니다.


해법을 받아들이기 전에 문제의 정식화 여부를 반드시 확인해야 한다.

문제를 정식화하지 못한다면, 문제를 풀 컴퓨터 가 있더라도 소용이 없다.



대표성 휴리스틱 은 사건의 빈도를 파악할 때,

사건과 고정관념의 유사도를 기준으로 삼는다.


직관은 경이로운 수단이지만 지름길을 택한다.

마음의 지름길이 체계적인 오류를 유발한다.


항상 패턴 을 찾으려 하고, 불확실성을 과소 평가하며,

정보의 양보다 일관성을 중시하고, 개인의 사정을 무시하며,

정보를 이야기로 만들어 내는 것이 마음의 지름길이다.


마음의 지름길은 성급한 결론과 함께 주변의 불확실성을 부정하도록 유도한다.

모든 오류를 억제하는 것이 가장 유익한 선택이다.



주목 착각은 집중하는 대상을 실제보다 더 중요하게 보는 것이다.


비대칭적 통찰의 착각은 타인보다 자신이 다른 이들을 더 잘 안다고 확신한다.


본능에 따라 자신을 맹목적으로 믿으려는 경향은

대다수를 특징 짓는 취약점에 속한다.


설명 깊이의 착각은 실제보다 자세하고 일관적으로,

심도 있게 안다고 생각한다.


설명 깊이의 착각은 파편화된 지식이 자기 것이라는 믿음에서 비롯된다.




빅데이터 시대다.


엄청난 데이터 가 폭발적으로 쏟아지면서,

의미있는 정보를 찾아내는 것은 더 어려워진다.


데이터 를 가치 있는 정보로 만들기 위해서는

데이터 의 특성을 이해하고, 평가하며, 활용할 수 있어야 한다.



데이터 를 올바르게 사용하는 법을 익히지 못하면

데이터 는 오히려 독이 될 수 있다.


편견이나 편향된 사고를 가지고 데이터 를 바라보면

잘못된 결과를 도출하게 된다.



직관은 대상을 직접적으로 파악하는 능력이다.


직관은 유용한 통찰을 발견하는 경우도 있지만,

직감으로 판단하면 실수하는 경우도 적지 않다.



"직관과 객관"은 이성적 사고, 표본의 편향, 인과관계,

무작위성, 불확실성, 확률, 직관의 오류 등을 다룬다.



직관은 감으로 찍는 것이 아니다.


데이터 를 제대로 이해하고 객관적으로 바라보면서,

합리적인 사고를 해야 하는 것이다.


"직관과 객관"은 복잡한 통계 이론을 쉽게 풀어 설명하고,

축구 시즌 성적, 선거 여론 조사 추이, 생년월일 분석 등

흥미로운 사례로 접근하므로, 지루하지 않게 학습할 수 있다.


"직관과 객관"은 데이터, 통계 기법 등에 내재된

편향과 오류를 이해하고, 인간의 심리적 문제를 이해하면서,

데이터 의 의미를 올바르게 파악할 수 있는 안목을 키우고,

합리적인 의사 판단을 할 수 있도록 한다.


오픈도어북스 와 컬처블룸 서평단에서 "직관과 객관"을 증정해주셨다.

감사드린다.


#직관과객관 #오픈도어북스 #키코야네라스 #KikoLlaneras #이소영 #컬처블룸 #컬처블룸서평단


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo