벌거벗은 통계 - 숫자의 난세를 이기는 지혜로운 통찰
발터 크래머 지음, 염정용 옮김 / 이순(웅진) / 2009년 6월
평점 :
품절


사실을 솔직하게 제시하는 것은 능력이 아니라 의지의 문제이다. 그런데 수맣은 데이터 범죄자들에게는 이러한 의지가 전혀 없어 보인다. (!4)
......
그러나 인류의 구원자들만 사정을 실제와 다르게 보여주고 싶어하는 것은 아니다. 그린피스 시위자 또한 사냥에서 돌아온 사냥꾼이나 주주총회를 앞두고 성과를 올리지 못한 기업 회장과 다를 바 없는 유혹을 느낀다. 바람을 피운 배우자도, 고객을 끌어들여야 하는 요양원 원장도, 속도제한 찬반양론에 시달리는 `독일자동차클럽ADAC` 회장도 모두 마찬가지이다. 데이터가 있는 한, 데이터 조작도 항상 있다. (16)

다른 예로, "1990년 제조업 임금상승률은 20.2%인 데 비해 노동생산성은 12.9% 상승해 임금상승률이 7.3%P 높았다"고 표현하는 것도 잘못되었다. 퍼센트끼리의 비교는 계산한 데이터가 같을 경우에만 가능하다. 따라서 임금상승률과 생산성이라는 각기 다른 데이터를 동일한 변수로 취급하여 뺄셈을 해선 안 된다. 무엇보다도 퍼센트의 퍼센트를 계산하는 것은 사태의 본질을 가장하거나 왜곡할 소지가 다분하므로 주의해야 한다. 수익률이 4%에서 5%로 1%P 상승했더라도 퍼센트의 퍼센트를 계산하면 25%라는 엄청난 숫자가 나온다. 이렇게 거창해진 숫자를 믿고 섣불리 투자를 결정한다면 큰 손해를 볼 수도 있다. (34)

저 유명한 `실험 대상자의 80퍼센트`가 ... 중 하나를 선택했다는 이야기에서부터, 일요일에 자발적으로 무임금으로 일하는 데 동의한 종업원 수가 100퍼센트라는 내용에 이르기까지, 이 모든 퍼센트들의 목적은 모두 같다. 즉, 그러한 퍼센트가 생겨나게 된 데이터베이스를 숨기기 위한 것이다.
33.3퍼센트와 66.6퍼센트에 있어서는 각별히 주의를 기울여야 한다. 이 수치를 통해 숨겨지는 데이터는 확실하게 아니라는 것이 밝혀지기 전까지 아마도 3이라는 크기를 가질 것이다. (70)

많은 경우에서 산술평균은 심한 뷸균등을 은폐한다. 그것은 평균 주변의 분포에 관해서는 전혀 말하지 않는다. 만약 우리 마을에 열 명의 농부가 있는데, 그 중 한명이 40마리를 소유했고 나머지 아홉 명은 한 마리도 갖고 있지 않더라도, 평균적으로는 각자 소 네 마리씩 가진 것으로 나타난다. ... 수치들이 중심 주변에 촘촘히 모여 있는지, 아니면 여기저기 흩어져 있는지에 따라 분명한 차이가 있음에도, 평균값만 봐서는 그 차이를 알아차릴 수 없다. (78)
......
그러므로 분포가 제시되지 않는 평균값은 절반의 가치밖에 없다. 진정 가치 있는 평균값에는 편찻값도 항상 따라붙어야 마땅하다. 그게 어떤 값인지는 상관없다. 하지만 어떤 경우라도, 평균값만 주어졌다면 늘 조심해야 한다. (79)


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo