-
-
통계학의 피카소는 누구일까 - 20세기 과학혁명을 이끈 통계학 영웅들의 이야기
데이비드 살스버그 지음, 박중양 옮김 / 자유아카데미 / 2011년 2월
평점 :
품절
http://blog.naver.com/julcho/40206339251
수학 과학에는 딱히 흥미가 없고 고등학교 가서는 절대로 카이스트에는 가지 않겠어 라고 결심하고 한의대에 들어와서 수학과 과학과는 완전히 이별했다고 쾌재를 불렀었던 내가 십여년이 지나서 통계학의 피카소는 누구인가 같은 책을 읽고 피셔에게 찬란한 경외와 깊은 열패감을 느끼고 있다니 ...10년전에는 상상하지 못했던 풍경.
통계를 배우면 처음에는 어떤 경우에 무슨 통계법을 써야 하는지 혹은 SPSS 를 어떻게 써야 하는지에만 관심을가지다가 조금씩 수식이 나온 복잡한 책들을 기웃거리게 된다. 하지만 정작 통계학자들이 무슨 생각을 가지고 이런 통계분석법을 만들어냈는지 알 수 있는 책은 없었다. 두꺼운 통계학 책 몇권은 보고 나서야 던지게 되었을 근본적인 질문들. 왜 이런 통계법이 생겼을까? 이런 통계분석 방법은 만들지 않을 수 없게 했던 문제점은 뭐가 있었을까? 그리고그건 어떻게 해결되었을까 하는 질문들에 대해 이 책은 작가가 통계학의 발전사를 처음부터 훑으면서 질문을 제기하고 해답을 찾아간 과정을 보여준다.그래서 이책을 다 읽고 나니 통계책들에 쓰여져 있는 분석 방법이 너무나 감사하고 친근하게 느껴진달까? 마치 한글이 있다는 것에 감사하고 한글을 만든세종대왕에게 감사하듯이?
특히나 이책은 한의사들은 꼭 한번은 읽어봐야 하는 책이 아닐까 싶다. 통계혁명이 일어나서 가설 검정과 같이 요즘들어 보고 있는 통계책들에 쓰여진 기본개념이 개발된지 이제 100여년. 그것은 갈릴레이의 지동설처럼 연구에 있어서의 통계'혁명' 이었던 것 같다. 지금에 와서야 너무나 당연한 개념들이지만 그 당시에는 진실에 접근하기 위한 새로운 길들이 열렸던 것이다.
역자후기에도 그런 말이 나온다 "통계혁명으로 인한 세계관의 변화와 과학의 발전은 ...(중략) 나는 독자들이 통계혁명과 동반된 세계관의 변화를 이해하고, 이것이 독자의 세계관과 연결되기를 기대한다. "
그 전에는 아무리 한의사들이 객관적으로 치료 효과를 검증하려고해도 가설 검증이라는 개념이 없었기 때문에 고전적의 의서의 형태 즉, 지금으로써는 케이스 시리즈의 형태 외에는 방법이 없었다. 의학에서 통계혁명의 수혜를 누렸듯이 한의학에서도 이제는 더 이상 미룰 수 없는 때가 오고 있다. '
중간에 토머스 쿤의 <과학혁명의 구조> 내용을 정리한 구절이 있다. (308) '쿤은 저서에서 현실은 너무 복잡하기 때문에 하나의 체계적인 과학적 모형으로 표현할 수 없다고 주장했다 과학은 현재 가지고 있는 자료를 잘 설명하고 미래를 예측하는데 유용한 모형을 만들어 낼 뿐이다. 어떤 모형도 완벽하지 않으며, 새로운 자료를 수집하는 순간 기존모형을 수정할 준비를 해야 한다. 예외적 상황을 고려하기 위해 직관적으로도 어색하게 기존모형을 확장함에 따라 기존모형은 계속 복잡해지고 그 유용성을 잃게 된다. 이때 독창적인 사고를 가진 사람들이 완전히 다른 새로운 모형을 제시하게 되는데 이 새로운 모형이 과학혁명이라는 것이다. ' 라는 내용이다.
음양오행으로 대표되는 한의학에서의 패러다임이 송대 교정의서국 이후 형이상학적인 이론에 매몰되면서 실제적 치료효과보다 사변적으로 변화하게 되었고, 시간이 지나면서 점점 복잡해지고 유용성을 잃게 된것이 아닌가 싶다. 최근까지는 음양오행이 한의학을 관통하는 절대적인 패러다임이라 믿어 의심치 않았던 것에 비해 90년대 후반 학번의 한의사들에게는 그것이 의심의 대상이 되고 납득하기 어려운 패러다임이 된다. 그 이후 세대의 한의사들은 점점더 현대한의학으로의 패러다임을 전환하고 있다.
그리고 그 패러다임의 전환을 기존의 임상의들은 자신에 대한 공격으로 받아들인다. 입증할수도 없고 서로 절대로 양보하지도 않을 음양오행이 옳고 그르고에 대한 논쟁을 벌이는 것보다 이전의 세대에게 통계혁명으로 인한 세계관의 변화를 이해시킨다면 나와 나의 스승이 치료했던 결과가 의학적 결과의 전부가 아님을 받아들이게 되지 않을까? 이전세대와 이후세대의 소통은 통계혁명으로 인한 세계관의 변화에 대해 이해하는 것에서부터 시작하지 않을까? 이제는 통계혁명의 과실을 받아들여 무엇이 되고, 무엇이 안되는지 바닥부터 다시 확인해 나가야 할 "한의학혁명" 이 일어날 시간이 아닐까?
하는 생각이 들게 하던 책이다.
칼 피어슨이 피셔의 논문들을 보고 했던 행동들도 참 공감이 갔던 부분이다. 이해할 수 조차 없는 천재가 나타나서 지금까지 자기가 이룬 모든 것들이
보잘 것없는 발자취가 될것에 대한 두려움에 어떻게든 그를 깎아내리고, 자신의 저널에 논문을 게재해주지 않고 , 게재해주더라도 자신의 논문에 부록같은 보잘것 없는 발견으로 보이게 하는 행동들에서 거대한 천재 앞에서 그가 느꼈을 두려움과 열패감이 이해가 된다.
(65) 피셔는 5년간 로뎀스테드의 통계부서를 눈부시게 발전시켰으며, 예이츠 같은 공동연구자들을 채용했다. 예이츠는 피셔의 도움을 받아 통계분석의이론과 응용 모두에서 뛰어난 업적을 남기게 된다. 예외가 없는 것은 아니지만 칼 피어슨의 대부분의 제자들은 그저 그렇게 있다가 사라졌다. 골튼 생물통계연구소에서 연구한 그들은 단지 칼 피어슨의 연장선상에 불과했기 때문이다. 하지만 대부분의 피셔의 제자들은 피겨의 격려속에서 독자적인 자신의 길을 개척했다.
하지만 그 피셔가 나중에 네이만에게 똑같은 짓을 하는건 아이러니.
이 책의 마지막은 이렇다 1947년 피셔의 BBC 강의이다.
"과학연구는 어떤 면에서 독특합니다. 과학연구의 목적은 자연에 대한 지식을 증진하는데 있습니다. 하지만 이런 지식의 증진이 요령 있게 일어나는 것이아니기 때문에 감정적으로 상처를 입기도 합니다. 왜냐하면 지금까지 옳다고 생각했던 것들이 더 이상 유효하지 않게 되거나 심지어 틀린 것이 되는 것을피할수 없기 때문입니다. 내가 생각하기에 대부분의 사람들은 이를 잘 알고 있으며, 십년 이상 가르쳐 온 것을 수정하는 것도 감수합니다. 하지만 어떤 사람들은 이런 것을 자존심에 상처를 입히거나 자신들의 영역을 침범하는 것으로 받아들이고, 자신의 영역을 침범당한 울새나 되새처럼 강하게 반발해야 한다고 생각합니다. 하지만 그래보았다 별 뾰족한 수는 없습니다. 왜냐하면 과학연구의 본질이 본래 그런 것이기 떄문입니다. 젊은 과학자들은 명심하십시오, 인류의 번영에 도움이 되는 것을 제시하더라도 누군가가 자신을 매도할 것이라는 것을 "
마지막 장을 읽고 나서 부끄럽게도 이미 한참 전에 읽었어야 할 책 <과학혁명의 구조>를 주문했다. 그리고 이제 생명과학 연구를 위한 통계적 방법을 읽을 때가 왔다.
[2장 기운분포]
(35) 칼 피어슨이 일으킨 혁명에서 지금까지 남아있는 것은 과학연구의 대상은 관찰하는 실체가 아니고 관찰결과의 분포라는 아이디어다.
오늘날 의학자들은 어떤 의학적 치료가 생존율에 미치는 영향을 알아보기 위해 분포를 포함하는 수학적 모형을 사용한다. 양자역학을 연구하는 물리학자들은 입자를 분포로 나타내고 있다. 과학의 어떤 분야도 이 혁명을 비켜가지 못했다. 확률분포를 사용하는 것은 임시방편이며 종국에는 19세기적 결정론적 세계관으로 돌아갈 것이라고 주장하는 과학자가 없는 것은 아니다. 신은 우주를 관장하기 위해 주사위를 던지지 않는다는 아이슈타인의 유명한 말은 이런 시각을 보여주는 한가지 예이다. 하지만 대부분의 사람들은 임의성이 자연의 본질이며 유일한 실체는 분포라고 믿고 있다. 근본 철학이 무엇이든 분포와 모수에 관한 피어슨의 혁명적 아이디어는 20세기 과학을 지배하게 되었고 21세기에 접어든 지금도 여전히 그러하다는 것은 부정할 수 없는 사실이다.
[3장 친애하는 고셋선생]
student t-test 에서의 student 가 가명이라는 이야기는 익히 들어 알고 있었지만 student 의 유래에 대해서 알 수 있었음.
고셋이라는 수학자이자 화학자가 기네스 맥주 회사에 취직했고 표본으로 채취한 배양약에 든 효모의 수가 포아송 분포를 따른다는 것을 알아냈지만 회사방침상 회사기밀에 대한 논문을 투고하는 것이 금지되어 있어서 [바이오메트리카]에 student 라는 익명으로 투고하게 되었다.
(42-3) 자료가 나온 ★분포의 평균과 표준편차가 무엇이든 (심지어 정규분포 하지 않더라도) 평균과 표준편차의 추정값의 비가 특정한 분포 (즉 t-분포)를 한다는 사실을 발견했다.
이것을 student t 분포인데 이 발견이 없었다면 통계분석은 무한히 반복되었을 것이다. 이것은 ★통계분석이 한 단계로 종료한다는 위대한 발견.
[7장 피셔의 승리]
(79-81) 피어슨은 분포를 그가 분석하고자 하는 실제자료를 나타내는 것이라고 생각했다. 하지만 피셔는 분포는 추상적인 수식이며 자료는 이 분포의 모수를 추정하기 위해 사용될 뿐이라고 생각했다. 피셔의 관점에 따르면 모든 추정값은 오류를 가질 수밖에 없다. 따라서 피셔는 이 오류를 최소화하여 참값에 가까운 추정값을 구하는 방법을 개발해야 했다. 1930년대에는 피셔적 관점이 이 논란에서 이기는 듯했지만, 1970년대가 되면서 피어슨적 관점이 부활하게 된다. (중략) 이글을 쓰는 현재 통계학계는 이문제로 분열되어 있다. 피어슨적 관점에 내재된 혼란의 잔재를 제거한 것은 피셔의 명확한 수학적 관점이었다.
피어슨은 측정값의 분포를 실체라고 생각했다. 그의 연구에는 항상 규모가 크긴 하지만 유한한 자료의 전체집합이 상정된다. 가능하다면 과학자들은 이전체집합에 속하는 모든 자료를 모아서 분포의 모수를 계산한다. 만약 모든 자료를 다 수집할 수 없다면 전체집합을 잘 대표하는 크기가 큰 표본자료를 수집한다. 전체집합을 잘 대표하는 대규모의 표본자료에서 계산한 모수는 전체집합에서 계산한 모수와 일치할 것이다. 그리고 전체자료에서 모수를 계산하는 방법과 같은 방법으로 표본자료에서 계산하면 오차가 거의 없을것이라는 것이 칼 피어슨의 관점이다.
피셔는 수집된 측정값은 모든 가능한 측정값의 집합에서 임의로 추출한 것이라고 생각했다. 따라서 임의로 추출한 자료에서 계산한 모수의 추정값도 임의성을 가지며 확률분포를 가진다. 모수와 추정값을 구별하기 위해 피셔는 추정값을 통계량이라 불렀다. 현대 통계학에서는 추정량이라 부른다. 예를 들어학생들이 얼마나 많은 지식을 쌓았는지(모수)를 판단하기 위해 여러번 시험을 치르고 (측정), 그 시험점수의 평균(통계량)을 계산하는 경우를 생각해보자. (중략) 통계량이 임의성을 가지기 때문에 통계량의 값 하나가 얼마나 정확한가를 판단하는 것은 무의미하다. 이것은 단 한번 측정해서 그 측정이 얼마나 정확한지 판단할 수 없는 것과 마찬가지다. 대신 통계량의 분포에 기반을 둔 기준이 필요하다. 이는 집단을 구성하는 개개측정값이 아니라 측정값의 분포로집단을 평가해야 한다는 칼 피어슨의 생각과 다르지 않다.
(80) 피셔가 제시한 좋은 통계량이 갖춰야 할 조건
일치성 - 자료를 많이 수집하면 할수록 통계량이 모수에 가까워질 확률이 더 커진다.
비편향성 - 여러 표본자료에서 구한 통계량의 값의 평균을 구하면 모수와 가깝다
효율성 - 통계량의 값들이 모수와 일치하지는 않지만 여러번 계산한 통계량의 값을 전체적으로 보면 모수와 많이 다르지 않다.
(82) 최대가능도 추정량
피셔는 피어슨이 모수를 추정하기 위해 사용한 통계량이 일치성이 결여되거나 편향된 경우가 있고 그보다 더 효율적인 통계량이 존재한다는 것을 알게 되었다. 비편향성을 보장하지는 않지만 일치성과 효율성을 만족하는 통계량으로 피셔는 최대가능도추정량을 제안
피셔는 정칙조건을 만족하기만 하면, 최대가능도 추정량은 항상 일치성 기준을 만족할 뿐 아니라 가장 효율적이라는 것을 증명
최대가능도추정량이 편향을 가지면 편향의 정도를 계산할 수 있을 뿐 아니라 편향이 없도록 최대가능도추정량을 수정할수 있다는 것도 증명
그 결과 세가지 기준을 모두 만족하는 추정량을 얻을수 있게 되었고 짧은 시간에 가장 중요한 모수추정법이 되었다.
하지만 최대가능도추정량을 구하기 위해 풀어야할 수학적 문제가 만만치 않았으며 (중략) 피셔가 분산분석과 공분산분석을 위해 개발한 알고리즘은 정말놀라운 수학적 성과다.
이 와중에 등장한 컴퓨터는 "반복 알고리즘" 으로 쉽게 최대가능도 추정량을 구할수 있게 했다.
[8장 치사량]
블리스의 프로빗 분석 - 가장 중요한 모수는 LD50. 50% 정도가 사망하는 용량
불확실성을 추가하여 파라켈수스의 원리(무엇이든 용량에 따라 독이 될 수도 아닐 수도 있다)를 구현한 최초의 통계모형
[9장 종모양곡선]
(98-99) 중심극한정리 - 자료가 어디에서 나왔든지 평균의 분포가 정규분포로 근사된다는 것. 정규분포는 라플라스의 오차함수와 동일한 분포인데 때로는 가우스 분포라고 불린다. 18세기 후반 드무아브르가 도박에서 수집한 자료에 중심국한정리가 성립한다는 것을 증명한 이후 150년간 진척이 없었다.
1930년대 초만해도 증명된 것이 아니었지만 누구도 의심하지 않는 그런 것.
정규분포는 칼피어슨의 네개의 모수 중에 평균과 표준편차를 모수로 갖고 대칭도와 첨도를 나타내는 모수는 0이다.
평균과 표준편차만 알면 정규분포의 모든 것을 알게 되는 것.
피셔는 자료에서 구한 평균과 표준편차가 모수 평균과 표준편차의 추정값이며 충분성을 갖추고 있다는 것을 증명했다.
이는 ★ ★자료가 모수에 관해 가지고 있는 모든 정보를 이 두 추정값이 가지고 있으므로 자료에 관해서 이 두 추정값을 구하고 나면 자료를 더 이상 보관하지 않아도 된다는 것을 의미한다. 그리고 ★ ★평균과 표준편차 두 모수를 정밀하게 추정할 정도의 자료만 수집하면 더 이상의 자료를 수집할 필요도 없다는 것이다. 예를 들어 정규분포의 두 모수를 소수점 아래 두자리까지 정밀하게 추정하고자 한다면 약 50개 정도의 자료만 수집하면 된다.
(103) 1934년 정규분포를 사용하려면 통계량이 린드버그 - 레비 조건을 만족해야 한다는 것을 밝혀내었고 1948년 호에프딩은 다시 그것이 U-통계량인지만 확인하면 되는 것을 밝혀내었다 호에프딩의 조건을 만족하는지 확인하는 것은 어렵지 않다.
(107) 운용연구 - 화이자에 근무할 때도 나는 약학 연구방법을 개선하고 신약의 효능을 검증하는 여러 프로젝트에 참여했다. 이런 프로젝트에서 무엇보다필요한 것은 조건이 만족되는지를 보고 정규분포를 사용하는 것이었다.
[10장 적합도검증]
(110) 통계혁명이 일어나기 전에는 과학혁명이 연구하는 실체는 수집된 자료나 그 자료를 생성한 물리적 사건이라고 생각했다. 통계혁명으로 인해 자료의 분포와 그 모수가 과학연구의 대상이 되었다. 정밀한 측정이 가능해지면 연구대상인 물리적 실체를 좀 더 잘 이해할 수 있게 될 것이라는 것이 결정론적관점이다. 하지만 통계적 관점에서 모수는 반드시 어떤 물리적 실체에 대응할 필요가 없으며 아무리 정밀한 측정도구를 사용하더라도 모수의 측정에는 오차가 동반될 수밖에 없다.
예를 들어 결정론적 관점에서 물체가 낙하할때 중력상수라는 고정된 값이 개입하지만, 통계적 관점에서 중력상수는 상수가 아니다. 중력상수는 측정시마다 다른 값이 얻어지며 이 다른 값들의 분포가 바로 지상으로 낙하하는 물체를 이해하기 위해 필요한 것이다.
(112) 혼돈이론을 이런식으로 응용한다면 곧바로 혼돈이론의 약점이 드러나고 만다. 실제 자료에서 나온 패턴과 자신들이 찾았다는 방정식에서 나온 패턴이 얼마나 잘 들어맞는지 평가할 측도가 없기 떄문이다. 그들이 한 것이라곤 독자들에게 두 그래프를 보여준 것 뿐이다. 통계분석에서 시각적 비교가 틀리기 쉽다는 것은 잘 알려진 사실이다.
(112-3) 카이제곱검정 - 칼 피어슨의 적합도 검정
자료에서 관찰된 것과 이론에서 예측된 것을 비교하여 적합도를 검증할 수 있는 통계량. 가설검증이라는 분야에서 선구적인 연구이다. 가설 검증은 과학자가 실세계에 대한 서로 다른 두개의 수학적 모형을 염두에 둘 수 있게 해주며, 자료를 바탕으로 그 중 하나를 기각할 수 있게 해준다.
기운분포의 일부분인 카이군에 속해서 그리스문자 카이를 이름으로 사용했으며 카이군에 속하는 분포를 하는 변수를 제곱한 것과 비슷한 특성을 가져서카이제곱이란 이름을 붙임
카이제곱 통계량의 분포는 한 개의 모수를 가지고 있는데 이 모수를 피셔는 자유도라고 부름
(114) 중요한 것은 ★ ★ ★가설검정은 가설을 기각하는 도구라는 것. 가설검증은 가설을 받아들이기 위한 것이 아니다. 따라서 가설과 관련된 확률이 크게 나왔다고 하더라도 그 가설을 옳다고 할 수는 없다.
(114-6) 유의성의 의미
유의적이라는 단어는 19세기 후반에 사용된 영어로 본래 "계산결과가 뭔가 의미 있는 것을 보여준다" 라는 뜻이었지만 20세기에 접어들면서 "매우 중요하다" 라는 새로운 의미를 갖게 되었다. 요즘 통계분석에는 현재적 의미의 유의하다라는 용어를 사용하는 경우가 많다.
20번에 한번 정도 우연히 일어나는 결과를 유의적이라고 하는 것이 통상적인 관례다. ★ ★ 그렇다고 실험을 20번 할때마다 한번은 현혹당하겠다는 것을의미하지는 않는다. 유의성 검정은 어느 것을 무시할 것인가를 알려준다. 말하자면 유의적 결과가 나오지 않은 시험은 무시해도 좋다는 것이다. 연구자는유의적인 실험결과가 나오도록 실험을 설계할 수 있을 때만 자기가 보여주고자 하는 것을 실험으로 보여주었다고 주장할 수 있다. ★ ★ 따라서 유의적인결과라 하더라도 같은 결과가 다시 나오도록 할 수 없다면 이결과는 더 연구해야 하는 미결상태인 것이다.
피셔가 생각하는 유의성 검정의 핵심은 특정처리의 효과를 규명하기 위해 한번이 아니라 일련의 실험을 실시할 때 의미를 가진다는 것이 피셔의 견해
피셔는 P 값이 아주 작으면 보통 0.01 보다 작으면 효과가 드러났다는 결론을, P값이 크면 (보통 0.2보다 크면) 효과가 있더라도 이정도 규모의 실험으로는 발견할 수 없을정도로 효과가 작다고 결론을 내린다. 만약 P 값이 그 중간이면 다음 실험을 어떻게 하면 효과를 좀 더 잘 알아낼수 있을까에 대해 생각한다.
[11장 가설검증]
(124) 단지 가설이 자료와 배치되지 않는다고 해서 그 가설이 사실임을 증명했다고 하는 것은 과학적 논리로 보나 통계적 논리로 보나 분명한 논리적 오류다. 유의성 검증은 가설이 자료와 배치될 떄 그 가설을 기각할 수는 있지만 가설이 옳다는 것을 확인할 수는 없다. 이런 사실을 이해한다면 유의성 검증을제대로 보는 것이다.
# 자료는 정규분포를 따르는가?
(125) 칼 피어슨은 때때로 자료가 특정 분포를 따른다는 것을 증명하기 위해서 카이제곱적합도 검증을 사용했다. 피셔는 그 방법을 그대로 받아들이지 않았다 (중략) 어떤 모수를 추정해야 할지 그리고 그 모수가 과학적 문제와 어떤 관계를 가지고 있는지 알기 위해서는 자료에 특정 분포가 잘 적합된다는 가정이 필요하기 때문이다. 이런 경우 통계학자들은 유의성 검증을 사용하고픈 유혹을 느끼게 된다.
(125) 가설 검증과 관련한 네이만의 가장큰 업적은 적어도 두개의 가설이 있어야만 유의성 검증이 의미를 가진다는 것을 발견한 것이다. 자료에 정규분포가 적합한지 검증하기 위해서는 자료에 적합할 것이라고 생각되는 다른 분포가 있어야 한다는 것이다.
# (126) p-value 와 검증력
p 값은 귀무가설을 검증하기 위해 계산하지만 검증력은 대립가설이 참일 때 p값이 어떻게 되는가를 나타낸다
네이만은 두가지 결론을 내리게 된다.
1) 한 검증법의 검증력은 그 검증법이 얼마나 좋은가에 대한 측도이며 검증력이 큰 검증법이 더 좋은 검증법이라는 것이다
2) 대립가설이 너무 큰 집합이면 안된다는 것이다. 예를 들어 자료가 정규분포에서 나왔는지( 귀무가설) 아니면 정규분포가 아닌 분포에서 나왔는지(대립가설) 검증하기는 쉽지 않다. 왜냐면 대립가설에 해당하는 가설들이 너무 많아서 이 모든 가설에 대해 높은 검증력을 보이는 검증법이 존재하기 어렵기 때문이다.
# 확률의 빈도론적 정의
(129) 네이만이 허수아비 귀무가설을 검증하기 위해서는 잘 정의된 대립가설을 설정해야 한다는 것을 발견한 것이다.
피셔는 가설검증에 대한 네이만의 관점을 제대로 이해하지 못했다. 그는 유의수준에만 관심을 가졌고 훨씬 중요한 검증력과 대립가설이라는 개념을 간과하고 말았다.
(130) 네이만은 자신의 가설검증법이 과학연구에 고정관념처럼 자리잡는데 전혀 관여하지 않았다. 1935년 프랑스수학회보에 최적 가설검증법을 찾지못할지도 모른다는 회의적인 시각을 토로했으며 그 후 발표된 논문에서는 가설검증을 거의 사용하지 않았다
네이만과 이곤 피어슨이 정립한 가설검정법의 철학을 받아들이고 발전시킨 사람들은 다른 사람들이었다. 왈트는 통계적 의사결정이라는 분야를 개척했고, 레만은 검증법을 평가하는 새로운 기준을 소개했으며 1959년 가설검증을 집대성한 훌륭한 책을 출판했다. 이 책은 네이만과 이곤 피어슨이 정립한 거설검증법에 관한 최고의 책으로 평가받고 있다.
[12장 신뢰수준이란 속임수]
(139-140) 신뢰구간과 관련된 확률의 의미는 무엇인가?
네이만은 후속논문에서 신뢰구간은 계산된 하나하나의 신뢰구간이 아니라 이들을 구하는 하나의 과정으로 보아야 한다고 말했다.
95% 신뢰구간을 정기적으로 계속해서 구하면 계산한 신뢰구간의 95%가 모수를 포함할 것이라는 것이다.
네이만의 설명에 따르면 신뢰구간과 관련한 확률은 그 신뢰구간이 옳을 확률이 아니라 신뢰구간을 장기적으로 많이 구할 때 옳은 결과를 얻게되는 빈도인것이다. 구간추정이 얼마나 정확하냐 하는 것과도 전혀 상관이 없다.
(중략) 과학연구에 신뢰구간이 널리사용되면서 잘못된 생각을 갖는 사람들이 많아졌다. 95% 신뢰구간을 구하고서는 이 구간 내에 모수가 있을 것이라는것을 95% 확신한다고 말하는 사람들이다.
[13장 베이즈 정리에 기반을 둔 이단적 통계학]
(144-5) 베이즈가 발견한 것은 후사건이 일어났다는 조건하에서 전사건의 확률을 계산하는 수식이었다. 시간에 따른 발생순서를 보면 전혀 이치에 닿지않는다. 한 환자에게서 폐암이 발생했을 때 그 환자가 흡연자였을 확률을 계산하는 것과 같다. 베이즈는 이 수식을 별로 중요하게 생각하지 않았다
(중략) 라이증후군과 같이 희귀한 질병의 원인을 규명하고자 할 때 대부분의 경우 환자 - 대조군 연구를 한다. 대조군에 속하는 환자에게서 질병이 발생할때 (번역에 문제가 있는 듯?) 그 환자가 어떤 조건에 있었을 확률이나 어떤 처리를 받았을 확률을 계산하는 것이다. 흡연이 심장병과 폐암에 영향을 끼친다는 것도 이와같은 방법으로 알아낸 것이다. 탈리도마이드가 기형아 출산에 영향을 준다는 것도 환자 - 대조군 연구를 통해서 알아낸 것이다.
베이즈 정리는 후사건을 조건으로 전사건의 확률을 계산할 때보다 모수를 추정할 때 더 중요한 역할을 한다. 분포의 모수가 고정된 값이 아니고 임의성을내포하고 있다고 보는 시각도 있다. 이런 시각하에서는 모수와 관련한 확률을 계산해야 한다. 예를 들어 두가지 암치료법을 비교해서 A치료법 5년 생존률이 B치료법 5년 생존률보다 더 크다는 것을 95% 확신한다고 말하고 싶을 때 베이즈 정리를 적용할 수 있다.
[14장 수학의 모차르트]
(160) 콜모고로프 - 당시 통계학자들은 통계적방법을 적용하기 위해 모든 자료가 독립이라고 가정하고 있었다. 하지만 대부분의 자료는 그렇지 않다. 시간에 걸쳐 측정함으로써 이전 자료와 연관을 갖는 그런 자료를 확률과정이라 불렀다. 콜모고로프의 빛나는 연구 덕분에 시간에 걸쳐 수집한 자료를 분석할수 있게 된 것이다. 사람들은 확률과정을 이용해 캘리포니아 해변에 부서지는 파도로부터 인도양에서 발생한 태풍의 위치를 찾으려 시도했다. 지진계에기록된 지진파가 지진에 의한 것인지 지하핵실험에 의한 것인지 식별할 수 있게 되었다. 오늘날의 공학계 학술지는 콜모고로프의 확률과정 연구에서 기원한 여러방법을 이용한 논문으로 가득하다
# (161) 실세계에서 확률은 무엇인가?
이 문제가 해결되지 않으면 과학연구를 위한 모든 통계적 방법은 자체의 비일관성으로 인해 무너질지도 모른다.
확률이 실세계에서 갖는 의미를 찾는 것은 매우 중요한 문제이다. 왜냐하면 통계분석결과의 해석이 확률에 의존하기 때문이다.
(162) 예를 들어 새로운 에이즈 치료제의 효과를 알아보기 위한 임상시험에서 기존 치료제와 새 치료제의 효과 차이가 유의적이라는 결과가 나왔다고 하자. 이 결과는 새 치료제가 다른 환자에게도 효과가 있을 것임을 의료계가 확신할 수 있게 해주는가? 아니면 일정부분의 환자에서만 새 치료제의 효과가나타날 것이라는 것을 뜻하는가? 아니면 실험 대상이었던 환자들에게만 새 치료제의 효과가 나타났다는 것을 의미하는가?
[16장 모수없애기]
(178) 윌콕슨은 t-통계량과 분산분석공식 들을 검토한 결과 이상값들이 결과에 큰 영향을 준다는 것을 알아냈다. 이상값이 있으면 통계량의 값이 작아지는 것이었다. (일반적으로 통계량의 값이 클 때 작은 유의확률이 얻어진다 ) 이럴때면 이상값을 뺀 나머지 자료로만 검증하고 싶은 유혹을 느꼈다. 하지만이상값을 빼고 검증하는 것은 가설검정에 새로운 문제를 제기할 것이다. 한 관찰값이 이상값이라는 것은 어떻게 판단할 수 있는가? 이상값을 제거했을 때도 기존 확률분포표를 이용해서 유의확률을 계산할 수 있는가?
(180) 윌콕슨과 맨 - 휘트니 검증은 밀접하게 연관되어 있을 뿐 아니라 동일한 유의확률을 산출한다는 것이 밝혀졌다. 윌콕슨의 논문이 발표되기 전까지모든 검증은 모수의 추정값에 기반을 두어야 한다고 생각했다. 하지만 윌콕슨 검정과 맨 - 휘트니 검정은 어떤 모수도 추정하지 않는 방법이었다. 이 두 검증은 관찰된 자료의 분포와 임의적 상황에서 얻어지는 자료의 분포를 비교하는 비모수적 검증법이었던 것이다. 이제 통계혁명은 칼 피어슨의 생각을 뛰어넘는 발전을 이루게 된것이다. 즉 모수를 도입하지 않고도 분포를 다룰 수 있게 된 것이다.
윌콕슨과 맨, 그리고 휘트니는 순위의 본질에 대한 관심을 이끌어 냄으로써 새로운 통계적 연구분야를 등장시켰다.
(중략) 체르노프와 세비지는 윌콕슨 검증통계량이 순서통계량의 평균이라는 것을 발견했으며 그 결과 모수를 추정하지 않고도 여러 분포를 비교할 수 있도록 비모수적 검증법을 확장할 수 있었다. 1960년대까지 비모수적 검증(현재는 분포무관검증이라고 부른다) 은 엄청난 관심을 받았다
# (181-2) 해결되지 않은 문제들
1) 자료가 정규분포와 같은 분포를 따를 때 비모수적 방법을 사용하면 그 결과가 얼마나 틀릴 수 있는가?
2) 자료가 모수적 모형에 어느 정도 적합하지 않을 때 비모수적 방법이 모수적 방법보다 더 좋은 결과를 주는가?
(183-4) 피트만이 발견한 사실은 놀랍게도 비모수적 검증이 모수적 검증과 비모수적검증이 거의 같은 정도로 좋다는 것이었다. 적절한 모수모형을 아는경우 비모수적 검증을 사용하면 얼마나 나쁜 결과를 얻는지 그리고 이 경우 반드시 모수적 검증을 사용해야 하는가 하는 질문에 피트만이 얻은 답은 전혀그렇지 않다는 것이었다.
두번쨰 질문에 대한 답은 더더욱 놀라운 것이었다. 피트만은 모수모형과 자료가 조금만 차이가 나더라도 비모수적 방법이 모수적 방법보다 더 좋다는 결과를 얻었던 것이었다.
피트만의 연구결과는 모든 가설검증은 비모수적이어야 한다는 것을 시사했다. (중략) 윌콕슨과 만 그리고 휘트니는 그들의 단순한 방법 깊숙한 곳에 자료의 분포를 가정하고 있었던 것이다.
(중략) 비모수적 방법에 처음으로 충격을 가한 사람은 바하두르와 쌔비지이다.
바하두르와 쌔비지가 발견한 문제는 윌콕슨으로 하여금 비모수적 방법을 생각하게 한 바로 그 문제 즉, 이상값 문제였다. 만약 이상값이 잘 나타나지 않을뿐아니라 완전히 잘못된 관찰값이면 비모수적 방법은 이상값이 분석에 미치는 영향을 감소시킬 수 있다. 하지만 이상값이 자료의 오염으로부터 나타난 것이라면 비모수적 방법은 상황을 더 악화시킬 뿐이다 (번역 문제?)
[17장 부분이 전체보다 더 나은 경우]
(187-8) 모집단을 잘 대표하는 표본추출하기
1) 판단표본 : 모집단에 관한 정보를 바탕으로 모집단을 여러 소집단으로 나누고 각 소집단을 대표하는 표본을 추출하는 방법. 판단표본을 사용하는 대표적인 사례가 닐슨 시청률
전체가구를 사회경제적 지위, 거주지역에 따라 여러 소집단으로 분류하고 각 소집단에서 몇몇 가구를 표본으로 추출하여 조사
일견 모집단을 잘 대표하는 표본처럼 보이지만 두가지 문제가 있다
첫번쨰는 모집단을 소집단으로 분류할 만큼 모집단을 잘 알고 있을 때만 판단표본이 좋은 표본이 된다. 하지만 모집단에 대해 그 정도로 잘 알고 있다면 굳이 표본을 추출할 필요가 있겠는가? 소집단으로 분류할 때 필요한 정보에 대해서는 더더욱 그렇다.
두번째는 더 곤혹스러운 문제인데 판단표본에서 얻은 결과가 틀릴 경우 어느 정도 틀린지 알아낼 방도가 없다는 것이다. 2000년 여름에 실시된 닐슨 시청률 조사는 판단표본에 스페인계 가구가 충분히 포함되지 않아 스페인계 티비 프로그램 시청률이 과소하게 추정되었다는 비판을 받았다.
(188) 2) 임의표본
마할라노비스가 제시한 해결책은 임의표본이었다. 임의 표본에서 구한 결과도 참값과 차이를 보이겠지만 장기적으로는 참값에 가까운 결과를 얻을 수 있다는 통계이론을 적용할 수 있다. 뿐만 아니라 임의 표본에서 구한 결과의 확률분포를 수학적으로 구할 수 있으며 이로부터 참값에 대한 신뢰구간을 구할수도 있다.
(191) 한센의 주도하에 일련의 연구를 실시하였으며 그 결과 소규모의 표본조사가 이전에 사용된 판단표본보다 훨씬 더 정확하다는 결론을 내렸다. 미국노동통계국과 상무부 인구조사국은 임의표집이라는 새로운 세계로 가는 길을 선택했다.
[18장 흡연이 암을 일으키는가?]
# (202-3) 실질적 함의
코흐는 한 병원균이 특정질병을 일으킨다는 결론을 내리기 위해서는 다음 조건을 만족해야 한다고 하였다
1. 그 병원균을 배양할 때마다 특정 질병이 나타난다
2. 특정 질병이 없는 곳에서는 그 병원균이 발견되지 않는다
3. 그 병원균을 제거하면 특정질병이 사라진다.
코흐는 실질적 함의를 기술하고 있다. 하지만 흡연과 폐암의 관계를 논할 때 코흐의 조건은 아무소용이 없다 (중략) 코흐의 조건이나 러셀의 실질적 함의를만족하는 질병은 혈액이나 분비물에서 병원균을 배양할 수 있어야 한다는 조건을 만족하는 것에 국한된다. 심장병, 당뇨병, 천식, 관절염, 각종 암은 이런조건을 만족하지 못한다.
(206) 콘필드의 이 연구논문은 역학연구에서 인과관계를 밝히는 전형적인 사례가 되었다. 비록 각연구가 조금씩의 결함이 있더라도 후속 연구들이 동일한 결과를 보이면 증거는 계속 누적되는 것이다.
# (207) 피셔가 제시한 해결책
피셔도 인과관계에 대해서는 러셀의 영향을 받았으며 실질적 함의가 대부분의 과학연구에 적절하지 않다는 것을 알고 있었다. (중략) 실험설계 원칙을 준수한다면 연구결과에 기반을 두고 인과관계에 대한 결론을 내리는 것이 가능하다고 주장했다.
[21장 가난한 이민자 가정에서 태어난 천재]
(241-2) 사영추적
환자가 병원을 열번 방문하고 병원을 방문할 때마다 약 500가지를 측정한다면 5000개의 측정값이 얻어진다. 만약 2만명의 환자가 실험에 참가했다면 이자료는 차원이 5000인 공간에 흩어진 20,000 개의 점으로 표현된다. 통계분석에서 5,000 정도의 차원은 흔한 일이다. 차원이 증가할수록 모수에 대한좋은 추정값을 구하기 어렵다 . 디아코니스가 소속한 스탠퍼드 그룹은 차원이 5,000이나 되는 실제 자료도 실상 그렇게 혼란스럽게 흩어져 있지 않고 저차원에 모이는 경향이 있다는 것을 알아냈다. 왜냐면 이들 중 상당수는 서로 상관이 있기 때문이다. (프린스턴 대학과 벨 연구소에서 연구한 튜키는 의학분야 자료의 차원은 5를 넘지 않는다고 말한 바가 있다)
이런 안목을 가진 스탠퍼드 그룹은 컴퓨터를 이용하여 자료에 내재하는 차원을 찾아내는 기법을 연구하였다. 그중에서 가장 널리 사용되는 방법이 바로 사영추적이다.
[22장 통계학의 피카소 (튜키)]
(247) 거대한 자료는 어떻게 분석하고 어떻게 자료를 구조화해야 하는가?
컴퓨터는 모든 통계이론을 소용없게 만들 또 다른 면을 가지고 있다. 그것은 대량의 자료를 저장하고 분석할 수 있는 능력이다.
1960-70년대 벨전화연구소에서 거대자료분석법이 개발되기 시작했다. 전화선을 모니터하면서 발생하는 각종 문제와 오류를 기록하면 수백만개의 자료가 얻어진다. 행성 탐사선이 보내는 자료 또한 엄청난 양이다.
이렇게 거대한 자료는 어떻게 분석해야 하는가? 또 이런 자료를 분석하려면 어떻게 자료를 구조화해야 하는가?
칼 피어슨이 했듯이 확률분포의 모수를 추정할 수 있다. 하지만 이 방법은 피어슨 시스템과 같은 특정 분포군에 속한다든지 특정분포를 따른 다는 가정을필요로 한다. 분포를 가정하지 않고 자료로부터만 뭔가를 알아내는 방법은 없을까? 어떤 의미에서 이것은 훌륭한 과학자들이 해왔던 것이다. 멘델은 일련의 식물교배실험결과를 분석하여 점진적으로 우성유전자와 열성유전자에 대한 이론을 도출했다.
대부분의 과학연구는 자료를 수집하고 그 자료에 사전에 예상해둔 분포를 적합하지만, 분포를 적합하는 것보다 뭔가 특이한 사항이 있는지 알아보는 것이중요할 때가 있다
(248-9) 수학자 벨이 "숫자가 거짓말을 하지는 않지만, 속일 의도와 함께 진실을 말하는 경향이 있다 " 라고 지적했듯이 인간은 패턴을 찾는 경향이 있어서 임의적인 잡음에서조차 패턴을 찾아낸다
=> 왜 오행이 만들어졌고, 왜 오행이 문제인가 라는 질문에 대한 이유가 될까?
(중략) 특정분포를 가정하지 않고도 자료의 분포를 검토할 수 있음을 인식한 튜키는 이 문제에 관한 여러편의 논문을 발표하였으며 마침내는 탐색적 자료분석이라는 새로운 분야의 책을 출판했다.
(중략) 도수가 높은 것만 쳐다보게 하는 히스토그램의 문제점을 개선하기 위해 도수의 제곱근을 나타내는 루트그램을 만들었다. 자료의 중심부분을 상자로 표시하고 극단값은 이 상자에서 뻗어나오는 직선으로 표현하는 상자그림도 제안했다. 그가 제안한 상자그림이나 줄기와 잎그림 등은 표준적인 분석도구가 되어 통계패키지에 포함되었다. 그가 만든 두개의 신조어는 공식적 영어단어로 인정받았다. 이진수를 의미하는 비트와 컴퓨터 프로그램을 의미하는소프트웨어라는 단어를 만든 사람이 바로 튜키이다.
[23장 오염문제]
(252-3) 만약 통계분석가의 눈에 옳게 보이는 자료만 선택해서 분석하면 심각한 오류에 빠지게 된다. 1980년대초 스티글러는 18,19세기 위대한 과학자들의 연구노트를 살펴봤다. 스티글러는 대부분의 과학자들이 분석하기 전에 일부 자료를 버렸다는 것을 발견했다. 케플러조차 일부를 버리고 분석했다 하지만 현대과학자들은 뭔가 잘못된 것처럼 보인다고 해서 자료를 버리는 일은 더이상 하지 않는다. 과학자들은 더 이상 자료를 버려서는 안된다고 교육받는다
하지만 몇몇 자료가 분명하게 잘못된 것이라면?
(ex) 두 궤양치료법을 비교하기 위한 쥐실험. 효과가 낮을 것으로 예상되는 집단에 속하는 두마리 쥐에서 나온 자료 때문에 차이가 없었다. 그 두마리 쥐에서는 궤양이 발생하지도 않았을 뿐 아니라 다른 처리를 받은 어떤 쥐보다도 좋은 결과를 보였다. 이런 문제를 해결하기 위해 개발된 것이 비모수적 방법이지만, 이 경우 두개의 자료가 완전히 다른 쪽에 위치해서 비모수적 방법으로도 유의한 결과를 얻지 못햇다. 100년 전이라면 그 약물학자는 두개의 자료를제외한 나머지 자료만으로 분석하였을 것이고 누구도 뭐라 그러지 않았을 것이다.
(중략) <위치에 대한 로버스트 추정 : 개관과 발전> 이라는 책에 바로 그 문제의 답이 있었다
# (257-9)로버스트(robust) 성?
피셔의 사위인 박스가 처음으로 사용한 용어
박스의 업적 중 하나가 바로 로버스트라는 용어를 만든 것. 박스는 많은 통계적 방법이 수학적 이론에 기반을 두고 있으며 이들 수학적 이론들은 분포에 대해 어떤 가정을 하고 있다는 사실에 관심을 갖게 된다. 문제는 분포에 대한 가정이 틀릴 수 있다는 것이다. 가정이 성립하지 않을 때도 그 유용성이 유지되는 그런 통계적 방법은 없는가?
박스는 그런 통계적 방법을 로버스트 하다고 했다.
로버스트라는 개념이 모호하기는 했지만 박스는 그 개념을 너무 구체화하지 않는 것이 좋다고 생각했다. 왜냐면 통계적 기법을 선택할 때 기준이 모호한것이 더 나을때가 있다고 생각했기 떄문이다. 예를 들어 가설검증의 로버스트 성은 오류를 범할 확률로 정의된다.
튜키와 그의 동료들은 명백히 틀린 자료가 있을 때 어떻게 해야 하는가 하는 문제에 도전하게 된다. 그 연구결과는 1972년 <프린스턴 로버스트성 연구>라는 책으로 출판되었다. 이 연구의 근저에는 오염분포가 자리하고 있다. 즉 자료의 대부분은 모수를 추정하고자 하는 분포에서 나왔지만 몇몇 자료는 다른 분포 즉 오염시키는 분포에서 나왔다고 가정하는 것이다.
ex) 미국해군의 새로운 광학거리측정기 사례 - 수백명의 수병들에게 특정 목표물 거리 측정하도록 지시. 하지만 인간의 20%가 약시이고 약시자는 입체이미지를 인식하지 못하므로 측정치의 20%는 잘못된 것이 분명하지만 어떤것이 약시 수병이 측정한 것인지 알 도리가 없었다.
(중략) 그들은 분포의 중심을 추정하는 방법을 연구하다가 가장 자주 사용하는 평균이 오염된 자료에 대해서는 나쁜 추정값이라는 것을 알게 되었다. 10년전에 예일대학을 졸업한 졸업생들의 평균소득을 추정한 1950년대 연구가 전형적인 예이다.
(중략) 통상적으로 사용하는 평균은 오염시키는 분포로부터 나온 단 하나의 이상값으로부터도 많은 영향을 받는다.
(중략) 만약, 극단값들이 잘못된 값들이 아니거나, 극단값들이 오염시키는 분포가 아니라 우리가 알아보고자 하는 분포에서 나온 값들이라면, 그 값들을분석에서 제외하는 것은 편향된 결과를 줄 것이다.
그래서 프린스턴 연구팀은 다음 두가지를 만족하는 해결책을 제시했다
1. 오염시키는 분포에서 나온 측정값이 있을 경우 그들의 영향력을 감소시킨다
2. 오염시키는 분포에서 나온 측정값이 없을 경우에는 올바른 결과를 준다.
[참고] 잔차 : 남아있는 오차라는 의미. 오차라는 단어에 대한 거부감에서 비롯된 단어(253)
[24장 산업계를 개조한 사나이 (데밍)]
# (267) 품질관리의 본질
자동차피스톤을 둥글게 제작해야 한다는 말은 특정 피스톤이 둥근지 아닌지를 측정하는 방법이 없는 한 아무 의미가 없다. 품질을 개선하기 위해서는 품질을 측정할 수 있어야 하고 , 품질을 측정하기 위해서는 먼저 품질과 관련한 특성을 정의해야 한다. 품질특성은 본질적으로 변동을 가지기 때문에 제조공정은 품질특성의 분포와 관련한 모수에 초점을 맞춰야 한다. 칼 피어슨이 모수의 변화로부터 진화의 증거를 찾으려 했던 것처럼 경영자들은 품질특성의 분포와 관련한 모수를 모니터하여야 하며 품질이 개선되도록 제조공정을 수정할 책임이 있다.
# (268) 호손효과
호손공장에서 두가지 경영기법의 차이를 규명하기 위한 연구. 실패로 돌아감. 근로자가 누군가 자신을 관찰하고 있다는 사실을 알고 전력을 다하게 됨.
그 이후 호손효과는 단지 실험이 진행되고 있는 것만으로도 상황이 개선되는 현상을 나타내는 용어로 사용. 임상시험에서 임상시험에 참여하는 것 자체만으로 환자들의 상태가 기존 치료법에 의한 과거 치료효과보다 호전된 결과를 보이는 것.
# (269) 가설검증에 대한 데밍의 관점
네이만과 이곤 피어슨이 개발한 가설검증법에 대해 데밍은 가설검증이 이렇게 광범위하게 사용되는 것을 불만스러워 했다. 왜냐면 가설검증은 잘못된 질문에 초점을 맞추고 있기 때문이다. 그는 "현실에서의 문제는 두 처리의 차이가 유의적인가 아닌가를 알아보는 것이 아니다. 두 처리의 차이가 아무리 작더라도 실험을 많이 하면 그 작은 차이도 유의적으로 나타날 것이다" 라고 지적했다. 유의적인 차이가 있는 것은 아무런의미가 없다. 중요한 것은 차이의정도이며, 한 실험에서 구한 차이의 정도가 다른 실험에서 구한 정도와 다를 수 있다. 고 생각했다. 데밍은 통계적 방법이 문제를 해결하는 방도로 사용되어서는 안 된다고 생각했다. 통계적 방법의 이런 한계는 매우 중요하다 "통계학자들은 문제에 흥미를 가져야 하며, 통계적으로 추론하는 방법 뿐 아니라그 방법의 한계까지도 가르쳐야 한다. 통계적 추론의 한계를 더 잘 이해해야만 통계적 추론을 유용하게 사용할 수 있다 "
[25장 검은옷을 입은 여인이 준 교훈]
(275) 컨리프는 농업실험현장에서 보내오는 자료를 책상에 앉아 분석이나 하고 있을 사람이 아니었다. 자신이 직접 현장에 나가 어떤 일이 벌어지고 있는지 확인해야 하는 그런 성품의 소유자였다 .이제 막 통계학자의 길에 들어선 사람은 그녀의 이런 자세를 본받아야 한다. 여러 계층의 사람을 거치면서 실험설계와 현장에서 벌어지고 있는 일이 얼마나 다른가를 보면 놀랄 것이다.
(277) 연구부서에서 일하던 연구원들의 능력을 비난하는 것은 결코 아니지만 , 내가 오랫동안 더불어 일했던 귀무가설을 세우는 법, 실험설계, 표집법, 세밀한 통계분석, 결과에 대한 엄격한 평가원리들이 사회학 분야에서는 제대로 적용되지 않거나 아예 받아들여지지 않는 것에 놀라지 않을 수 없었습니다.
=> 한의학은 자연과학 분야에서 마지막으로 통계학이 접목되는 분야가 아닐까 싶다.
(279) 통계학자들은 정밀한 수학적 훈련을 받지만 초보자들에게 뭔가를 설명하는데는 무척 서툽니다. 전혀 이해하지 못하는 사람에게 ,p 값이 0.001 보다 작다고 말한다고 해서 그들을 설득할 수는 없을 겁니다. 우리 통계학자들은 우리가 찾아낸 사실을 그들의 언어로 설명해야 하며 그들을 설득할 능력을키워야 합니다.
=> 한의학 임상연구를 하는 사람들은 의사들을 설득시키는 것보다 한의 임상의들을 설득시키는 데 더 애를 먹을지도 모른다. 의사들에게는 좋은 연구방법론을 적용한 명확한 결과만 제시하면 되지만 어떤 한의 임상의들은 '그것은 한의학이 아니다' 라고 말할지도 모른다. 대체 당신이 말하는 한의학은 무엇인가? 하지만 임상연구가 의미를 가지려면 그것이 임상현장을 변화시키고 의료정책을 변화시켜야 의미가 있는데 임상의들을 설득시키지 못하면 목적을달성할 수 없다. 의사를 대상으로 p값이 어쩌고 하는 것보다 임상 한의사들에게 임상연구를 이해할 수 있고 임상에 적용이 될 수 있으며 그것이 치료율을올리고 궁극적으로 '이득' 이 될것이라는 것을 이해시키는 과정이 분명히 필요하다. 연구동향팀 활동은 그러한 논문을 소개하고자 하는 목적, 한의학 위키는 이러한 것이 중요함을 알리려는 목적에 시작한 것. 이제는 그러한 논문을 만들어 내는 일에 직접 뛰어들 때.
[26장 마팅게일의 등장]
# (285-6) 마팅게일?
1. 측정값이 무한히 크거나 작아지지 않도록 변동의 크기가 유한해야 한다.
2. 다음에 생성될 난수의 최적 추정값은 마지막에 생성된 난수이다.
이 두가지 조건을 만족하는 난수의 수열을 마팅게일이라고 한다. 임상실험에서 시간에 걸쳐 수집한 환자의 반응이 마팅게일 이라는 것을 발견하게 된다.
입원한 환자를 연구대상에서 제외했다고 퇴원하면 다시 연구대상에 포함하고 반복해서 일어나는 입원을 새로운 사건으로 간주하였다.
오늘날 마팅게일은 만성병에 관한 장기간의 실험자료를 분석하는 표준분석법이 되었다.
[27장 치료의도 분석]
(292-3) # 페토의 치료의도분석법
어떤 치료법을 권장하는 의료정책의 전반적인 효과에 관심이 있다고 하자. 그렇더라도 환자에게 더 적합할 것이라고 생각되는 치료법으로 전환할 자유가의사에게 주어져야 한다. 이 경우 ★★★ 권장치료법으로 치료를 시작하는 것이 좋은 정책인지 치료의도분석법으로 분석할 수 있다. 이처럼 치료의도 분석법은 공공정책의 유효성을 판단하기 위해 정부가 지원하는 대규모의 연구에 적합한 방법이다.
불행히도 기반이 되는 수학적 이론을 모르면서 통계적 방법을 사용하는 과학자들이 있다. 임상연구도 예외가 아니다. 페토는 자신의 분석법이 가진 한계를 분명히 했다. 하지만 많은 대학의 연구자들은 치료의도분석법을 의학연구의 비급 또는 임상실험을 분석하는 유일한 통계적 방법으로 여기고 있다.
(중략) 많은 임상실험의 목적은 새 치료법이 현재의 치료법과 동일하면서 부작용이나 비용이 적고 순응도가 높은지를 검증한다. 즉 ,치료효과의 동등성(비열등성)을 검증하는 것이다. 치료의도 분석은 처리효과의 차이를 찾아내는 것이며 차이가 없다는 결과를 얻었다고 해서 그것이 효과가 동등하다는 것이아님을 명심해야 한다.
(중략) 올바른 방법을 사용해야 한다는 의학자들의 강박증이 가설검증을 극도로 엄격하게 적용토록 했다고 생각한다. 예를 들어 어떤 통계적 방법을 사용하던 간에 사전에 유의수준을 정하고 이를 그대로 유지하게 해야 한다든지 하는 것이다. 이것은 피셔가 네이만과 피어슨의 가설검증법에 반대한 한가지 이유이기도 하다. 피셔는 유의확률과 유의성검증이 그토록 엄격하게 사용되어야 하는 것이 아니라고 생각했다. 피셔는 사전에 잘못할 확률을 정해놓고 유의확률이 이보다 작을 경우 어떤 조처를 취하는 것에도 반대했다. 그는 유의확률이 유의적인가 하는 결정은 상황에 따라 판단해야 한다고 암시했다. 피셔는유의확률을 어떻게 사용해야 하는지에 대해서는 명확히 언급한 적이 없고 단지 예제만 제시했을 뿐이기 때문에 "암시" 라고 표현했다.
# (295) 박스의 진화적 공정
진화적 공정의 각 단계에서 얻은 결과는 전 단계의 결과와 비교된다. 이 과정은 계속 반복되므로 최종적인 올바른 결론이란 존재하지 않는다. 실험을 반복하고 실험에서 얻은 자료를 반복해서 분석하는 과학연구는 끝이 없다는 것이 박스의 관점이다. 이는 과학에는 궁극적 진리가 없다는 의미이기도 하다.
=> 의학 임상연구에서 이것은 너무나 명확하다. 특히나 치료법에 관해서 용량 등은 언제고 뒤바뀔 수 있는 것.
# (295) 데밍의 관점
데밍을 비롯한 일부 통계학자들은 노골적으로 가설검증을 배척한다. 그들은 피셔가 주창한 추정이야말로 모든 통계분석의 기반이라고 주장한다. 관련한분포의 모수를 추정하는 것이 핵심이며, 유의확률이나 자의적 가설을 통해 간접적으로 모수를 다루는 것은 이치에 맞지 않는다는 것이다.
(중략) 그들은 네이만과 이곤 피어슨의 가설검증은 통계학사의 유물정도로 여긴다. 네이만도 자신의 논문에서 유의확률이나 가설검증을 거의 사용하지 않았다는 사실은 시사하는 바가 있다.
# (296) 코크란의 관찰연구
볼티모어 시당국은 영세민에게 공공주택을 제공하는 것이 그들의 태도를 변화시키고 사회적으로 성공하는데 효과가 있는지 확인하고 싶어했다
코크란은 무작위 배정 실험대신 공공주택을 공급받은 세대와 공급받지 못한 세대를 추적조사하는 관찰연구를 제안했다. 하지만 이들은 여러 요인측면에서 서로 다르기 때문에 코크란은 관찰연구에서 사용할 수 있는 분석법을 개발했다.
연령, 교육수준, 종교 같은 요인들의 효과가 포함된 수학적 모형을 세우고 이 모형에 포함된 모수를 추정하면 연령, 교육, 종교 같은 요인이 설명하지 못한부분을 구할 수 있다. 이 나머지 부분이 공공주택의 효과를 추정하는데 사용되는 것이다.
(중략) 의학, 사회학, 정치학, 천문학 같이 임의로 처리에 배정하는 것이 불가능하거나 비윤리적인 분야에 큰 영향을 끼쳤다.
(298) 모든 통계분석법은 연속선 상에 놓여 있다고 생각할 수 있다. 한쪽 끝에는 루빈이나 코크란의 방법과 같이 모형에 매우 민감한 방법이 위치하고, 다른 한쪽 끝에는 가장 일반적으로 자료를 분석하는 비모수적 방법이 위치해 있다. 컴퓨터 혁명이 모형에 민감한 통계적 방법을 사용할 수 있게 해준 것처럼다른쪽 끝에 위치한 비모수적 방법에도 유사한 혁명이 일어났다. 수학적 모형이 거의 필요없고, 어떤 모형에 구속받지 않고 자료 스스로 자신에 관한 이야기를 하게 하는 비모수적 방법에서도 말이다. 비모수적 방법에서 일어난 컴퓨터 혁명은 부트스트랩이라고 불린다.
[28장 스스로 작동하는 컴퓨터 (부트스트랩)]
(302-3) 글리벤코- 칸텔리 보조정리는 만약, 자료를 생성하는 분포에 대해 전혀 아는바가 없다면 자료로부터 비모수적 분포를 만들어 낼 수 있다는 것이이 보조정리의 핵심. 이렇게 찾아낸 비모수적 분포를 경험적 분포함수라고 한다. 이 경험적 분포함수는 수학적 성질이 좋지도 않고, 연속함수도 아니며,수학적으로 우아하지도 않다. 그럼에도 불구하고 칸텔리는 측정한 자료의 수가 증가할 떄 경험적 분포함수가 진정한 분포함수에 수렴한다는 것을 증명.경험적 분포함수를 구하기 위해서는 별생각없이 단순히 개수세기를 반복하면 된다. 초당 수백만 번의 연산이 가능한 계산기를 이용하여 큰 자료에서 경험적 분포함수를 구하고 이를 바탕으로 모수를 추정할 수 있는데 1980년대 컴퓨터의 개발로 인해 이것이 가능해졌다. 부트스트랩은 글리벤코 - 칸텔리 보조정리를 단순히 두번 적용한 것으로 생각할 수 있다.
에프론은 자료가 자기 스스로 일을 하게 하는 방법이라는 의미로 부트스트랩이라는 이름을 붙였다.
# (305) 통계모형의 승리
한 세기전 칼 피어슨은 모든 관찰값은 분포에서 유래하고, 과학의 목적은 이 분포의 모수를 추정하는 것이라 했다. 그 이전의 과학자들은 이 우주가 뉴턴의운동법칙과 같은 법칙에 따라 작동하는 기계 같은 것이며, 이 법칙에서 벗어나는 것은 측정오류라고 생각했다. 시간이 감에 따라 칼 피어슨의 관점이 지배적인 관점으로 자리잡았고, 과학 교육을 받은 사람이면 누구나 칼 피어슨 적 관점을 당연하게 받아들이고 있다. 이러한 관점이 현대과학 교육에 너무나 깊이 침투했기 때문에 사람들은 그에 대해 깊이 생각하려 들지 않는다. 이러한 관점에 기반을 둔 기법을 사용하는 과학자와 공학자조차 이러한 관점의 철학적 의미는 생각하지 않는다. 과학의 연구대상이 확률분포라는 개념이 널리 퍼져가는 동안 철학자와 수학자들은 심각한 근본적인 문제를 들춰내고 있었다.
[29장 통계학의 불안정한 토대]
(309-10) 더 정밀한 측정이 가능해져 갔는데 불구하고 측정값과 모형에 의한 예측값이 차이가 더 커져 갔고, 이로 인해 결정론적 과학관은 무너지고 말았다. (중략) 이런 시점에 칼 피어슨이 모수가 포함된 분포를 들고 과학계에 등장한 것이다. 특정 유전자가 특정 단백질을 생성한다는 분자생물학적 결과가결정론적 과학관을 지지하는 것처럼 보이지만 실제로 수집된 자료에는 상당한 임의성이 내포되어 있다. 즉 수집된 자료를 나타내는 분포의 모수가 바로 유전자인 것이다.
1-2 mg 만 섭취해도 혈압과 심리변화를 일으키는 약의 효과가 항상 일정하게 나타난다고 생각하겠지만 약학실험은 약의 효과가 확률분포를 가진다는 가정하에서 설계되며 그 분포의 모수를 약의 효과로 해석한다. (중략) 모든 과학의 시발점이 예측불가능한 측정값의 변화가 통계적 계산에 녹아 있으며 과학연구의 결과는 결코 관찰할 수 없는 모수로 기술되고 있다.