터먼의 후퇴

터먼이 1937년에 쓴 스탠퍼드-비네 테스트의 개정판은 얼핏 보면 같은 저자의 것으로 생각되지 않을 정도로 1916년의 초판과는 사뭇 다르다. 그러나 이미 시대가 바뀌었고, 감정적인 애국주의나 우생학이라는 지적 유행은 대공황이라는 수렁에 깊이 빠졌다. 1916년에 터먼은 성인의 정신연령을 16세로 정했다. 테스트를 위한 그보다 나이 많은 남학생의 무작위 표본을 구할 수 없었기 때문이다. - P321

터먼은 명시적으로 과거의 결론을 포기하지는 않았지만, 그 결론을 침묵의 베일로 덮었다. 몇 가지 신중한 발언 이외에는 유전성에 대해 한마디도 들을 수 없다. - P321

IQ 시대의 도래에서 이민제한법 통과까지

심리학의 급성장

로버트 M. 여크스는 1915년, 갓 마흔을 넘을 무렵 실의에 빠졌다. 그는 1902년 이래 하버드 대학의 교수였고 뛰어난 조직가였으며 자신의 분야를 확장하기 위해 노력하는 달변의 선전가였다. 그러나 아직 심리학은, 과학이기는 해도 ‘부드러운(soft)‘ 과학이라는 세간의 인식에서 벗어나지 못하고 있었다. - P322

여크스를 비롯한 동시대 사람들은 대부분 엄밀함(rigor)을 숫자와 정량화를 다루는 과학과 등치시켰다. 여크스는 풍부하고 객관적인 수치를 얻을 수 있는 가장 유망한 원천이 이제 갓 태어난 지능 테스트라는 분야라고 생각했다.  - P323

그러나 지능 테스트는 충분치 못한 지원과 그 자체의 내적 모순으로난관에 봉착했다. 그 가장 큰 이유는 지능검사가 거의 훈련받지 않은 비전문가들에 의해 광범위하게 실시되었고, 그에 따른 어처구니없는 결과로이 기획 전체가 오명을 뒤집어쓰게 되었기 때문이다. - P323

두 번째 이유는 적절하게 적용될 때에는 가용한 여러 척도가 현저하게 다른 결과를 낳을 수 있다는 것이었다. - P324

전쟁은 항상 숨겨진 동기를 가진 군대의 추종자들을 만들게 마련이다. 대부분은 단순한 건달이나 폭리를 취하는 상인들이지만, 그중에는 좀더 야심찬 이상을 품은 사람들도 있다. 제1차 세계대전의 동원령이 가까워지자 여크스는 과학의 역사를 추진시킨 ‘빅 아이디어(big idea)‘ 중 하나를 떠올렸다. 심리학자들이 신병 전원에게 지능 테스트를 실시하도록 육군을 설득할 수 있지 않을까 하는 것이었다. - P324

여크스는 육군지능 테스트 문항을 작성하기 위해 미국 정신측정학(psychometric) 분야의 주요 유전적 결정론자들을 모두 소집했다. - P324

나는 육군이 그 테스트를 적극적으로 활용했다고는 생각하지 않는다. 기본적인 훈련도 받지 않고 장교 계급장을 단 건방진 애송이 심리학자들이 초청도 받지 않고 들이닥쳐서 지능검사를 하기 위한(설령 그 검사가가능하다 하더라도) 장소로 건물을 징발하고, 많은 신병들을 한 시간 동안 조사한 다음 여러 군사적 임무에 어떤 사람이 적절한지 판단하는 장교의 전통적 권한을 침해한다면, 직업 장교들이 어떤 느낌을 받았을지 미루어 짐작할 수 있기 때문이다. - P325

그러나 이 테스트는 일부 분야, 특히 장교훈련을 결정하는 심사위원에게 상당한 영향을 미쳤다. 전쟁이 시작될 무렵, 육군과 주방위군에는 9천명의 장교가 있었다. 종전(終戰)까지 20만 명의 장교가 임관했고, 그중 3분의 2가 바로 이 테스트가 이루어진 훈련소에서 군대 생활을 시작했다. 일부 부대에서는 C 이하의 성적을 받은 사람은 장교훈련 대상에서제외되기도 했다. - P326

*여크스는 제1차 세계대전에서 거둔 업적에도 불구하고 군심리학(military psychology)이 정당한 존경을 받지 못했다고 평생 동안 불평을 늘어놓았다. 제2차 세계대전 동안에도 늙은 여크스는 여전히 투덜거리면서, 나치스가 지능검사의 올바른 사용과 군 인사(人事)에 지능 테스트를 장려하는 측면에서 미국을 능가하고 있다고 주장했다. "독일인은 군심리학의 발전에서 훨씬 앞서고 있다. (・・・・・・) 나치스는 군의 역사에서 아무도 필적할 수 없는 업적을 달성했다. ・・・・・・) 독일에서 실행되고 있는 일은 우리 육군에서 1917~1918년에 시행했던 심리학적·인사적 활동의 논리적 연속이다(Yerkes, 1941, p.209)." - P326

육군지능 테스트의 결과

지능 테스트의 주된 영향은 육군이 개인들의 IQ 점수를 무기력하게 활용했기 때문이 아니라 여크스의 통계결과를 요약한 보고서에 수반된, 일반인들을 대상으로 한 선전에서 비롯되었다(Yerkes, 1921, pp.553~875). 후일 유명한 심리학자가 되었지만, 당시에는 여크스의 부관(그리고 육군 대위)이었던 E. G. 보링(E. G. Boring)은 파일에서 6만 명의 사례를 뽑아 1920년대에 강경한 유전적 결정론을 퍼뜨린 자료를 만들었다. - P327

보링이 수집한 숫자들의 바다에서 다음과 같은 세 가지 ‘사실(fact)‘이 수면 위로 부상했고, 그 사실은 이들 테스트의 근원이 잊혀진 후에도 오랫동안 미국의 사회정책에 계속 영향을 주었다.
1. 미국 백인 성인의 평균 정신연령은 놀랍게도 노둔보다 약간 높은13세에 불과했다. 과거에 터먼은 표준을 16세로 설정했다.
(중략).
만약 정신연령 13.08세가 백인 평균이고, 8~12세의 정신연령이 노둔이라면 미국 국민의 거의 절반이 노둔인 셈이다. 여크스는 이렇게 결론지었다(1921, p.791). "현재의 정의에 따른다면, 노둔자를 모두 몰아내기란 전혀 불가능할 것이다. 왜냐하면 백인의 37퍼센트, 흑인의 89퍼센트가 13세 이하이기 때문이다." - P329

2. 유럽 이민자는 출신국에 따라 등급을 부여할 수 있다. 많은 나라의 평균적인 사람들이 노둔자이다. - P329

3. 흑인의 정신연령은 10.41세로 척도에서 맨 아래이다. 일부 부대에서는 분석을 좀더, 그리고 명백하게 인종차별적 방향으로 진전시키려고 시도했다. 캠프 리(Camp Lee)에서는 흑인들이 피부색의 농도에 따라 세집단으로 나뉘어졌으며, 검은 빛이 옅은 집단이 더 높은 점수를 얻었다(p.531). - P329

 정치적 이유로 신념에 의해 병역을 기피한 사람들 중에서, A등급을 받은사람은 59퍼센트였다. 심지어는 명백한 명령불복종자도 평균보다 훨씬높은 점수를 받았다(p.803). 그러나 그밖의 결과는 그들의 편견을 뒷받침해주었다.  - P330

그러나 800쪽에 달하는 논문 중에서 그는 환경적 영향의 역할에 대해서는 단 한 마디도 언급하지 않았다. 그 테스트는 이 장(章)의 앞부분에서 설명했듯이, 미국의 저명한 유전적 결정론자들을 모두 망라한 위원회에 의해 작성되었다. 테스트는 선천적 지능을 측정하도록 만들어진 것이기 때문에 당연히 그 틀 속에서 측정이 이루어졌다. 결국 악순환의 고리는 단절될 수 없었다. - P331

육군지능 테스트에 대한 비판

테스트 내용

알파 테스트는 8개, 베타 테스트는 7개의 항목으로 이루어졌다. 각각의 소요시간은 한 시간 이내이며, 대규모 집단을 대상으로 실시할 수 있다. - P332

이 친숙한 문항들은 특별히 문화적 편향에 빠져 있다는 식의 비난을전혀 받지 않았다. 그것은 지금이나 그때나 마찬가지다. 물론 그 문항들은 일반적인 의미에서 읽고 쓸 수 있는 능력을 테스트한다. 그러나 이 능력은 유전적 능력이라기보다 교육의 결과이다. - P333

테스트 시간은 엄격하게 제한되었다. 다음 50명이 문 밖에서 차례를 기다리고 있었고 실제로 신병들이 모든 문제를 풀고 답을 쓰리라고 기대하지도 않았다. 알파 테스트를 받는 사람들에게는 그 사실이 설명되었지만, 베타 테스트의 경우에는 설명되지 않았다. 여크스는 왜 그렇게 많은 신병들이 그처럼 많은 설문에서 0점을 받았는지 의아해했다(이것은 테스트가 아무런 가치도 없다는 것을 말해주는 가장 뚜렷한 증거이다. 353~357쪽을 참조하라). - P334

불충분한 조건들

여크스의 규칙은 엄격하고 까다로운 것이었다. - P335

여크스의 검사관들과 정규 장교들 사이에서도 갈등이 빚어졌다. 커스터 캠프의 주임 검사관은 이렇게 불평했다(p.111). "이 문제에 대한 일반 장교들의 무관심은 그들의 무지와 같은 수준이다." 여크스는 검사관들에게 자제와 화해를 촉구했다(p.155) - P336

게다가 부대간의 비일관성 이상의 심각한 문제가 있었다. 끈질기게 지속된 로지스틱 곡선의 어려움이 흑인과 이민자들의 평균점수를 크게 저하시키는 체계적인 편향을 만들어냈던 것이다. 크게 두 가지 이유로 많은 사람들이 알파 테스트만을 받았고, 그 결과 점수는 0점이나 그에 가까운 수준이었다. 그것은 그들이 선천적으로 우둔했기 때문이 아니었다. 그들이 문맹인데도 여크스의 프로토콜에 따라 베타 테스트를 받아야 했기 때문이었다. - P338

이러한 체계적인 편향이 크스가 요약한 통계수치를 사용한 보링의 실험에 영향을 준 것은 명백하다. - P339

의심스럽고 편향된 진행방식-하버드대 학생들을 대상으로 한 실험


학자들은 종종 자신이 일차자료로 삼는 문서기록이 실제 경험을 부족하고 불완전한 정도로만 보여준다는 사실을 잊곤 한다. 상당부분은 눈으로 보고, 손으로 만져보고, 직접 맛보아야 한다 - P340

사실 나는 그 실험을 시작하기 전부터 내적인 모순과 선입관 때문에여크스가 그 결과에서 이끌어내려고 했던 유전적 결정론의 결론이 완전히 무효라는 사실을 알고 있었다. 보링도 만년에 이러한 결론이 "앞뒤가 바뀐 것"이라고 말했다(1962년 인터뷰, Kevles, 1968에서 인용). - P341

베타 테스트 검사관의 설명을 극도로 제한시킨 것은 베타 테스트 대상자가 우둔하기 때문에 이해할 수 없으리라는 여크스의 잘못된 견해를 반영했기 때문만은 아니었다. 많은 숫자의 베타 테스트 대상자들은 영어를구사할 수 없는 최근 이민자들이었기 때문에 지시는 가능한 한 그림이나 몸짓을 통해 전달되어야 했다. (중략). 그러나 베타 테스트에서는 가장 중요한 정보가 전달되지 않았다. - P342

 쉬울 것 같지만, 테스트에는 90개의 문항이 있어서 2분 동안 완료하기는 거의 불가능하다. 숫자를 쓸 수없는 사람들은 두 개의 기호 조합이 낯설게 느껴지기 때문에 이번에도 역시 불이익을 당하게 된다. - P346

요약하자면, 많은 신병들이 시험관을 보거나 들을 수 없었다. 일부는지금까지 한 번도 시험을 본 적이 없거나, 심지어 난생 처음 연필을 쥐어본 사람도 있었다. 많은 사람들이 지시된 내용을 이해하지 못하거나 혼란스러운 상태였다. - P350

테스트의 불합리성은 요약된 통계결과에 잘 나타난다. 그럼에도 불구하고 크스와 보링은 그 통계를 다른 의미로 해석했다. 모노그래프는각 설문별로 득점의 빈도 분포를 싣고 있다. 여크스는 선천적 지능이 정규분포에 따른다고(중간에 해당하는 점수가 하나의 최빈값을 갖는 ‘표준‘
패턴이고, 빈도는 최빈값에서 양쪽 방향으로 멀어짐에 따라 대칭적으로 감소한다) 믿었기 때문에 각각의 테스트 점수도 마찬가지로 정규분포할 것이라고 기대했다. - P351

테스트의 불합리성은 요약된 통계결과에 잘 나타난다. 그럼에도 불구하고 여크스와 보링은 그 통계를 다른 의미로 해석했다. 모노그래프는 각 설문별로 득점의 빈도 분포를 싣고 있다. 여크스는 선천적 지능이 정규분포에 따른다고(중간에 해당하는 점수가 하나의 최빈값을 갖는 ‘표준‘ 패턴이고, 빈도는 최빈값에서 양쪽 방향으로 멀어짐에 따라 대칭적으로 감소한다) 믿었기 때문에 각각의 테스트 점수도 마찬가지로 정규분포할 것이라고 기대했다. - P351

두 개의 최빈값을 갖는 분포를 상식적으로 해석하면, 신병들이 테스트에 대해 두 가지 다른 반응을 나타냈다는 것을 알 수 있다.  - P351

통계학자들은 복수(複數)의 최빈값을 가진 분포를 의심하도록 훈련받는다. 대개 이런 분포는 그 체계의 불균질성을 나타낸다. - P352

 여크스는 복수의 최빈값이 나타나는 현상을 보고, 자신의 테스트가 지능이라는 단일한 실체를 측정하는 것이 아닐 수도 있다는 의구심을 품었어야 했다. - P353

요약된 통계수치 속이기-0점 처리 문제


베타 테스트가 0점과 제2최빈값이라는 돌부리에 채여 비틀거렸다면, 알파 테스트도 같은 이유로 돌이킬 수 없는 재앙에 직면했다. 광범위하고 철저한 실패였다. 0 최빈값은 베타 테스트에서 두드러지게 나타났지만 중앙값의 제1최빈값의 높이에 도달한 적은 한 번도 없었다. - P353

다시 한 번 0점이 많은 사실을 상식적으로 해석하면, 상당수의 사람들이 테스트 방식에 관한 지시를 이해할 수 없었던 상황으로, 이것은 테스트 결과 자체가 무효임을 시사한다. - P354

많은 사람들이 이러한 사실을 인정했기 때문에, 보링은 최종 통계자료에서 0점인 사람들을 제거하거나 신병들이 테스트 방식을 이해했다면대부분 어느 정도 점수를 얻었을 것이라는 가정을 토대로 0점을 보정(補正)하는 결정을 내렸어야 한다. 그러나 그는 정반대 방향으로 0점을 수정했다. 상당수의 0점을 마이너스 영역으로 격하시킨 것이다.

보링은 모든 결과를 무효로 처리하는 유전적 결정론의 가설에서 출발했다. - P356

이 방법에 의해, 여크스의 기본적 절차에 포함된 결함에 다른 편향들이 부가되어 한층 강화되었다. 0점은 지능과 무관한 일련의 이유들 때문에 많은 사람들이 자신이 무엇을 해야 하는지 이해하지 못했다는 것을보여주었다. 여크스는 이 사실을 인정해야 했다. 왜냐하면 자신이 작성한 보고서가 집단 테스트에서 0점을 받았던 사람들도 개인 테스트나 그와 유사한 테스트에서는 혼란이나 불안감이 감소하면서 거의 전원이 그보다 높은 점수를 얻을 수 있었음을 입증했기 때문이다. - P357

처리된 통계값의 조작 환경과의 명백한 상관관계를 비켜가다

여크스의 모노그래프는 ‘지능 테스트‘의 성적과 환경의 상관관계를 탐구하려는 사람에게는 귀중한 정보의 보고이다.  - P357

그의 모노그래프에는 사소한 사례가 한두 페이지씩 분산되어 실려 있다. 여크스는 모두 네 개의 범주로 평균점수와 십이지장충 감염 사이에서 강한 상관관계를 찾아냈다. - P358

여크스는 주요 패턴 중에서 학교교육을 받은 기간과 지능 사이의 관련성을 발견했다. 그는 테스트 점수와 교육년수(年數) 사이에서 0.75의 상관계수를 산출했다. 알파 테스트에서 평균점 이하를 얻는 348명 중 대학(치과대학 학생으로)에 진학한 사람은 단 한 명밖에 없었다. - P359

그는 흑인이 학교에 가지 않았다는 사실이 선천적으로 낮은 지능에 기인한 학습 혐오를 반영한다고 주장했다. 인종차별(공식적으로는 금지되었지만 당시 일반적으로 횡행하던)이나 흑인 학교의 열악한 상황, 그리고 가난한 가정형편 때문에 아이들도 일을 해야 하는 경제적 압박 등에 대해서는 단 한 마디의 언급도 없었다. - P360

여크스의 모노그래프에는 자신의 생각을 바꾸게 했을 수도 있는(만약 그가 유연한 자세로 연구에 임했다면) 자료가 도표로 작성되어 있지만, 그 자료는 이용되지 않았다. - P361

 대부분의 라틴계와 슬라브계는 최근에 이민했기 때문에 영어를 거의 또는 전혀 구사할수 없었다. 독일계 이민의 전성기는 이미 오래 전에 지났다. 하지만 여크스의 프로토콜에 의하면, 그것은 문제가 되지 않았다. - P361

또 하나의 상관관계는 훨씬 큰 혼란을 야기했다. 여크스는 외국 출신신병의 테스트 평균점수가 미국 체재 기간이 길수록 상승한다는 사실을 발견했다. - P362

육군지능 테스트는 환경적으로 불리한 조건이 수백만 명에 달하는 사람들에게서 그들이 지적 능력을 발달시킬 기회를 박탈했음을 분명히 보여주기 때문에 사회개혁의 동력을 제공할 수도 있었을 것이다. - P363

터먼, 고더드, 여크스 등의 유전적 결정론자들의 선입관은 눈앞에서 벌어지는 상황을 보지 못할 정도로 맹목적이었다! - P364

여크스에게는 두 가지 선택의 여지가 있었다. 우선 그 수치를 잘못된것으로 간주하고 무의미한 값이 나온 결함의 원인을 자신의 방법론 속에서 찾는 것이었다. - P365

두 번째 선택은 그 수치를 인정하고 어정쩡한 상태를 계속 유지하는 것이다. 물론 그는 이 두 번째 전략을 선택했다. - P366


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo