[알라딘서재]데이터의 공정함에 대한 미신

데이터의 공정함에 대한 미신ｌ마이리뷰

한깨짱 l 2019-01-13 11:44

https://blog.aladin.co.kr/733372146/10605647

[eBook] 대량살상수학무기 - 어떻게 빅데이터는 불평등을 확산하고 민주주의를 위협하는가 캐시 오닐 지음, 김정혜 옮김 / 흐름출판 / 2017년 10월 평점 :

누군가 나에게 미래를 한 마디로 정의하라면 나는 이렇게 말할 것이다. 미래는 데이터다.

최근 수년 사이에 벌어진 급격한 기술 발전은 대부분 데이터를 처리하는 능력과 관련이 있었다고 해도 과언이 아니다. 딥러닝을 이용한 기계학습은 이제 산업 전체로 확산됐다. 예전엔 슈퍼컴퓨터로도 분석이 어려웠던 대규모 데이터들이 PC와 연결된 클라우딩 컴퓨팅으로도 가능한 시대가 됐다. 그동안 발만 동동구르며 데이터를 쌓기만 했던 기업들이 앞다투어 데이터를 분석하기 시작했다.

사람들이 이토록 데이터에 집착하는 이유는 그것이 객관적 증거를 보장하기 때문이다. 우리가 겪는 갈등의 대부분은 사실 한쪽이 틀린 주장을, 다른 쪽이 옳은 주장을 펼치기 때문에 벌어지지 않는다. 첨예한 갈등은 대개 양쪽이 모두 옳은 주장을 펼칠때 폭발한다. 양쪽은 모두 논리적으로 타당한 근거를 내세우며 자신의 주장을 강화한다. 하지만 논리적인 것이 정말 옳은 것일까? 대한민국의 집값이 오르는 이유는 공급이 부족해서일까 투기를 하기 때문일까? 양쪽 모두 데이터를 근거로 자신의 주장이 옳다고 말할 수 있지만 특정 시기, 특정 지역에선 맞는 말이 다른 시기, 다른 지역에선 완전히 틀린 말이 될 수도 있다. 이런 문제가 나타나는 이유는 특정 현상이 발생하는데 관여한 변수들이 엄청나게 많기 때문이다. 인간은 이 모든 변수들을 수집할 방법도, 분석할 능력도 없다. 바로 여기가, 빅데이터 분석의 필요성이 절실해지는 지점이다.

데이터가 사람보다 공정하다는 믿음은 우리 사회에 널린 통용되는 미신이다. 사람들은 생각한다. 데이터를 분석하는 프로그램은 태어난 곳도, 졸업한 학교도 지인도 없으며 직장 상사의 눈치를 볼 필요도 없다. 이해관계가 전무하기 때문에 프로그램은 누구보다 공정할 수 있다는 것이다. 이러한 통념은 우리가 다음과 같은 사실을 간과하기 때문에 발생한다. 우리는 프로그램이 인간에 의해 운영된다는 사실을 종종 잊곤한다. 여기 10년 동안 한 번도 연체를 해본 적이 없는 직장인이 있다고 해보자. 그러나 이 사람은 그동안 신용카드도, 대출도 써본 적이 없기 때문에 신용평가 회사에서 평가하는 신용 수준은 5등급으로 다소 낮은 편이다. 프로그램은 신용등급이 낮지만 이 사람의 과거 행적을 볼 때 성실한 채무 변제가 예상되므로 최저 이율을 적용하겠다고 판단한다. 하지만 프로그램의 판단을 그대로 적용할 은행은 장담컨대 단 한군데도 없을 것이다. 이를 위해 프로그램의 설계자들은 모든 변수에 동일한 중요도를 부여하지 않는다. 그들은 자신에게 이득이 되는 방향으로 변수의 중요성을 재배열 할 것이며 계속해서 수집되는 데이터를 기반으로 끊임없이 조정해 나갈 것이다.

프로그램이 설계자들의 개입을 막기 위해 실제 현장에서 최고의 업무 성과를 보여주는 사람들의 업무 방식을 학습하는 경우에도 상황은 동일하다. 업계에서 오래 일한 사람들은 어느 정도 편향된 사고를 갖는 것이 자연스럽다. 아니 사실 그들은 앞서 언급한 설계자들과 비슷한 생각을 가졌기 때문에 실적이 좋았을 가능성이 높다. 더 큰 문제는 이렇게 편향된 생각을 학습한 알고리즘이 피드백을 통해 강화된다는 것이다. 예컨대 앞서 언급한 직장인에게 은행이 높은 이율로 대출을 해줬다고 가정하자. 이 사람은 그 돈으로 결혼 후 살집을 구매했다. 그런데 잠깐. 은행이 요구한 변동 금리는 슬금슬금 오르기 시작하는데 집 값은 제자리라 매달 내야하는 원리금은 조여드는 가시처럼 압박해 온다. 결국 이 사람은 채무를 연체하기 시작한다. 시스템은 이 데이터를 근거로 최초에 높은 이율을 부과한 자신의 판단이 옳았음을 확신한다. 애초에 낮은 이율을 부과했다면 이 직장인이 연체할 일은 없었을텐데도 말이다.

이와 비슷한 판단은 금융계를 비롯하여 대학 입학, 회사 취업, 의료에 이르기까지 광범위하게 적용되고 있다. 이러한 빅데이터 알고리즘은 크게 세가지 특징을 갖는다. 첫째, 우리의 일상생활에 어마어마한 영향을 미친다. 둘째, 그 피해가 막심하다. 셋째, 사람들이 자신이 왜 그런 평가를 받아야하는지 해답을 요청할 때 철저히 침묵한다(기계학습 특성상 판단의 과정은 블랙박스로 처리된다. 기계는 결론을 내놓을 수는 있지만 그 판단의 근거를 정확하게 보여주지는 못한다). 그 누구도 내부 구조를 투명하게 들여다볼 수 없는 것이다. 저자는 이러한 프로그램들을 일컬어 '대량살상수학무기'라고 부른다.

데이터에 관한한 대한민국은 아직 문턱에 서 있는 수준이다. 그게 다행인지 불행인지는 모르겠지만 말이다. 저자는 알고리즘에 대한 감사를 강화하는 것으로 데이터 사용자들을 관리해야 한다고 말하는데, 현실적으로 그게 가능할까? 데이터는 현실을 반영하기 때문에 현재의 기득권자들에게 유리한 해석을 내놓을 가능성이 높다. 어떤 사태를 감시해야 하는 사람과 그런 사태를 만들어낸 사람이 동류라는 말이다.

하지만 너무 비관적일 필요는 없다. 복잡한 사태를 해결하기 위한 방법은 하나씩 하나씩 차근차근 해나가는 것이다. 그 첫걸음은 우리가 앞으로 어떠한 미래를 맞이하게 될 것이며 그 미래를 만들어낸 존재가 무엇인지 아는 것이다. 관심갖고, 읽고, 보고, 알아가는 것. 이것만 잘해도 미래는 그렇게 실망스럽진 않을 것이다.