-
-
데이터의 역사 - 인간의 숨겨진 욕망과 권력 관계를 숨김없이 보여주는 데이터에 관한 진실!
크리스 위긴스.매튜 L. 존스 지음, 노태복 옮김 / 씨마스21 / 2024년 10월
평점 :
[이 글은 도서를 제공 받아 주관적인 견해에 의해 작성했습니다.]
이 책 『데이터의 역사』는 「인간의 숨겨진 욕망과 권력 관계를 숨김없이 보여주는 데이터에 관한 진실」이란 긴 부제를 갖고 있다. 우리가 지금까지 사용해온 데이터는 단순한 수학적 통계 목적으로 시작했지만 지금은 상업이나 정치적 사용을 목적으로 수집되고 활용되고 있다. 이 현상은 데이터를 통해 인간의 욕망과 권력 관계를 포착할 수 있다는 뜻으로 읽힌다. 이 책은 저자 크리스 위긴스와 매튜 L. 존스가 함께 쓴 공동 논저다. 공동 저자 중 크리스 위긴스는 컬럼비아대학교 응용수학과 부교수로서 데이터의 역사에 관한 강의를 하며 〈뉴욕타임스〉의 데이터과학 부분 수석기자로 활동하고 있다. 두 저자가 함께 시작한 「데이터: 과거, 현재, 미래」라는 강의가 학생들에게 좋은 반응을 얻으며 그 강의 내용이 이 책의 토대가 되었다고 한다.
이 책은 위긴스가 학생들에게 강의하던 어느 날의 일을 되살려내며 시작한다. 이날의 상황을 저자는 소설적 감성으로 묘사하고 있다. 「데이터, 그 진실과 권력의 역사」란 제목의 〈서문〉의 시작 부분이다. "2018년 4월 어느 날 아침, 봄 햇살이 컬럼비아대학교 셔머혼홀의 한 세미나실 동쪽 창문으로 비쳐 들던 그때, 나는 칠판 앞으로 다가갔다. 정량적 구체화, 즉 실증적 관찰 결과를 그에 대응하는 수치로 변환하는 마법과도 같은 과정을 설명하기 위해서였다. 나는 아돌프 케틀레에 관한 이야기와 더불어 불멸의 '정규곡선'을 칠판에 그렸다. 케틀레는 스코틀랜드 병사들의 신체 측정치에 관해 자신이 얻은 데이터를 사용하여 이상적인 인간의 신체 상태를 알아내고자 했던 사람이다. 수학자들한테는 가우스곡선이라고 알려진 이 곡선은 IQ 검사의 유명한 '종 곡선'으로도 잘 알려져 있으며, 데이터가 자연 현상의 실체를 밝혀내며 심지어 초월적인 실체까지도 밝혀낸다는 사실을 자연과학자들에게 알려준 곡선이기도 하다. 내가 느낀 흥분을 학생들도 함께 느꼈는지 보려고 몸을 돌려 그들의 눈을 응시했다. 한 학생이 내 시선과 마주치자 손을 들고서 물었다. '지금 페이스북에 관해 한 말씀해 주실 수 있나요?'"(p.8)
이날은 데이터가 악용되어 개인 사생활이 침해되고, 나쁜 목적에 활용됨으로써 사회 발전에 얼마만큼 악영향을 미칠지 미국 의회에서 밝혀지는 날이기도 했다고 저자는 서술하고 있다. 책에 따르면 이날 시대 문화를 뒤바꾸고 있는 실리콘밸리에 소재한 기술 기업의 불손한 CRO가 미국 상원에 불려갔다. 〈뉴욕타임스〉의 설명처럼, 상원의원들은 모든 시민을 대표하여 어떻게 우리 대학교 학생들을 포함해 수백만 명의 개인 데이터가 우리 사회의 정치적 과정과 개인 사생활에 관한 규범을 어기고 나쁜 목적에 악용되었는지 이해하려고 했다. 의회 증언이 끝날 무렵 학생들은 선출 공무원들이 디지털 세계의 현실을 이해하는 방식과 학생들 자신이 알고리즘과 함께 자라면서 체득한 지식 사이에 얼마나 큰 간극이 있는지를 실감했다.
저자는 데이터에 관한 이야기는 경쟁으로 가득하다고 지적한다. 무엇이 참인지 정의하기 위한 경쟁, 데이터를 이용해 권력을 키우기 위한 경쟁, 알고리즘과 데이터를 이용해 어둠에 빛을 비추고 무력한 존재들에 힘을 실어주기 위한 경쟁 등에 관한 설명이다. 이에 따라 이 책은 호기심으로 가득 찬 수많은 학생들을 가르친 경험에서 나왔다고 저자는 강조한다. 아울러 과학사가이자 데이터과학자로서의 개인적 경험, 그리고 한 시민으로서 알고리즘을 기반으로 하는 지금의 현실에서 살게 된 과정과 어떻게 하면 우리가 다르게 사는 길을 선택할 수 있을지 이해하려고 노력해온 경험에서 나왔다는 점을 역설한다. 기술의 시대를 살아가는 모든 사용자와 개발자처럼 우리는 기술의 앞날이 어디로 향하는지, 그리고 우리가 집단적으로 그런 미래를 어떻게 만들어 나갈지를 이해하고자 했다고 저자는 밝히고 있다. 이를 통해 저자는 아이디어와 기술이 이야기만이 아니라 진실과 권력의 역사도 함께 전하기 위해 이 책을 집필했다고 전한다.
4차 산업혁명이란 말을 들은 지 어느덧 10년은 되는 것 같다. 4차 산업혁명과 함께 터져 나온 단어들도 몇 가지가 또렷이 떠오른다. 독자는 디지털 시대를 쫓아가기 바쁜 아날로그 세대기에 4차 산업혁명을 오히려 두렵게 느끼고 있지만 관련 학자들이나 업계는 굉장한 노력이 뒷받침되고 이미 4차 산업혁명 시대에 들어섰다고 공통된 목소리를 내고 있다. 4차 산업혁명이란 용어는 2016년 6월 스위스에서 열린 다보스 포럼(Davos Forum)에서 포럼의 의장이었던 클라우스 슈밥(Klaus Schwab)이 처음으로 사용하면서 이슈화됐다고 한다. 당시 슈밥 의장은 "이전의 1, 2, 3차 산업혁명이 전 세계적 환경을 혁명적으로 바꿔 놓은 것처럼 4차 산업혁명이 전 세계 질서를 새롭게 만드는 동인이 될 것"이라고 밝혔다고 한다. 4차 산업혁명에는 인공지능(AI), 사물인터넷(IoT), 로봇기술, 드론, 자율주행차, 가상현실(VR) 등이 주도하는 차세대 산업혁명을 말한다고 한다.
4차 산업혁명은 ① 1784년 영국에서 시작된 증기기관과 기계화로 대표되는 1차 산업혁명 ② 1870년 전기를 이용한 대량생산이 본격화된 2차 산업혁명 ③ 1969년 인터넷이 이끈 컴퓨터 정보화 및 자동화 생산시스템이 주도한 3차 산업혁명에 이어 ④ 로봇이나 인공지능(AI)을 통해 실제와 가상이 통합돼 사물을 자동적·지능적으로 제어할 수 있는 가상 물리 시스템의 구축이 기대되는 산업상의 변화를 일컫는다고 백과사전은 규정하고 있다.
또 데이터(data)란 재료·자료·논거라는 뜻인 'datum'의 복수형이다. 넓은 의미에서 데이터는 의미 있는 정보를 가진 모든 값, 사람이나 자동 기기가 생성 또는 처리하는 형태로 표시된 것을 뜻한다. 어떠한 사실, 개념, 명령 또는 과학적인 실험이나 관측 결과로 얻은 수치나 정상적인 값 등 실체의 속성을 숫자, 문자, 기호 등으로 표현한 것이며 데이터에 특정한 의미가 부여될 때 정보가 된다. 데이터 자체는 단순한 사실에 불과하지만, 일련의 처리과정에 따라 특정한 목적에 소용되는 정보를 만들기 위한 재료로 사용되는 것이다. 데이터를 통해 만들어진 정보는 또 다른 정보를 위한 자료, 즉 데이터로 사용될 수 있다.
협의적 의미로는 주로 컴퓨터 용어로 정보를 작성하기 위해 필요한 자료를 뜻한다. 데이터를 처리하기 위해서는 컴퓨터 프로그램 등을 통해 개별 값들을 읽고 처리하며 저장하는 등의 작업이 수행된다. 이 때, 데이터는 숫자, 영자 혹은 주기(period), 정부(+, -) 부호 등의 특수문자에 의해 구성되며 디지털의 기본 단위로서 0과 1의 이진법으로 표기된다고 풀이하고 있다.
특히 4차 산업혁명에서 빅데이터(big data)란 기존의 데이터 처리 응용 소프트웨어로는 수집, 저장, 검색, 분석, 처리하기 어려울 정도로 대규모인 데이터를 말한다. PC와 인터넷, 스마트 기기의 보급, 그리고 소셜 네트워크 서비스 사용자가 급증함에 따라 인류 사회의 디지털 생활은 크게 변화했고, 곳곳에서 생성되는 데이터의 수가 기하급수적으로 증가하고 있다. 이러한 배경 아래 빅데이터라는 새로운 패러다임이 등장한 것이다. 얼마나 커야 빅데이터라고 할 수 있을까? 독자처럼 아날로그 세대는 가늠하기조차 힘들지만 이 정의도 시대에 따라 변해가고 있다. 30년 전에는 1기가바이트의 데이터가 빅데이터 문제가 될 수 있었으며 특수 목적의 컴퓨팅 자원이 필요했다. 그런데 이제는 기가바이트의 데이터는 보편적이며 주변에서 쉽게 찾을 수 있는 기기에 의해 쉽게 전송 처리 및 저장될 수 있다. IDC가 2018년도에 발표한 보고서에 따르면, 전 세계 데이터의 총규모가 2025년에 175제타바이트(ZB, 1021)에 이를 것으로 예측했다. 비유적으로 설명하자면, 누군가 175제타바이트를 블루레이 디스크에 저장한다면 디스크를 지구에서 달까지 23번 갈 만큼 쌓을 수 있다고 한다.
그런데 빅데이터는 단순히 규모가 큰 특징만 갖는 것이 아니다. 흔히 빅데이터의 특징을 3V로 정의하고 있는데, 데이터의 크기(Volume), 데이터 종류의 다양성(Variety), 그리고 데이터의 입출력 속도(Velocity)이다. 여기서 크기는 이미 설명했듯이 빅데이터의 어마어마한 물리적 크기를 말한다. 다양성은 데이터의 형태를 의미한다. 기존의 기업 환경에서 사용되는 정형화된 데이터는 물론, 사진, 비디오, 소셜 미디어 데이터처럼 통일된 구조로 정리하기 어려운 비정형화된 데이터를 모두 포함하는 것이 빅데이터다. 속도는 데이터의 고도화된 실시간 처리를 뜻한다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석 처리가 가능한 성능을 의미한다.
빅데이터의 성장에 대한 전망은 매우 긍정적이지만, 빅데이터를 통해 얻을 수 있는 이득이 명확하지 않다는 비판도 없지 않았다. 또한, 데이터의 품질이 낮다는 지적도 나오고 있다. 최근 들어, 빅데이터에 비해 더 정확하고 양질의 정보를 전달할 수 있는 스마트 데이터(smart data)의 필요성이 제기되고 있다. 인간과 기계가 인공지능 기술을 통해 더욱 밀접하게 연결되는 미래 사회에는, 인간의 모든 행동이 데이터로 표현된다는 점에서 빅데이터에서 스마트 데이터의 중요성은 커질 것으로 전망한다.
이 책에서 말하는 '데이터'란 거의 모든 분야에서 우리를 둘러싸고 있는 데이터 중심의 알고리즘에 기반한 의사결정 시스템의 축약어라고 저자는 설명한다. 우리는 어떻게 데이터가 창조되고 활용되었는지와 더불어 그런 데이터를 활용해 사람들의 삶, 아이디어, 사회, 군대 운영 및 경제에 이바지하기 위해 어떻게 새로운 수학 및 계산 기법들이 경쟁적으로 개발되었는지를 탐구한다고 강조한다. 데이터에는 권력이 뒤따라오는데, 가령 무엇이 참인지를 규정하는 권력도 데이터를 기반으로 하고 있다. 데이터 역사의 핵심에는 수학이 있지만, 궁극적으로 그것은 국가, 기업 및 시민 간의 불안정한 개입에 관한 이야기이다. 그렇기에 그날 아침 우리는 단지 데이터만이 아니라 데이터가 중개하는 세계의 위험성에 대해서도 함께 논의했다고 저자는 단언한다.
저자에 따르면 데이터의 탄생 과정에 관한 수업을 개설하자는 생각은 2015년 11월에 시작되었다. 이후 2017년 1월 처음으로 수업을 시작하고서 금세 깨달은 것은 학생들은 데이터가 지금의 상태에 이른 과정뿐만 아니라 데이터의 윤리와 정치를 이해하기 위한 분석적이고 활용 가능한 기틀을 찾는 데에도 관심이 있다는 것이었다. 여기서 '정치'란 '투표'와 같은 좁은 의미가 아니라 '권력의 역학과 관련된'이라는 넓은 의미의 단어다. 우리의 목표는 권력, 즉 기업 권력, 국가 권력 및 시민 권력이 재조정될 때 데이터가 갖는 지속적인 역할을 이해하는 데 필요한 기본틀을 제공하는 것이다. 지난 역사적 궤적을 통해 알 수 있는 중요한 지식을 지렛대 삼아 우리는 현재의 세계를 이해할 수 있을 뿐만 아니라 미래를 결정할 수단과 도구까지 수중에 넣을 수 있다.
이 책은 모두 3부 13장(章)으로 이루어져 있다. 1부 〈데이터의 탄생〉, 2부 〈진화하는 데이터〉, 3부 〈데이터, 권력이 되다〉 등이다. 1부에는 1장 「권력이 된 데이터의 경고」, 2장 「숫자로 사회를 정의하다」, 3장 「사회적 문제에 대한 과학적 해답」, 4장 「개인 차이의 과학」, 5장 「무엇을 위한 데이터인가?」가 함께 묶여 있고, 2부엔 6장 「전쟁과 데이터」, 7장 「인간 지능의 원리를 찾아서」, 8장 「빅데이터의 시대」, 9장 「스스로 학습하는 기계」, 10장 「진화하는 데이터과학」 등이 포함돼 있다. 마지막 3부에는 11장 「데이터를 둘러싼 윤리 전쟁」, 12장 「주의력 경제의 탄생」, 13장 「해결지상주의를 넘어선 해결책」 등이 있다.
1부에서는 국정 운영을 위한 데이터를 시작으로, 사회 개선을 위한 데이터 사용을 거쳐 '수리통계학'이라는 새로운 학문 분야의 탄생과 함께 데이터가 수학의 세례를 받게 되는 과정을 살핀다. 2부에서는 제2차 세계대전 때 암호해독을 위해 데이터를 군사적으로 적용한 데에서 시작된 디지털 연산의 탄생 과정에서부터 영국 불레츨리 파크와 미국의 벨연구소, 그리고 제2차 세계대전 이후로 기업과 기술 분야에 데이터를 적용한 사례까지 추적한다. 기업 권력으로부터 국거 권력 그리고 '시민 권력'으로까지 옮겨가면서 디지털화된 개인벙보 기록이 우리가 프라이버시, 특히 1970년대에 지배적인 국가 권력으로부터 개인을 보호하기 위한 수단으로서 프라이버시에 대한 대중의 요구를 이해하는 데 미치는 영향을 탐구한다. 또 '인공지능' 분야가 탄생하고 사그라들었다 시민, 소비자 및 적국에 대한 데이터가 점점 증가하며 '기계학습'이라는 형태로 잿더미 속에서 다시 부화하게 된 과정을 살펴본다.
마지막 3부에서는 앞에서 살펴본 데이터의 역사를 바탕으로 우리의 현재 및 미래와 연결하여 어떻게 데이터와 권력이 국가의 관심사에서 기업의 관심사로 옮겨갔는지를 논의한다. 이를 위해, 한 단일 기업이 데이터 중심으로 작동하는 기술의 도움으로 전 분야를 재빠르게 지배할 수 있게 해준 금융협정 및 기업 모형을 살펴본다. 기업 권력의 문제점을 둘러싸고 다양한 잠재적 해결책에 대한 윤리적 논란이 빚어졌다. 이 문제와 관련하여 이 책에서는 연구 분야에 대한 응용 윤리의 역사를 추적하여 데이터 중심의 알고리즘이 제품으로 이용되어 우리의 개인적·정치적 현실을 만들어내는 방식에 응용 윤리가 어떤 영향을 미쳤는지도 아울러 살핀다.
저자 : 크리스 위긴스
컬럼비아대학교 응용수학과 부교수. 컬럼비아칼리지에서 학사학위를, 프린스턴대학교에서 박사학위를 받은 후 컬럼비아대학교에서 데이터의 역사에 관한 강의를 하며 <뉴욕타임스>의 데이터과학 부분 수석기자로 활동하고 있다. 컬럼비아대학교에서 데이터과학연구소 집행위원회의 창립회원을 맡고 있으며, 2010년에는 뉴욕시의 신생 기업과 학생을 연계해주는 비영리단체인 hackNY를 공동 설립했다. 2017년부터 매튜 존스와 함께 시작한 ‘데이터: 과거, 현재, 미래’라는 강의가 학생들에게 좋은 반응을 얻으며 그 강의 내용이 이 책의 토대가 되었다.
저자 : 매튜 L. 존스
컬럼비아대학교 역사학 교수이자 데이터과학 및 사이버 보안 분야의 전문가. 케임브리지대학교와 하버드대학교에서 과학기술사로 석사학위와 박사학위를 받은 후 초기 근대 유럽의 정보기술의 역사에 대해 연구하고 있다. 저서로는 《과학혁명 속의 좋은 삶(The Good Life in the Scientific Revolution)》(2006), 《물질에 대한 계산(Reckoning with Matter)》(2016)이 있다.
역자 : 노태복
한양대학교 전자공학과를 졸업했다. 환경과 생명운동 관련 시민 단체에서 해외교류 업무를 하던 중 번역의 길로 들어섰다. 과학과 인문의 경계에서 즐겁게 노니는 책들 그리고 생태적 감수성을 일깨우는 책들에 관심이 많다. 옮긴 책으로 『꿀벌 없는 세상, 결실 없는 가을』, 『생태학 개념어 사전』, 『생각하는 기계』, 『진화의 무지개』, 『19번째 아내』, 『우주, 진화하는 미술관』, 『우리는 미래에 조금 먼저 도착했습니다』, 『수학의 쓸모』, 『아인슈타인이 괴델과 함께 걸을 때』 등이 있다.