-
-
알고리즘이 지배한다는 착각 - 수학으로 밝혀낸 빅데이터의 진실
데이비드 섬프터 지음, 전대호 옮김 / 해나무 / 2022년 2월
평점 :
알고리즘이 지배한다는 착각
이 책은 그간 우리가 인터넷상에 남긴 많은 활동의 흔적들이 데이터로 남아 오히려 그것이 우리를 옥죄이고 있다는 주장, 알고리즘이 우리를 지배한다는 그 말이 과연 사실인지 아닌지를 알아보고 싶어 읽었다.
알고리즘, 이제 그것에 매여 있다는 말들이 있어, 과연 그런가 하는 마음으로 읽었다.
알고리즘이 지배한다는 착각, 과연 그게 착각인지 아닌지?
우리에 관해서 가장 많이 아는 사이트는 페이스북이다. (38쪽)
그건 사실이다. 오늘도 페이스북에 접속해서, 나는 몇 건의 ‘좋아요’를 눌렀다.
그런 사용자들의 행태를 수집하여, 학자들은 이런 걸 연구한다.
스탠퍼드 경영대학원의 미할 코진스키는, 우리가 누르는 ‘좋아요’를 이용하여 우리가 누구인지 가늠할 수 있을까, 하는 것을 연구주제로 삼았다. (51쪽)
그결과 그는 이런 결론에 도달했다.
각각의 ‘좋아요’가 사용자에 관하여 약간의 정보를 제공하며 많은 ‘좋아요’를 수집하면 그가 개발한 알고리즘으로 신뢰할 만한 결론들을 도출할 수 있다는 사실이다. (52쪽)
그런 일단의 연구 결과에도 불구하고, 저자는 이렇게 주장한다.
“페이스북과 스포티파이부터 여행사와 스포츠 컨설팅 회사까지, 온갖 업체가 우리를 분류하고 우리의 행동을 설명하는 알고리즘을 제공한다고 주장하는 오늘날, 나는 그 알고리즘들의 정확도에 대해서 더 많이 알아볼 필요가 있다. 과연 그 알고리즘들은 우리를 얼마나 잘 알까? 혹시 그것들은 더 위험한 다른 오류들을 범하고 있지 않을까?” (86쪽)
알고리즘과 관련, 저자가 보내는 경고들
편향없음은 불가능하다.
판결 알고리즘과 관련해서, 저자는 이런 결론을 내린다.
제니퍼 스팀이라는 학자는 이런 발언을 인용하면서, 편향은 어쩔 수가 없다는 편에 선다.
판결 알고리즘이 흑인 피고인과 백인 피고인에 대해서 똑같이 조정되어 있으며, 따라서 편향이 없다는 결론을 내렸다. (103쪽)
그리고 그 편향에 관한 논의중 빠진 게 있는데, 바로 이것이라고 덧붙인다.
현존하는 제도와 알고리즘의 편향성을 비교하면 어떨까?
과연 어느 쪽이 더 편향인가 하는 물음이다. 그 말은 결국 알고리즘이 보여주는 편향성보다 현존하는 제도에서 실제 판사가 보여주는 편향성이 더 심하다는 말이다.
알고리즘이 문제가 아니라, 데이터를 수집 활용하는 사람이 문제다.(117쪽)
알고리즘이 영리한 게 아니다. 영리함은 데이터 연금술사들에게서 나온다. 그들은 데이터를 고객에 대한 자기네의 지식과 결합한다.
페이스북과 그것이 우리의 삶에 미치는 영향을 두고 많은 사람들이 호들갑을 떤다. 그러나 내가 대규모 연구들을 꼼꼼히 재검토하고 관련 연구자들과 대화한 후에 느낀 바는 연구 결과들이 언론에서 거의 항상 왜곡되거나 과장된 형태로 보도된다는 것이다. (221쪽)
현재 구글, 페이스북, 트위터가 사용하는 알고리즘의 가장 큰 한계는 우리가 주고받는 정보의 의미를 제대로 이해하지 못한다는 점이다. (258쪽)
그런 결과에 대하여, 저자는 알고리즘의 가치를 이렇게 평한다.
“경험에 바탕을 두고 말하자면, 우리의 행동에 대한 알고리즘의 예측은 타인의 예측만큼 정확한 수준에 전혀 미치지 못한다. 알고리즘의 한계를 잘 아는 사람이 사용할 때, 알고리즘은 최고의 성능을 낸다.” (117쪽)
알고리즘이 무용한 것은 아니다. 비록 정확도는 인간과 대등하다 하더라도, 알고리즘은 속도의 측면에서 엄청나게 유용할 수 있다. (121쪽)
그러니 저자는 알고리즘의 유용성에 대하여 부정하는 게 아니라, 그 알고리즘이 잘 못 쓰여지는 데에 주의를 하자는 것이다.
이런 사건들 흥미있다.
저자는 알고리즘의 문제와 우리가 그 문제에 대처하는 방법을 제시하면서, 그 과정에서 현재의 인터넷, 인공지능의 발전상을 소개하고 있는데, 그중에 흥미로운 것이 있는데, 저자와 챗봇 ‘미츠쿠’와의 대화 한 장면이다. 다소 길지만 다 적어둔다.
내가 미츠쿠에게 “당신은 모든 질문에 항상 똑같이 대답합니까?”라고 묻자, 미츠쿠는 이렇게 말했다. “항상 똑같지는 않아요. 나의 봇마스터는 내가 8 메가 바이트 이상의 대답들을 할 수 있도록 프로그래밍했습니다,”
그래서 나는 똑같은 질문을 다시 했는데, 미츠쿠는 똑같이 대답했다. 그러나 세 번째로 똑같은 질문을 던지자, 신경질을 냈다.
“당신은 모든 질문에 항상 똑같이 대답합니까? 난 그것보다 더 많은 단어들을 아는데 그저 로봇일 뿐이에요.”
“미안해요.” 내가 답했다.
“괜찮아요. 결국 당신은 그저 인간일 뿐이니까요.” (292쪽)
챗로봇과 인간의 대화, 흥미롭다.
챗로봇이 신경질을 내다니, 그정도 수준이 되었다는 것이다.
그러나 이런 한계도 있다.
미츠쿠는 한계가 있다. 현재 자신이 하고 있는 대화의 내용을 기억하지 못한다.
내가 미츠쿠의 농담에 크게 웃었을 때, 미츠쿠는 나에게 왜 웃느냐고 물었다.
그래서 나는 당신이 방금 한 말을 다시 해보라고 했는데, 엉뚱하게도 “물론 나는 말할 수 있죠”나 “좋아요, 말할게요” 같은 대답만 할 뿐, 내가 듣고자 하는 것은 방금 한 농담이라는 사실을 알아채지 못했다.
나는 그 농담을 it 이라는 대명사로 가리켰는데, 미츠쿠는 그“it”의 의미을 전혀 알지 못했다. (293쪽)
다시 이 책은?
바야흐로 인터넷 시대다.
아니, 이미, 벌써, 인터넷 시대의 복판에 깊숙이 들어와 살고 있어서인지, 우리가 사는 시대가 어떤 시대인지를 이제 잊고 사는 것은 아닌가?
그래서 우리의 처지가 어떤 것인가를 확실하게 알아야 하기에, 인터넷을 비롯한 발전하는 과학에 관심을 기울이고 있었다. 특히나 뉴미디어에 속하는 SNS나 스마트 폰이니 하는 데에서 벗어나지 못할 바에야 확실하게 알아두자는 마음이다.
“경험에 바탕을 두고 말하자면, 우리의 행동에 대한 알고리즘의 예측은 타인의 예측만큼 정확한 수준에 전혀 미치지 못한다. 알고리즘의 한계를 잘 아는 사람이 사용할 때, 알고리즘은 최고의 성능을 낸다.” (117쪽)
그래서 손자가 말하기를 ‘지피지기는 백전백승’이라 했으니, 알고리즘에 대해서도 우리가 관심을 가지고 살펴야만 알고리즘의 포로가 되는 것을 막을 수 있을 것이다. 이 책 그런 목적으로 아주 유용하게 사용할 수 있을 것이다.