-
-
무자비한 알고리즘 - 왜 인공지능에도 윤리가 필요할까
카타리나 츠바이크 지음, 유영미 옮김 / 니케북스 / 2021년 1월
평점 :
인상깊은 구절
모든 그룹을 모든 면에서 공평하게 대우하는 해법은 없다. 이것은 디지털상에서 이루어지는 결정의 특수성이 아니다.
각각의 집단이 어떤 행동을 서로 다른 비율로 할 때 모든 결정이 그러하며, 인간이 내리는 결정도 언제나 마찬가지이다. (pg 238)
인공지능, 머신러닝, 빅데이터, 알고리즘...
아마 요새 가장 핫한 키워드들이 아닐까 싶다.
미래 직업으로 각광받는 분야이기도 하니 미래를 준비하는 청소년, 자녀를 키우는 부모들에게도 관심있는 주제일 수밖에 없다.
개인적으로도 관심은 있지만 그런 개념들이 구체적으로 무엇을 뜻하는지는 잘 몰랐었는데
한 권으로 관련 키워드들을 공부할만한 책인 것 같아 접하게 되었다.
생물학 전공의 자연과학자였다가 데이터가 주는 통계적 의사결정에 매료되어 데이터 과학자가 된 독특한 이력을 가진 저자가
알고리즘의 개념부터 차근차근 설명해주면서 현재 인공지능이 어느 정도 수준에 와 있고, 이 인공지능에서 활용되는 알고리즘을
우리는 어떻게 활용해야 하는지 구체적인 판단 기준까지 상세히 서술하고 있는 책이다.
'왜 인공지능에도 윤리가 필요한가?'라는 부제가 달려 있다.
총 330여 페이지로 살짝 두꺼운 감이 느껴지는 책인데 앞의 약 200페이지 정도까지는 핵심개념을 설명해주고 있다.
사실 인공지능 관련 핵심 용어들의 개념을 잘 모른다 할 지라도 인공지능에 윤리가 필요하다는 주장에 대강은 동의할 수 있을 것이다.
하지만 핵심개념들을 이해한다면 저자가 주장하는 바를 더 정확히 이해할 수 있기 때문에 앞 부분을 잘 읽는 것이 중요하다.
저자가 전문가 입장에서 일반 독자들을 위해 최대한 쉽게 설명하려 노력한 흔적이 많이 보이고 번역도 매끄러운 편이지만
태생이 문돌이인 내 입장에서는 그런 저자와 번역가의 노력에도 불구하고 핵심 개념들을 온전히 이해했는지 여전히 의문이긴 하다.
내가 이해한 바를 최선을 다해 정리하면, 고전적인 알고리즘은 수학공식으로 명확하게 기술할 수 있다.
'이런 인풋을 이렇게 가공하여 이런 아웃풋을 도출하라.'라고 하는 매우 명확한 프로세스를 고전적인 의미에서의 알고리즘이라고 한다.
하지만 머신러닝을 통해 빅데이터라는, 말 그대로 어마어마한 양의 데이터 속에서 인간이 쉽게 찾을 수 없는 연관성을 찾아내는 것도
알고리즘이라고 부르고 있는데, 이는 고전적인 의미에서의 알고리즘과는 매우 다른 것이다.
이런 형태의 알고리즘은 '이런 엄청난 인풋이 있는데 여기에서 보이는 경향성을 분석하여 이번에는 무엇이 좋을지 추천해보라' 정도의
문장으로 정의할 수 있는 알고리즘인 것이다.
고전적인 의미에서의 알고리즘은 설계자가 의도한 바를 100% 구현하는 것이므로 결과값을 다르게 해석할 여지가 거의 없으며
알고리즘 설계가 옳다면 항상 최적의 결과값을 도출하게 된다.
예를 들어 네비게이션에 현존하는 모든 도로의 데이터가 들어 있고, 현재 위치와 목적지 간의 최단거리 길을 찾도록 알고리즘이 짜여
있다면 새로운 도로가 나지 않는 이상 이견의 여지가 없는 값이 도출된다.
하지만 머신러닝을 통해 얻어지는 결과값은 이런 형태의 결과값이 아니다.
저자가 설명해준 바에 의하면 빅데이터를 활용한 머신러닝 방식은 고전적인 알고리즘 방식이 아니라 일종의 휴리스틱이기 때문이다.
예를 들어 한 인터넷 사이트에 수 많은 사람들이 수 많은 상품을 구매한 데이터가 입력된 알고리즘이 있다고 한다면,
내가 그 사이트에 로그인 할 경우 30대 남자에게는 이런 구두가 잘 팔리므로 잘 팔리는 구두 순서대로 추천을 한 뒤
구두와 매칭할만한 옷들을 추천해 주는 방식으로 작동할 것이다.
그 목록들 중 내가 어떤 것을 사거나 혹은 사지 않는다면 그 데이터가 또 다른 사람의 의사결정에 활용되는 데이터가 되고
이것이 축적되면서 더욱 정교한 추천 목록을 작성하는 알고리즘으로 성장하게 된다.
즉 이런 형태의 알고리즘이 도출하는 결과값이 '반드시 이걸 사게 될 껄!'이 아니라 '이걸 좋아할 확률이 높은거 같은데?' 정도의
결과값이라는 것이 중요하다.
결국 기대하는 결과값의 형태가 일단 다르고,
고전적인 알고리즘에 비해 결과값의 도출 과정에 설계자가 예상할 수 없는 변수가 많으며
결과값 역시 인간의 해석을 필요로 한다는 것이 둘 사이의 가장 큰 차이로 보인다.
문제는 이런 점에도 불구하고 해당 알고리즘을 의사결정 전반에 확대해 활용하고자 하는 움직임들이 있다는 것이다.
빅데이터를 통해 도출된 '경향성' 자체가 주는 신비로움 때문이다.
가령 마트에서 기저귀를 구매하는 사람들이 맥주도 함께 구매하는 비율이 높다는 결과가 나왔다면
마트 입장에서는 마케팅 포인트로 매출을 높일 좋은 기회가 된다.
왜 기저귀와 맥주가 그런 상관관계를 보여주는지는 관심 대상이 아니다.
물론 어떤 검색어를 입력할 때 AI가 자동으로 연관 상품을 올려주는 것 정도는 우리 삶에 큰 부작용을 가져다 주지도 않을 뿐더러
때로는 편할 때도 있을 것이다.
실제로 기저귀를 사는 사람들의 대부분이 맥주도 산다면 기저귀 옆에 맥주가 있으면 쇼핑이 더 편리할 것이다.
(물론 그 AI가 활용하는 데이터들이 그 데이터를 생산한 자들의 동의를 얻었는지는 별개의 문제이다.)
하지만 채용 과정에 AI를 도입한다거나 법정에서의 형량결정 등 인간의 삶에 상당한 영향을 주는 결정도
이런 인공지능에게 맡기고자 하는 시도들이 늘어나고 있는데,
저자는 이런 부분에 많은 사람들의 적극적인 개입이 필요하다고 보고 있다.
고전적인 알고리즘처럼 '이 사람은 범죄자다'라는 결과값을 주는 것이 아니라
'이 사람과 비슷한 사람들 중 70%가 범죄자가 된다' 정도의 결과값을 주는 알고리즘을 믿고
이 사람을 잠재적인 범죄자로 취급하는 의사결정을 내리게 된다는 것이다.
어쩌다 많은 사람들이 기계가 인간에 대해 인간보다 더 나은 판단을 할 수 있다고 여기게 된 것일까?
그것은 우선 컴퓨터가 인간은 도저히 분석할 수 없는 양의 데이터를 처리할 수 있기 때문이다.
하지만 내게 그보다 더 중요해 보이는 것은 현재 우리 스스로 인간의 판단력을 별로 신뢰하지 못한다는 점이다. (pg 8)
그러나 분명한 것은 학습하는 요소를 가진 인공지능은 늘 플랜B일 따름이라는 것이다.
알고리즘이 학습하는 결정규칙은 늘 구체적인 트레이닝 데이터와 선택된 많은 변수들에 좌우되고,
머신러닝의 대부분의 방법에서 늘 인간이 이해할 수 없는 결과가 나온다. (pg 203)
분명 기계가 인간보다 나은 결정을 할 수 있는 분야가 있다.
머신러닝 알고리즘이 인간을 능가하는 면은 다음과 같다.
1) 임의의 데이터에서 상관관계를 찾을 수 있다는 점
2) 다양한 상관관계를 찾을 수 있다는 점
3) 약한 상관관계도 통계 모델에 집어넣어 유익을 이끌어낼 수 있다는 점 (pg 206)
위에 해당하지 않는 사례라면 머신러닝 알고리즘을 의사결정에 활용하는 것은 단순한 '참고자료' 수준에 그쳐야 한다는 것이
저자의 핵심 주장이다.
특히 특정 국가에서 이미 시행하고 있는 것처럼 채용과정, 형량 결정, 복지 수혜자 선별 등 개별 인간이 크게 영향을 받는
결정이라면 머신러닝 알고리즘은 큰 사회적 문제를 일으킬 수 있다는 점을 지적한다.
최근 한국에서도 한 챗봇이 혐오성 발언을 쏟아내다 운영이 중지되는 사례가 있었는데,
여기서도 확인할 수 있듯이 어찌되었든 머신러닝 알고리즘은 '입력된 데이터' 안에서만 판단할 수 있다.
즉 그 데이터 자체에 문제가 있다면 알고리즘을 통한 해결책도 고스란히 같은 문제를 담고 있을 수밖에 없다는 것이다.
게다가 데이터의 수집에서부터 다양한 윤리적, 사회적 문제에 봉착한다.
이런 편향에서 어려운 것은 해석이다.
부적합 평가를 받은 지원자들도 해당 업무를 잘 해낼 수 있었던 건 아닐까?
이것이 부당한 차별일까?
이 예에서는 기계가 데이터 안에서 차별을 발견했고, 차별을 계속 이어갔다는 것만 확인할 수 있을 뿐이다.
그러므로 한마디로 정리하자면, 이전에(정당하건 부당하건) 차별이 있었다면,
기계는 이 차별을 학습할 거라는 사실이다. (pg 224)
그러므로 데이터 확보가 이미 편향된 사회를 그대로 반영하고 있다면 인공지능을 통한 해결책 역시 편향성을 가질 수밖에 없다.
그리고 그 편향성을 인지하여 이를 수정할지 말지를 판단하는 주체 역시 인간일 수밖에 없다.
모든 그룹을 모든 면에서 공평하게 대우하는 해법은 없다.
이것은 디지털상에서 이루어지는 결정의 특수성이 아니다.
각각의 집단이 어떤 행동을 서로 다른 비율로 할 때 모든 결정이 그러하며,
인간이 내리는 결정도 언제나 마찬가지이다. (pg 238)
인공지능 전문가들 사이에서는 현재 인류가 개발한 인공지능의 수준이 '극도로 약한 인공지능'에서 '매우 약한 인공지능' 정도로
개선되었을 뿐이라고 말한다.
선진국들의 경쟁적인 투자로 더 강한 인공지능으로의 개발이 지속될 것으로 보이는데
저자는 의외로 이 부분에 대해서 부정적인 견해를 보이고 있었다.
인간에 대한 알고리즘 기반 의사결정 시스템에서 대부분의 결정은 현재와 미래의 행동에 관계된다.
이 사람이 근무에 적합한 자질이 있을까? 대출금 상환을 할까? 테러리스트일까?
여기서는 100퍼센트 옳은 결정규칙은 거의 존재하지 않는다.
그러므로 기계의 결정은 늘 통계적 특성을 띨 수밖에 없다. -중략-
인간은 범행을 저지르거나 저지르지 않거나 둘 중 하나다.
70퍼센트의 절도나 폭행은 없다.
그런 결과는 통계적 표현이다. (pg 241)
하지만 내가 이해할 수 없는 것은 어째서 인간들이 이 세상의 실험실에서는 비학문적으로 여기는 것을 기계에게는 허용하는가이다.
관찰을 통해 가설을 세우고는 이 가설을 테스트해보지도 않고,
곧바로 다른 상황을 판단하는 데 활용하도록 허락하고 있지 않은가. (pg 277)
강한 인공지능의 유용성이 리스크보다 더 높을 수 있을까?
인류가 삶의 문제들에 대해 올바른 질문을 찾아내지 못할 만큼 미련하지 않기에,
강한 인공지능을 개발할 이유는 없다고 본다. (pg 296)
정리하자면 인공지능에도 윤리가 필요하므로 해당 부분에서 활약할 수 있는 인재들의 양성은 물론이고,
인공지능 활용에 관련 전문가들의 적극적인 개입도 분명 필요하다.
(관련 인재들은 최근 한국 고등교육에서 열광적으로 요구되는 '융복합적인 인재'의 전형이 될 것이다.)
하지만 저자는 현재 이상으로 강한 인공지능이 인류에게 꼭 필요한 것인가도 자문하고 있다.
그 유용성에 비해 사회적으로 미치는 부작용이 너무 클 것이라 우려하고 있는 것이다.
데이터 과학자로서 밝힌 주장이기에 읽는 입장에서는 매우 의외라고 느껴지는 부분이었다.
솔직히 쉽게 읽히는 책은 아니었다.
하지만 천천히 읽으면서 관련 개념들을 이해하다 보니 그 전에 가지고 있었던 인공지능에 대한 환상이나
막연한 기대감이 많이 사라지는 느낌이었다.
인공지능이 인류의 모든 문제를 해결할 수 있게 되거나, 혹은 반대로 인류를 지배하거나 하는 미래가 생각보다도
아직 많이 멀었다는 점도 잘 알 수 있었다.
그리고 그런 '강한' 인공지능에 대한 저자의 생각에도 조금씩 동의가 되는 책이었다.