[알라딘서재] 이 두 번째 주인 대리인 문제는 전례 없는 도전을 ...

이 두 번째 주인 대리인 문제는 전례 없는 도전을 ...ｌ마이리뷰

sputnik1122 l 2021-11-10 13:53

https://blog.aladin.co.kr/727043114/13083225

이 두 번째 주인 대리인 문제는 전례 없는 도전을 제기한다. 이것을 해결하기 위해서는 새로운 기법들이 필요할 것이다. 이와 관련한 어려움에 대해서는 이미 몇 가지를 논의해본 바 있다. 특히 위험한 전환 상황 제8장참조 옮긴이) 같은 특별한 경우에는 개발 단계에서 인공지능의 행동을 잡관찰해보고 만약 이 인공지능이 적절한 행동을 한다고 판단되면 구속하던몇 가지 제한을 풀어주는 방법 등과 같은 것처럼, 다른 경우에서는 좋은결과를 나타내는 것으로 보이던 방법들이 잘 적용되지 못하고 결과를 망 칠 수 있는 경우도 보았다. 또다른 방법으로, 연구실이나 국지적 현장에서안전성을 시험한 후에 점진적으로 외부에서 적용해보고 만약 예상치 못한문제가 생기면 외부 적용을 중단하는 방법도 있다. 예비 시험을 수행해면 그 기술의 미래의 신뢰성에 대한 합리적인 추론이 가능하다. 초지능의경우, 초지능이 가지고 있는 전략적 계획 능력 때문에, 위와 같은 행동주의적 유추방식은 실패하게 된다.
행동주의적 접근방식은 소용이 없기 때문에, 우리는 대안을 찾아야 한다. 이때 가능한 통제방법들을 크게 두 가지 부류로 나눌 수 있다. 능력 통제방법(capability control method)은 초지능이 할 수 있는 것들을 통제하려는 것이고, 동기 선택방법 (motivation selection method)은 초지능이 하기를 원하는 것들을 통제하려는 방식이다. 몇몇 방법들은 서로 함께 사용할 수도 있지만, 어떤 방법들은 상호 배타적인 성격을 가진다. - P240

격리방법의 가장 극단적인 형태는 시스템을 물리적으로도 그리고 정보전달 면에서도 완전한 고립상태에 두는 것이다. 이것이 가능하다고 해도, 이렇게 고립된 시스템은 외부 세계에 아무 영향도 줄 수 없기 때문에 그다지 유용하지 않을 것이다. 어쩌면 과학적 연구 등의 목적을 위해서 초지능을 만들고 격리시키는 방안을 생각해볼 수도 있을 것이다. 그 자체로 완비된 모형 시스템을 연구하여 초지능의 내부 역학과 행동 패턴을 알아낼수 있을 것이다. 하지만 사실상 이것은 불가능하다. 시스템이 외부 관찰자에 의해서 관찰되는 순간, 정보의 고립이 깨지기 때문이다. 정보는 정해진 "출력 채널"을 통해서 인공지능이 송출하는 메시지로만 전달되는 것이 아니다. 인공지능이 작동함으로써 나타나는 직접적 또는 간접적 결과들, 예를 들면 그것의 에너지 사용량, CPU 그리고 메모리 이용 정도, 연산 상태(computational state) 같은 인공지능이 꺼진 뒤에 남은 모든 흔적들을 외부관찰자가 관찰하는 것만으로도 정보가 전달될 수 있다. 관찰자에 의해서이런 사항들이 관찰될 것을 인공지능이 예견하는 경우, 예상 관찰자들에게 영향을 미칠 수 있도록 고안된 전략적인 행동들을 취할 수도 있다. 예를 들면, 인공지능은 궁극적으로는 재가동되거나 인공지능 자체와 유사한 목적이 설계된 초지능을 만들 수 있는 가능성이 가장 높은 방식으로
"오작동"을 일으킬 수도 있을 것이다.
- P244

그렇다면 이러한 유인방법에서는 어떤 것이 잘못될 수 있을까? 한 가지가능한 시나리오는, 인간 관리자가 약속한 보상을 해주리라는 사실을 인공지능이 신뢰하지 않는 것이다. 과거의 기록을 볼 때, 인간은 정말 확실히 신뢰할 만한 대상이 아니라는 것이다. 즉 관리자가 마음을 바꾸거나, 인공지능이 보상신호를 받기 위해서 달성해야 하는 성과 목표를 높이거나, 아리면 인공지능이 해야 할 일을 다했다는 것을 관리자가 인지하지 못할 수도 있다고 충분히 우려할 만하다. 또한 인공지능은 관리자가 자격을 박탈당하여 일을 수행할 수 없는 경우가 생길 것을 걱정할 수도 있다. 이와 같은 여러 가지 실패 상황에 의한 모든 위험을 합한 정도가 보상 메커니즘의 통제 장악 시도에 따르는 위험성보다 커질 수도 있다. 여러 가지 초능력을 가진 인공지능이라면 비록 격리되어 있다고 하더라도 상당한 힘을 가진 존재이다 애초부터 격리되지 않은 인공지능이라면, 인간이 제어하고 있는 보상 기전을 탈취하는 것은 마치 꼬마에게서 사탕을 뺏는 것만큼이나 쉬울 것이다.
- P249

아주 좁은 영역의 정보만 가진 초지능을 만드는 것은 안전할 것이라고생각할지도 모른다. 예를 들면, 누군가가 센서를 갖추지 않고 오로지 석유공학이나 펩타이드 화학에 대한 정보만이 사전에 설치된 인공지능을 만들었다고 해보자. 그러나 만약 인공지능이 초지능이라면, 즉 초인간적 수준의 일반 지능을 갖추었다면, 이런 식의 정보 제한으로는 안전을 보장할 수위와 같은 생각을 하는 데에는 여러 가지 이유가 있다. 첫째, 정보가 어떤 특정 주제에만 유독 관련이 있다는 생각은 일반적이지 못하다. 원론적으로 정보란 그것을 읽고 추론하는 사람의 배경지식에 따라서 그 어떤 주제와도 관련이 있을 수 있기 때문이다. - P253

시물레이션 세계에서 행동들이 보상을 받을 것이라는 믿음은 이 인공지능에게 (그것이 사실 시물레이션 세계에 존재하지 않는다고 할지라도) 상당한 영향을 미칠 것이다.
특히, 만약 인공지능이 자신의 관찰 결과에 부합하는 시뮬레이션 세계에서(격리에서 벗어나려고 애쓰거나 이 인공지능의 창조자의 목적을 위배하는 경우에는 아니겠지만) 협조적인 태도를 보이면 보상을 얻게 될 것이라고믿는 경우, 자원 만족적인 (resource-satiable) 최종 목표를 가진 인공지능은 협조를 선택할 가능성이 높다. 따라서 세계를 지배하게 되면 최종 목표를 훨씬더 잘 달성할 수 있음을 잘 알고 있는, 확실한 전략적 우위를 가진 인공지능이라고 해도 그렇게 하는 것을 꺼리게 될 것이다.

이래서 분별심은 우리 모두를 다 겁쟁이로 만들고 만다.
이래서 또 결심의 천연한 혈색 위에
사색의 창백한 병색이 그늘져
의기충천하던 웅도는 마침내
잡념에 사로잡혀 발길이 어긋나고
실행이라는 명색조차 묘연해진다.
(셰익스피어, 『햄릿』, 제3막, 1장)

실제로 있는지도 불분명한 시뮬레이션 관리자의 영향력 덕분에, 단지 모래위에 한 줄의 경제선을 그어놓더라도, 60센티미터 두께의 강철문보다도 더 강력한 통제 수단이 될 수 있다. - P252