보상함수=의도를 추론한 후, 학습한다!

응과 그의 연구진은 인간 전문가가 이런 곡예비행을 수행하는 동안 리모컨에 입력하는 값을 기록했다. 하지만 AI가 인간 전문가를 직접 모방하도록 훈련하지 않고(이런 방식은 효과가 없었다), AI가 먼저 전문가가 의도한 궤적을 추론하도록 훈련시켰다. 인간이 무엇을 시도하려 했는지 추론하게 한 것이다. 그 다음에는 AI 시스템이 그 궤적을 따르도록 훈련시켰다. 

이런 기술을 ‘역강화학습‘이라고 부르는 이유는 시스템이 먼저 인간 전문가가 최적화하고 있다고 믿는 보상함수 rewardfunction(의도)를 먼저 학습한 다음, 추론한 보상함수를 이용해 스스로를 보상하거나 처벌하면서 시행착오를 통해 학습하기 때문이다. 

역강화학습 알고리즘은 관찰된 행동에서 출발해 자체적인 보상함수를 만들어내는 반면, 표준 강화학습에서는 보상함수가 변경할 수 없도록 하드코딩 hard coding 되어 있을 뿐 학습되지 않는다. 전문가라도 헬리콥터를 조종할 때 계속해서 작은 실수를하고, 그런 실수를 지속적으로 만회한다. 응의 AI 시스템은 먼저 의도된 궤적과 동작을 확인함으로써 조종과 관련 없는 조종사의 오류들을 걸러내는 동시에 자신의 오류를 수정했다. 2010년에 웅의 AI 시스템은 이런 역강화학습을 이용해 자율적으로 헬리콥터를 조종해서 곡예비행를 수행하는 데 성공했다. - P379


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo