이처럼 면도날로 도려내듯 단순한 모델이 최선이라는 원칙을 오컴의 면도날 Occam‘s Razor 이라합니다.
_ 내비게이션 중- P378
무엇보다 이 방식은 대중의 지혜를 발휘합니다. 엄청나게 똑똑한 의사결정나무가 내린 정답보다 평범한 100개의 나무가 내린 정답을 모두 종합하면 그 결과가 훨씬 더 훌륭하다는 얘기죠. 오류에 견고할 뿐만 아니라 성능 또한 훨씬 더 좋습니다. 이 모델의 이름은 랜덤 포레스트 Random Forest 입니다. 나무를 만들기 전에 데이터를 무작위로 Random 추출하고, 나무가 여러 개 모여 숲 Forest을 이룬다는 의미죠. 모델의 원리에 잘 어울리는 멋진 이름입니다.
_ 내비게이션 중- P391
먼저 의사결정나무를 하나 만듭니다. 그리고 이 나무에서 오류가발생하면 실수를 바로 잡는 새로운 나무를 만듭니다. 이 과정을 오류000를 최소화할 때까지 계속해서 반복합니다. 잔차를 계속해서 줄여나가는 거죠. 잔차의 기울기 Gradient를 줄여나간다고 하여 그레이디언트 부스팅 Gradient Boosting이라고 합니다.
_ 내비게이션 중- P392
이렇게 추천 서비스를 하는 이유는 사람들의 기호에 강한 연관성이 있기 때문입니다. 이를 분석하는 것을 연관성 분석 Association Analy-sis이라고 하는데, 상품 간의 상관관계를 찾아내는 데 매우 유용하죠. 추천 시스템을 도입한 아마존이 가장 먼저 적용한 분석 방식이기도합니다. 그렇다면 연관성 분석이 무엇인지 살펴볼까요?
_ 추천 알고리즘 중- P411