머신러닝이든 고전적 회귀이든 당시 가장 좋은 방법은 직관과 통계 실험을 함께 사용해 변수와 모델을 선택하는 것이었다. 이제 머신러닝 기법, 특히 딥러닝 기법은 모델에 유연성을 허락한다. 이 말은 변수가 예기치 않은 방식으로 서로 결합할 수 있다는 뜻이다. 청구하는 달의 이른 시기에 기본 통화 시간을 다 사용해 통화 요금이 많이 나오는사람은 늦게 통화 시간을 채워 요금이 많이 나오는 사람보다 이탈할 가능성이 적다. 아니면 주말 장거리 통화 요금이 많이 나오면서 요금을연체하고 문자를 많이 보내는 사람은 특히 이탈할 가능성이 높다. 이런 조합은 예상하기가 어렵지만 예측에는 큰 도움이 된다. 이런 조합은 미리 알기 어렵기 때문에 표준 회귀 기법으로 모델을 만드는 사람은 예측할 때 이런 것들을 포함시키지 않는다. 하지만 머신러닝은 프로그래머가 아닌 기계에 어떤 조합과 어떤 상호작용이 중요한지 선택할 수 있는여기를 준다. - P58
2008년의 금융위기는 회귀 기반의 예측 방식이 대실패를 맛본 사건이었다. 사태가 위기로 치닫게 된 것은 부채담보부증권collateralized debtohlizations, 즉 CDO의 상환 가능성을 예측하지 못한 탓이 컸다. 2007년에스탠더드앤푸어스 Standard & Poor‘s 같은 신용평가 기관은 AAA등급 CDO가 5년 뒤에 수익을 내지 못할 확률을 800분의 1미만으로 예측했다. 그러나 5년 뒤에 수익을 내지 못한 CDO는 네 개 중 하나 꼴이었다. 채무불이행에 대한 과거 자료가 풍부했음에도 불구하고 그들의 초기 예측은 크게 빗나갔다.
실패의 원인은 자료 부족이 아니라 분석가들이 예측을 하기 위해데이터를 사용한 방식에 있었다. 신용평가 기관들은 다중회귀 같은 모델을 근거로 예측을 내놓았는데 그 모델은 여러 시장의 주택 가격이 아무런 관련이 없는 것으로 추정하고 있었다. - P59
분석가들은 그들이 중요하다고 믿은 것에 대한 가설을 근거로 회귀모델과 방법론을 만들었다. 사실 그런 믿음은 머신러닝에는 불필요한것이었다. 머신러닝 모델은 많은 변수 중에 어떤 것이 가장 잘 작동할지 판단하고, 중요한 것과 중요하지 않은 것을 구분하는 일에 특히 능숙하다. 이제 한 분석가의 직관과 가설은 그다지 중요하지 않다. 이런식으로 머신러닝은 라스베이거스와 피닉스와 마이애미의 주택 가격이함께 움직일 수도 있다는 사실을 포함해, 예기치 못한 여러 가지 상호관계를 근거로 정확한 예측을 할 수 있게 해 준다. - P59
|