쉽게 설명하면, 세포 중에는 고장 난 세포들이 일정 비율로 존재하기 마련인데, 비율이 일정해도 전체 세포 수가 많을수록 이 불량 세포의 영향이 상대적으로 줄어든다는 얘기다. 정상 세포의 절대적인 숫자가 많을수록 생물에게는 유리하다는 소리인데, 우리가 주목할 것은 뭐드지 양이 많을수록 전체적으로 왜곡이 줄어든다는 자연의 이치이다.
정육면체 주사위를 고작 여섯 번 던져서는 1이 나올 확률은 6분의1 이라는 이론을 확인할 수 없다. 1이 아예 안 나올 수도 있고 여섯 번모두 1이 나올 수도 있다. 하지만 6만 번 던지면, 장담컨대 1이 나올 확률이 6분의 1에 아주 근접하게 나올 것이다. 뭐? 아주 아주 말도 안 되는 기적이 벌어져서 6만 번 동안 1이 한 번도 안 나왔다고? 다시 6억 번을 던져라. 이번에는 분명 이론을 따르는 결과가 나올 것이다.
야이, 그럼 네가 던져봐라. 무책임한 말처럼 들릴지도 모르지만 이게빅데이터의 본질이다. 정말 압도적인 양의 샘플이 존재하면 그중 표준에서 벗어나 결과를 왜곡하는 샘플의 영향을 극적으로 낮출 수 있다. 고로 빅데이터를 잘만 활용하면 매우 정확한 예측이 가능하다.