요즘 많이 언급되는 통계학 지식 중 이것만큼 유용한 것은 없는 것 같다. 책을 읽고 이해한 것을 다음에 정리한다.
간단히 말하면, 베이즈 정리는 어떤 사실을 알았을 때 그 사실에 연관된 다른 사실이 일어날 확률을 계산하는 방법이다. 예를 들어 설명하는 것이 가장 좋겠다. 보통 많이 나오는 예는 이렇다.
내가 건강검진을 받았는데, 검진 결과 어떤 병의 양성 판정을 받았다. 만약 검진이 아무 오류 없이 100% 정확하다면 내가 그 병에 걸려 있을 확률은 100%이다. 하지만 모든 검진은 완벽하지 않고 오류가 있다. 이 검진이 건강한 사람도 병에 걸려 있다고 판정할 확률을 5%라고 하자(즉, 건강한 사람 100명 중 5명이 양성 판정을 받는다). 반면, 실제 병에 걸려 있는데 검진이 양성으로 판정할 확률은 간단히 100%라고 하자(이 확률도 실제로는 100%보다 작을 수 있다). 지금 양성으로 판정 받은 내가 실제 병에 걸려 있을 확률은 얼마일까?
이 확률을 계산하기 위해서는 한 가지 중요한 정보가 더 필요하다. 실제 이 병이 발병할 확률이다. 이 병이 발병할 확률을 1%라고 하자. 100명 중 1명 정도로 이 병이 발병한다는 뜻이다. 왜 이 확률이 필요하냐 하면, 100명 중 99명은 건강하지만, 이 중 5%가 양성으로 판정되기 때문이다. 이 숫자는 꽤 크다. 대상 인구를 그냥 100명으로 잡으면, 99명x0.05 = 4.95명이다. 반면 100명 중 1명은 실제로 발병한 사람이고, 이 사람은 검진시 양성으로 판정된다. 그럼 내가 실제 발병한 사람에 들어갈 확률은 1/(1 + 4.95) = 0.168, 즉 16.8%이다. 아주 높지도, 그렇다고 완전히 무시할 확률도 아니다.
베이즈 정리는 위의 계산을 다음처럼 규칙화 해 놓았다.
P(발병|양성) = P(양성|발병)xP(발병)/P(양성)
의미는 이렇다. 좌변의 P(발병|양성)은 ‘조건부 확률conditional probability’로서 검사에서 양성으로 나왔는데 실제로도 발병한 확률이다. 이게 우리가 알고 싶은 확률이다. 이 확률을 조건부 확률이라고 얘기하는 이유는 ‘양성’을 ‘조건’으로 해서 실제 ‘발병’한 확률을 따지기 때문이다. 주의할 점은 조건을 세로줄 다음에 적는다는 것이다. 이게 영어식 표현이라 영어식으로 생각하는 것이 자연스럽다. 영어식으로 말하면 P(발병|양성)은 ‘Probability of 발병 for the given condition of 양성’이다. 양성의 조건일 때 실제로 발병한 확률이다.
그 다음 우변의 P(양성|발병)은 우리가 이미 알고 있는 정보이다. 앞과 마찬가지로 해석하면, 발병했는데 양성 판정을 받을 확률이다. 위의 예에서 이 확률은 1이다(100%).
P(발병)은 발병할 확률이다. 이 확률은 0.01이다(1%).
마지막으로 P(양성)의 확률이 필요하다. P(양성)은 양성이 나올 확률이다. 양성이 나올 확률은 두가지 경우가 있다. 실제 발병해서 양성이 나올 확률이 있지만 건강해도 양성이 나올 확률이 있다. 식으로 적으면 이렇게 된다.
P(양성) = P(양성|발병)xP(발병) + P(양성|건강)xP(건강)
P(양성|발병)xP(발병)은 실제 발병해서 양성이 나올 확률이다. 발병할 확률[P(발병)]에 발병한 사람이 양성으로 판정 받을 확률[P(양성|발병)]을 곱했다. 각 사건event[1]이 독립적일 경우 위와 같이 각 확률을 곱한다(책에서는 이것을 ‘직적시행’이라고 했다).
한편, P(양성|건강)xP(건강)는 건강하지만 양성 판정을 받을 확률이다. 전체 P(양성)은 각 사건이 나올 확률을 더한 것이다. [두 사건이 중첩되는 부분(교집합)이 없을 경우, 각 확률을 그냥 더하는 것을 ‘확률의 가법법칙加法法則’이라고 한다.]
위와 같은 베이즈 정리를 이용해서 문제를 풀어보면 다음과 같다:
P(발병|양성) = (1)(0.01)/[(1)(0.01) + (0.05)(0.99)] = (0.01)/(0.01 + 0.0495)
= (0.01)/(0.0595) = 0.168
위에서 얻은 답과 정확히 일치한다.
베이즈 정리를 좀 더 일반적인 기호로 적으면 다음과 같다:
P(A|B) = P(B|A)P(A)/P(B).
말로 표현하면, B일 때 A일 확률[P(A|B)]은, A이면서 B일 확률[P(B|A)P(A)]을 B일 확률[P(B)]로 나눈 것(B일 확률로 정규화normalization[2]한 것)이다. 때때로 P(A)를 prior(사전 확률), P(A|B)를 posterior(사후 확률)라고 부르기도 한다. 사건 B의 관찰로 인해 P(A)가 P(A|B)로 바뀌기 때문이다. 사전 확률 P(A)를 사후 확률 P(A|B)로 바꾸어 주는 것은 P(B|A)/P(B)이다. 앞의 예를 이용하면, 검사 전에 발병 확률(사전 확률)은 1%[P(발병)]였지만, 검사에서 양성 판정을 받은 후에 발병 확률(사후 확률)은 16.8%[P(발병|양성)]로 증가했다고 말할 수 있다. 발병 확률이 양성 판정으로 인해 약 17배 증가했다.
베이즈 정리는 현대에 여러 분야에서 정말 다양하게 활용되고 있다. 베이즈 통계의 역사와 활용에 대해서는 다음의 책을 참조해도 좋겠다.
[1] 이 책에서는 사건(event)을 ‘사상事象’이라고 했다. 사상은 예전에 쓰던 말이라고 한다. 통계전공자가 책을 감수해서 요새 우리가 사용하는 용어와 함께 영어 표현도 적어주면 120%일 뻔했다. '직적시행', '가법법칙', 너무 어렵고 안 와 닿는다.
[2] 가능한 확률을 모두 더했을 때 1이 되도록 만드는 과정이 확률에서의 정규화이다. P(B)로 나누어 정규화한 것은 B가 발생했다는 상황을 전제하는 것이라고 생각할 수도 있다.