-
-
세상에서 가장 쉬운 베이즈통계학 입문 ㅣ 세상에서 가장 쉬운 시리즈 (지상사)
고지마 히로유키 지음, 장은정 옮김 / 지상사 / 2017년 3월
평점 :
베이즈통계학 입문
내가 고등학생 시절에는 대입시험 수학과목에 확률과 통계는 나와야 딱 한 문제였다.
시험을 11월 말에서 12월 초쯤에 치다보니 교과과정상 마지막에 놓여진
확률과 통계는 매우 기본적인 것만 시험에 나올 수 있었다.
그러니 학교에서 제대로 배울 수도 없었고, 필요가 없다고 생각하였다.
그런데, 살아보니 수학 중에서 가장 많이 현실에서 쓸모가 있는 부분이 이것이었다.
그래서, 학교를 졸업하고 스스로 어설프게 확률과 통계를 독학하였다.
누군가가 잘 설명해 주었다면 쉽고 간단했을 내용을 참 어렵게 학습한 것이다.
대학에 들어가 영어 원서로 참 어렵게 배우기까지 하였다.
교수는 뜬금없이 수학기호로 p(a) 같은 표현을 사용하였고,
영어로 무슨무슨 조건 또는 무슨 사건이라고 case란 표현도 사용하였다.
직장 생활을 하면서 이렇게 저렇게 해서 도표의 그래프로 이해하게 되었고,
전체 면적이 1이라고 하면 어느 조건 즉, x축 구간에 따라서, 면적이 전체의 얼마인지
확륙이 어떻게 되는지 좀더 수학답게 이해할 수 있게 되었다.
대학시절 컴퓨터를 전공하였지만, 머리 아픈 수학과목은 모두 피해 다니다 보니
인공지능 수업에서 등장한 베이지안 네트워크는 이름만 들어보았었다.
그러다, 취직을 하고 CRM(Customer Relation Management)란 경영지원, 마케팅
프로그래밍을 하면서 다시 이 주제와 마주쳤다. 그때는 그냥 남이 만들어둔
알고리즘을 이해도 못하고 그냥 입출력만 관심을 두고 사용하였다.
오늘 소개하려는 베이즈통계학은 매우 오래전에 출현한 통계학인데, 오늘날
소프트웨어 분야와 여러 사업 전반에서 고르게 활용 중이고,
그 내용은 어떻고, 사용은 어떤지를 간략히 설명하려 한다.
일반 통계학은 유의수준이니 신뢰구간이니 결과적으로 확률이 어떠니를 이야기한다.
이야기하다 보니 이 책의 초반은 확률을 이야기하는데, 제목은 통계학이다.
확률과 통계는 결국 한 몸이란 이야기이다. (나 또한 예전에는 이런 생각을 못했다.)
일반 확률통계는 현시점의 가능성만 검통한다. 시간 변화에 따른 조건변화는 고려치 않는다.
인공지능에서 베이즈통계를 이야기하는 것은 시간 변화를 고려하기 때문이다.
즉, 사전확률로 1차를 판별하고, 시간 경과 후 무시할 조건을 빼고 남은 가능성에
비중을 높이기 때문이다. 이렇게 시간경과를 모델링하게 되면서 학습기능이 부가된다.
따라서, 인공지능의 학습이란 것과 자연스럽게 통하게 되는 것이다.
이 책에서 스팸메일 필터링에 베이즈통계가 사용됨을 설명한다.
보통은 스팸메일 필터링은 그저 특정 키워드 비교로 되어 있다고 생각한다.
하지만, 그것은 매우 초보적인 형태이고, 잘못된 결과를 유발할 수 있다.
만남을 주선하는 스팸메일을 필터링하기 위해서 그냥 "만남"이란 단어만 필터링한다면
실제로 스팸이 아닌 약속 메일 조차 필터링되어 곤란할 수 있다.
그런데, 대체로 스팸들은 피싱메일의 전형적인 형태로 웹URL 링크를 담고 있다.
이런 조건이 학습되어 추가되면 좀더 현실적이고 정확한 필터링 규칙이 된다.
하지만 이 또한 정상메일을 스팸으로 처리할 수 있다.
사용자가 잘목된 스팸을 신고한다면, 스팸필터는 또 한번의 학습이 가능해 진다.
학습을 통해서 베이즈통계의 조건이 좀더 강화되고 확률이 높은 필터규칙으로 개선된다.
이 책은 비교적 쉽고 흥미롭게 베이즈통계를 설명하였다.
이 책에 관심갖는 업종이 소프트웨어보다 경제계란 사실이 더욱 흥미로왔다.
그도 그럴 것이 모든 사업들이 결국 돈과 관계되어 있고,
돈과 관련해서 오류나 오차는 허용되지 않기 때문일 것이다.
소프트웨어 개발자도 무조건 라이브러리(남이 만들어 놓은 검증된 소프트웨어 패키지)만
사용할 것이 아니라, 그 내부의 의미를 이 책으로 숙지하는 것이 양질의 프로그램으로
도출될 것이니 꼭 한번 읽어보길 권한다.
천천히 두세번을 본다면 분명 입문서지만 충분할 것이라 생각된다.