데이터 분석의 힘 - 그 많은 숫자들은 어떻게 전략이 되는가
이토 고이치로 지음, 전선영 옮김, 이학배 감수 / 인플루엔셜(주) / 2018년 8월
평점 :
장바구니담기


 

 

    1. 2018년, 제습기 광고에 1억원을 사용했다.
    2. 2018년, 매출액 전년대비 20억원 증가했다.

 

 

    이 2가지의 결과를 가지고 ‘광고비 1억원을 사용하니 매출이 20억원 증가했다.’라고 단정 지을 수 있을까? 혹은 ‘광고비 1억 = 매출액 20억원’이라는 공식을 사용할 수 있을까?

    아니다. 단정 지을 수 없다.

    데이터 분석의 목적은 대개 ‘어떤 요인 X가 결과 Y에 영향을 미쳤는가?를 확인하는 것이다.
    그런데 사실 데이터에서 인과관계, 즉 원인과 결과를 정확하게 이끌어 내기는 것은 상당히 어렵다.
    우리는 인과관계와 상관관계를 혼동하는 경우가 많다.
    그러나 인과관계는 상관관계와는 완전히 다르다. 상관관계는 X와 Y가 서로 관계가 있음을 의미할 뿐이다. 원인과 결과가 아니다.


    인과관계의 분석은 너무나 중요하다.
    비즈니스 현장이나 정책 형성 과정에서 인과관계를 잘못 파악하면 효과가 좋으리라고 생각했던 판단이 예측하지 못했던 결과를 가져왔거나, 거꾸로 효과가 작으리라 생각했던 정책이 실제로는 큰 효과를 가져오는 등의 오류로 이어져 큰 손실이나 세금 낭비를 초래하게 되기 때문이다.

    앞서 “2018년, 제습기 광고에 1억원을 사용했다.”는 사실과 “2018년, 매출액 전년대비 20억원 증가했다.”는 사실을 인과관계로 보면 왜 안될까?  광고와 매출이라는 중간에 다른 요인이 있을 수 있기 때문이다.

    예를 들어 2018년이 전년에 비해 유난히 습하고 무더웠으며 그 기간이 또한 길었다면 오직 광고비만의 효과로 매출액이 20억원씩 증가했다고 볼 수 없다. 만약 무더운 기간이 짧았다면 아무리 광고비를 많이 투입했다 하더라도 매출액이 크게 증가될 수는 없기 때문이다.  혹은 매출액이 20억 증가했기 때문에 이 매출을 기반으로 광고비 1억원을 지불한 것 일 수도 있기 때문이다.  그러나 현실은 이러한 것을 인과관계로 판단하는 오류를 쉽게 범한다.


    인과관계를 밝히는 가장 좋은 방법은 RCT(무작위비교시행)법이다.
    무작위비교시행법(이하 RCT)은 개인집단과 비교집단을 나누어 비교하는 방법이다.


    RCT 방법을 사용하기 위해선
    1. 인과관계를 밝히기 위해 적절하게 집단을 만들어야 한다.(또한 반드시 비교집단을 만들어야 한다.)
    2. 집단은 반드시 무작위로 나눈다.
    3. 각 집단에 충분한 표본수를 배정한다.는 원칙이 있다.

    RCT 방법을 사용하면 인과관계를 과학적으로 보여주며, 분석 기법과 결과가 투명하다는 장점이 있으나 비용과 시간, 노력 등이 많이 들어간다는 단점도 존재한다.
    다행스럽게도 이 책에서는 RCT 방법이 어려울 경우 이를 대신하여 사용하는 다양한 방법도 제시하고 있다.

    빅데이터를 다루기 위해선 통계학이나 계량경제학을 알아야 한다는 편견이 있었으나 이 책은 그런 것을 모르더라도 빅데이터의 유용성이나 분석의 힘에 대한 필요성을 충분히 느끼게 해주고 있다.

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo