[eBook] 데이터과학자의 사고법 - 더 나은 선택을 위한 통계학적 통찰의 힘
김용대 지음 / 김영사 / 2021년 3월
평점 :
장바구니담기


많은 분야에서 전수조사는 시간과 비용의 제약으로 불가능합니다. 그래서 표본조사에 의존합니다. 그런데 신기하게도 적은 표본조사로 얻은 데이터를 통해 전수조사 데이터의 정보를 거의 복구할 수 있습니다.

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서

표본조사가 대표성을 확보하기 위해서는 표본을 공정하게 뽑아야 합니다. 공정하게 뽑는다는 것의 의미는 표본이 모집단을 잘 반영해야 한다는 것입니다. 이는 생각보다 어려우며, 데이터과학의 역할이 중요해지는 지점입니다. 공정하게 표본을 뽑는 첫 걸음은 모집단으로부터 무작위로 표본을 뽑는 것입니다. 즉, 조사자의 편이가 들어가지 않도록 뽑아야 합니다

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서

조사자는 답변자에게 동전을 던지게 하여 앞면이면 성매매 관련 질문을, 뒷면이면 정시 확대 관련 문제를 답변하게 합니다. 단, 동전을 던진 결과는 조사자에게 알려주지 않습니다. 조사자는 답변자가 어떤 문제에 대답을 했는지 모릅니다. 예와 아니오 중 하나만 기록합니다. 이렇게 조사하면 답변자의 프라이버시는 완벽하게 보호됩니다.

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서

흥분하지 말고 한번 더 확인하는 것이 다중비교의 오류를 피하는 가장 효과적인 방법입니다.

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서

어떻게 쓰레기 같은 빅데이터에서 새로운 가치를 창출할 수 있을까요? 그건 바로 빅데이터는 ‘모으는 자료’가 아니라 ‘모이는 자료’이기 때문입니다. 모으는 자료는 목표를 정한 후에 데이터를 모읍니다. 반면에 모이는 데이터는 목표가 없이 데이터가 모이고 이후에 데이터로부터 새로운 가치를 발견합니다.

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서

빅데이터는 우리에게 큰 기회를 제공합니다. 하지만 빅데이터 자체가 전부가 아니라는 점을 명심해야 합니다. 빅데이터로부터 찾아내는 새롭고 유용한 지식이 빅데이터의 가치를 결정합니다.

-알라딘 eBook <데이터과학자의 사고법> (김용대 지음) 중에서


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo