나이스한 데이터 분석 - 데이터가 말하는 트렌드
나이스지니데이타 지음 / 이콘 / 2021년 11월
평점 :
장바구니담기




책을 읽은 느낌을 한 문장으로 표현하자면 작지만 강하다인것 같다. 책 크기는 작고, 200페이지 정도 분량이지만 데이터 분석에 관심이 있는 독자들에게 얕지 않은 지식을 제공하고 있다고 생각한다.

책은 1부와 2부로 나뉘어져 있다. 1부에서는 데이터를 활용한 트렌드 사례를 제시하고 있다. 2부는 빅데이터 담당자들이 실전에서 해야 할 일과 하지 말아야 할 실수들에 대해 이야기한다.

1부에서는 소셜 검색량, 시장점유율, 판매량 데이터 분석, 다양한 공공, 민간 데이터 등을 활용해서 우리 주위에서 일어나는 현상과 트랜드에 대해 데이터를 이용해 객관적으로 설명하고 있다. 통계로 치면 기술(descriptive) 통계와 같은 느낌이다.

1부 내용중 특히 관심을 끌었던 부분은 주류시장에 대한 것이었다. 나이스지니데이터가 보유한 전국 약 10만 개의 POS 가맹점과 약 70만 개의 외식산업에 참여중인 카드 가맹점들의 거래 데이터 중 소주와 맥주 판매량과 매출 정보를 활용해 분석을 진행한 결과라고 한다. 개인적으로 청량감에 소주보다는 맥주를 선호하고, 요새는 테라를 즐겨 마신다. 맥주 제조사에도 별 관심이 없는데, 2019년 상반기까지만 해도 오비맥주가 전국 맥주 시장점유율의 80%를 차지하면서 시장을 독차지하는 듯 했지만, 하이트진로가 2019년에 새롭게 출시한 테라가 '공유 맥주'라고도 불리는 광고효과에 힘입어 출시 100일만에 1억병 판매 기록을 세웠다고 한다. 이런 시장 상황을 반영하듯이 2020년 2분기 기준 오비맥주는 54%, 하이트진로맥주는 39%의 점유율을 보이고 있음을 그래프를 통해 알 수 있었다. 나도 그렇고 주위에서 테라 맥주를 많이 마시는 것같다는 느낌이었는데 객관적인 데이터도 이를 뒷받침함을 알 수 있었다.

수입맥주 얘기에서 'NoNo Japan' 영향으로 가정에서 소비되던 수입맥주 시장에서 오랫동안 시장점유율 1위를 차지하던 일본맥주인 '아사히'의 판매량은 전년도 대비 90% 이상 하락한 처참한 결과를 맞이했고, 반면 이에 힘입어 수입맥주내 시장점유율 2, 3위를 다투던 '칭타오', '하이네켄'의 점유율은 반등했다는 내용도 흥미로왔다. 갑자기 최근 유니클로의 매출 상황은 어떤지 궁금해졌다.



그 외에도 1부에서는 복고 트랜드와 관련해서 "죠크박(스크류바 모양에 죠스바와 수박바를 섞어 놓은 소위 뉴트로 감성의 신제품)"이라는 처음 듣는 제품명도 나오고, 수입차 구매 트랜드 관련해서는 1인당 소득과 급여소득자 비중이 높은 지역일수록 수입차 비중이 높다는 사실 등을 객관적인 데이터를 통해서 흥미롭게 알려주고 있다.

2부는 데이터 분석가를 위한 "6장. 데이터 인사이트를 찾기 위해 필요한 모든 것", 운영자를 위한 "7장. 데이터 파이프라인에서 배포까지, 운영은 실전이다!", 데이터 과학자를 위한 "8장. 데이터는 원유일까, 단지 검은 액체일까?", CEO를 위한 "9장. 데이터를 가진 CEO를 위한 맛집 레시피"로 구성되어 있다.

데이터 분석가를 위해서는 도메인 지식이 중요함을 특히 강조하고 있다.

현실적으로 데이터과학자를 꿈꾸는 신입의 절반 이상은 데이터 운영자가 된다고 한다. 묵묵히 데이터를 만들어내는 일이 어떤 것인지 확인할 수 있게 해준다.먼저 데이터를 표준화하고, 데이터 입수, 전처리, 라벨링(전처리 2단계), 가공에 이르는 데이터 파이프라인 구축, 데이터 검수 등의 업무에 대해 실무적으로 고려할 사항을 포함해서 알려주고 있다.

가트너가 발표한 2020년도 IT트랜드에 '전문성의 민주화(Democratiaztion of Expertise)'라는 단어가 등장했다고 한다. 비전문가들이 추가적으로 값비싼 훈련을 받지 않고도 단순화된 경험을 통해 머신러닝, 앱 개발 등의 기술이나 판매 프로세스, 경제분석 등의 전문지식을 얻을 수 있는 민주화 시대가 열리고 있다는 의미라고 한다. 머신러닝과 같이 전문적인 것처럼 보이는 분야에 누구나 접근할 수 있는 시대가 되어가고 있고, 빅데이터 시대에 대응하기 위해 치열하게 움직이고 있는 지금, 저자는 우리의 노력이 적절한 대처법인지 의문을 가질 필요가 있다고 한다.

저자는 데이터 분석을 요리과정에 비유하면서 요리재료를 도마에 올려놓는 것에 해당하는 데이터 입수과정에서부터 시행착오를 겪을 수 있다는 현실적인 얘기를 해주고 있다. 데이터 직군의 신입지원자들의 이력서에 등장하는 캐글 경험에서는 정제된 데이터를 다루는 경우가 많은데, 현실에서는 데이터가 여기저기 흩어져 있고, 외부에서 전달받은 데이터는 난생 처음 보는 확장자의 모습을 하고 있고, 데이터베이스 이외의 특정 위치에 존재하는 파일을 전달받을 방법을 모색해야 하는 경우 등 다양한 상황이 존재한다. 물론 실제 분석은 IT 부서에서부터 시작하는 경우가 많아 특정 위치에 저장되어 있는 데이터가 텍스트 형태, XML, JSON 등 파일 형태로 분석가에게 전달되는 경우가 많고, 이렇듯 IT담당자가 파일을 가져다 밥상을 차려주기 전에 IT 담당자의 언어로 요구하는 바를 명확하게 전달할 수 있어야 한다. 이후 잘 알려진 것처럼 데이터분석의 80%를 차지한다는 전처리도 본격적인 혼란이 시작되는 지점은

'도메인 기반 전처리'라고 하고 있다. 원본 데이터, 변수 타입을 확인하고, 결측치, 이상치 등을 확인하고 처리하는 작업과 달리 도메인 지식에 기반한 전처리는 현업을 이해하고 관련 지식을 모아야 수행할 수 있는 경우가 대부분이기 때문이다.



CEO를 위한 조언에서는 우리가 흔히 알고 있는 빅데이터의 특성인 3V(Volume, Velocity, Variety)에 더해 새로운 V들, 즉 정확성(Veracity), 가변성(Variability), 시각화(Visualization)로 확장되는, 데이터에 관심 있는 사람들이라면 알만한 내용에 추가로 3VD를 얘기하고 있다. Very Dirty, Very Difficult, Veri Dangerous가 그것이다. 궁극적으로 데이터 비즈니스를 왜 해야 하는지에 대한 이해가 필요하다고 강조하고 있다.

길지 않은 내용이지만 주위에서 쉽게 접할 수 있는 내용과 데이터 전문 집단에서 실제 업무를 수행하면서 겪는 현실적인 어려움에 대해 간결하고 진솔하게 얘기해주는 것같아 데이터분석을 나이스하게 하고자 하는 독자들에게 많은 도움이 될 것이라 감히 말씀드린다.

"서평단 이벤트에 당첨되어 출판사로부터 책을 제공받아 작성하였습니다."



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo