그 외에도 1부에서는 복고 트랜드와 관련해서 "죠크박(스크류바 모양에 죠스바와 수박바를 섞어 놓은 소위 뉴트로 감성의 신제품)"이라는 처음 듣는 제품명도 나오고, 수입차 구매 트랜드 관련해서는 1인당 소득과 급여소득자 비중이 높은 지역일수록 수입차 비중이 높다는 사실 등을 객관적인 데이터를 통해서 흥미롭게 알려주고 있다.
2부는 데이터 분석가를 위한 "6장. 데이터 인사이트를 찾기 위해 필요한 모든 것", 운영자를 위한 "7장. 데이터 파이프라인에서 배포까지, 운영은 실전이다!", 데이터 과학자를 위한 "8장. 데이터는 원유일까, 단지 검은 액체일까?", CEO를 위한 "9장. 데이터를 가진 CEO를 위한 맛집 레시피"로 구성되어 있다.
데이터 분석가를 위해서는 도메인 지식이 중요함을 특히 강조하고 있다.
현실적으로 데이터과학자를 꿈꾸는 신입의 절반 이상은 데이터 운영자가 된다고 한다. 묵묵히 데이터를 만들어내는 일이 어떤 것인지 확인할 수 있게 해준다.먼저 데이터를 표준화하고, 데이터 입수, 전처리, 라벨링(전처리 2단계), 가공에 이르는 데이터 파이프라인 구축, 데이터 검수 등의 업무에 대해 실무적으로 고려할 사항을 포함해서 알려주고 있다.
가트너가 발표한 2020년도 IT트랜드에 '전문성의 민주화(Democratiaztion of Expertise)'라는 단어가 등장했다고 한다. 비전문가들이 추가적으로 값비싼 훈련을 받지 않고도 단순화된 경험을 통해 머신러닝, 앱 개발 등의 기술이나 판매 프로세스, 경제분석 등의 전문지식을 얻을 수 있는 민주화 시대가 열리고 있다는 의미라고 한다. 머신러닝과 같이 전문적인 것처럼 보이는 분야에 누구나 접근할 수 있는 시대가 되어가고 있고, 빅데이터 시대에 대응하기 위해 치열하게 움직이고 있는 지금, 저자는 우리의 노력이 적절한 대처법인지 의문을 가질 필요가 있다고 한다.
저자는 데이터 분석을 요리과정에 비유하면서 요리재료를 도마에 올려놓는 것에 해당하는 데이터 입수과정에서부터 시행착오를 겪을 수 있다는 현실적인 얘기를 해주고 있다. 데이터 직군의 신입지원자들의 이력서에 등장하는 캐글 경험에서는 정제된 데이터를 다루는 경우가 많은데, 현실에서는 데이터가 여기저기 흩어져 있고, 외부에서 전달받은 데이터는 난생 처음 보는 확장자의 모습을 하고 있고, 데이터베이스 이외의 특정 위치에 존재하는 파일을 전달받을 방법을 모색해야 하는 경우 등 다양한 상황이 존재한다. 물론 실제 분석은 IT 부서에서부터 시작하는 경우가 많아 특정 위치에 저장되어 있는 데이터가 텍스트 형태, XML, JSON 등 파일 형태로 분석가에게 전달되는 경우가 많고, 이렇듯 IT담당자가 파일을 가져다 밥상을 차려주기 전에 IT 담당자의 언어로 요구하는 바를 명확하게 전달할 수 있어야 한다. 이후 잘 알려진 것처럼 데이터분석의 80%를 차지한다는 전처리도 본격적인 혼란이 시작되는 지점은
'도메인 기반 전처리'라고 하고 있다. 원본 데이터, 변수 타입을 확인하고, 결측치, 이상치 등을 확인하고 처리하는 작업과 달리 도메인 지식에 기반한 전처리는 현업을 이해하고 관련 지식을 모아야 수행할 수 있는 경우가 대부분이기 때문이다.