실무 예제로 배우는 데이터 공학 - 파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터 공학 환경과 파이프라인
폴 크릭커드 지음, 류광 옮김 / 제이펍 / 2021년 7월
평점 :
장바구니담기


이 글에는 스포일러가 포함되어 있습니다.

 

오늘 함께 볼 엔지니어링 관련 책은 "실무 예제로 배우는 데이터 공학" 입니다.

결론적으로 이 책의 대상은 끈기있는 엔지니어를 지망하는 분들에게 추천드립니다.

왜냐하면 책에 나오는 예제 코드가 실행되지 않는 부분들이 상당히 많습니다.

엔지니어링이 어려운 이유를 한 번 잘 생각해보면 명확한 답이 없기 때문입니다.

기술이 계속해서 발전됨에 따라 엔지니어링 관련한 코드도 계속해서 버전에 따라 바뀝니다.

이 책 또한 해외에서 2020년에 출간된 책이고 2021년에 번역된 책입니다.

책에서 보여주는 예제 코드를 미리 다운 받아서 돌려보셔도 처음부터 구동이 안될 확률이 높습니다.

책에서 나오는 기술은 파이썬, 스파크, nifi, 일레스틱서치 등 다양한 기술이 나옵니다만 대부분 책대로 되지 않습니다.

 

 

그럼 과연 이 책에서는 어떤 부분을 배울 수 있을까요?

이 책은 책 제목대로 실무를 위한 데이터 엔지니어링을 추구하고 있습니다.

하지만 이 책에서는 nifi를 주요 도구로 활용하고 있는데 nifi를 실제로 많이 활용하는지 여부는 알 수 없습니다.

저도 이 책을 통해 처음 들어본 부분이고 클라우드 서비스를 많이 활용하기 때문입니다.

때문에 이 책에서 배우는 엔지니어링 로직을 주로 익히고 데이터의 개념이 실제로 많이 봐왔던 상거래 데이터나 웹데이터랑은 약간 다른 맥락으로 배울 수 있을 것이다.

로그성 데이터에 대해서 배우게 되는데 일반적으로 볼 수 있는 분석용 데이터와는 다른 데이터입니다.

이 책을 배우다보면 파이썬의 영향력은 그닥 높지 않다는 것을 특히 느낄 수 있습니다.

중요한 것은 파이썬 보다 nifi라는 툴이 버전별로 굉장히 다른데 에러가 발생할 때마다 어떻게 에러를 해결할지에 주안점을 두어야 할 것입니다.

 

이 책에서 다뤄지는 예제를 해결하면서 가장 고통스러웠던 점은 오류를 해결하는 부분이었습니다.

특히 터미널에서 반복적인 작업을 해야하고 생소한 GUI를 다뤄야 되는 부분이 복합적으로 존재합니다.



그래서 살짝 애매한 부분은 실무 데이터 엔지니어링에 당장 적용하기에는 어려운 부분이 있다는 것입니다.

이 책을 통해 기존에 터미널, PATH 설정, 환경설정을 많이 해보시지 않으셨던 분들은 그 부분에 대해서 끈기를 기를 수 있을 것입니다.

책 자체는 두껍지 않지만 유용한 내용이 부분적으로 존재하고 실습할 내용, 에러가 엄청 많다는 것입니다.

 

이 책과 함께 엔지니어의 기본을 살펴보시길 바랍니다.

 

아마존 리뷰도 함께 참조하시면 좋을듯합니다.

https://www.amazon.com/Data-Engineering-Python-datasets-pipelines/dp/183921418X#customerReviews



댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo