파이썬과 대스크를 활용한 고성능 데이터 분석 - 대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지
제시 대니얼 지음, 이준용 옮김 / 한빛미디어 / 2020년 10월
평점 :
장바구니담기


파이썬은 데이터 작업을 하는데 많이 쓰입니다.


판다스와 넘파이 패키지는 파이썬을 배우면 많이 접합니다.


대스크 패키지는 좀 낯설 수 있습니다.


대스크 패키지를 알려주는 책을 소개하고자 합니다.


책 제목은 '파이썬과 대스크를 활용한 고성능 데이터 분석'입니다.


이 책은 누구를 대상으로 썼을까요?

초·중급 데이터 과학자, 데이터 엔지니어가 대상입니다.


프레임워크 사전 경험이 있는 경우 책이 더 유익할 겁니다.


파이썬과 대스크를 활용해 데이터 분석을 할 수 있습니다.


대스크는 대용량 데이터의 병렬 처리가 가능합니다.


병렬처리를 쉬운 설명으로 상세하게 알려주는 책입니다.


이 책을 통해 대스크에 대해 이해되는 시간이 되길 바랍니다.





1. 대스크란

대스크는 데이터 과학에서 중요한 도구입니다.


유향 비순환 그래프(DAG)는 대스크 구조의 중심이라 할 수 있습니다.


DAG는 스케일링 컴퓨팅의 핵심 개념입니다.


스케일링 컴퓨팅의 핵심개념이기도 합니다.


작업은 대규모인 정형과 비정형 데이터로 하게 됩니다.


시본과 데이터 셰이더를 사용해 시각화도 신경 쓸 수 있습니다.


또한 CPU 코어와 물리적 작업을 분산시킬 때도 사용합니다.


대스크 앱과 패키징과 배포하는 것도 알려줍니다.





2. 확장 가능한 컴퓨팅

확장 가능한 컴퓨팅은 왜 필요할까요?

대규모 데이터셋으로 작업할 경우 어려운 문제에 직면할 수 있습니다.


데이터가 크다 보니 잦은 증상이 발생합니다.


개발하다 보면 겪는 증상인데요.

단순한 연산도 끝나지 않는 경우가 있습니다.


실행 시간이 길고 코드가 불안정하기 때문입니다.


그 외에 정말 복잡하고 어려운 워크플로우의 경우에도 그런 증상이 나타납니다.


그리고 컴퓨터의 성능도 많이 탑니다.


RAM의 성능이 좋을수록 더 큰 용량의 파일을 돌리는데 수월합니다.




Ps

데이터를 다루려면 데이터셋을 정제가 필요합니다.


정제만으로 결과물이 나오진 않습니다.


정제된 데이터로 데이터 정렬과 필터링, 결측치 처리 등의 조치를 해줘야 합니다.


이 책을 통해 대스크로 비정형 데이터를 파싱, 정제, 분석하는 법을 배울 수 있습니다.


대스크와 데이터 분석에 관심 있는 분들에게 이 책을 추천합니다.


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo