-
-
파이썬과 대스크를 활용한 고성능 데이터 분석 - 대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지
제시 대니얼 지음, 이준용 옮김 / 한빛미디어 / 2020년 10월
평점 :
파이썬은 데이터 작업을 하는데 많이 쓰입니다.
판다스와 넘파이 패키지는 파이썬을 배우면 많이 접합니다.
대스크 패키지는 좀 낯설 수 있습니다.
대스크 패키지를 알려주는 책을 소개하고자 합니다.
책 제목은 '파이썬과 대스크를 활용한 고성능 데이터 분석'입니다.
이 책은 누구를 대상으로 썼을까요?
초·중급 데이터 과학자, 데이터 엔지니어가 대상입니다.
프레임워크 사전 경험이 있는 경우 책이 더 유익할 겁니다.
파이썬과 대스크를 활용해 데이터 분석을 할 수 있습니다.
대스크는 대용량 데이터의 병렬 처리가 가능합니다.
병렬처리를 쉬운 설명으로 상세하게 알려주는 책입니다.
이 책을 통해 대스크에 대해 이해되는 시간이 되길 바랍니다.

1. 대스크란
대스크는 데이터 과학에서 중요한 도구입니다.
유향 비순환 그래프(DAG)는 대스크 구조의 중심이라 할 수 있습니다.
DAG는 스케일링 컴퓨팅의 핵심 개념입니다.
스케일링 컴퓨팅의 핵심개념이기도 합니다.
작업은 대규모인 정형과 비정형 데이터로 하게 됩니다.
시본과 데이터 셰이더를 사용해 시각화도 신경 쓸 수 있습니다.
또한 CPU 코어와 물리적 작업을 분산시킬 때도 사용합니다.
대스크 앱과 패키징과 배포하는 것도 알려줍니다.

2. 확장 가능한 컴퓨팅
확장 가능한 컴퓨팅은 왜 필요할까요?
대규모 데이터셋으로 작업할 경우 어려운 문제에 직면할 수 있습니다.
데이터가 크다 보니 잦은 증상이 발생합니다.
개발하다 보면 겪는 증상인데요.
단순한 연산도 끝나지 않는 경우가 있습니다.
실행 시간이 길고 코드가 불안정하기 때문입니다.
그 외에 정말 복잡하고 어려운 워크플로우의 경우에도 그런 증상이 나타납니다.
그리고 컴퓨터의 성능도 많이 탑니다.
RAM의 성능이 좋을수록 더 큰 용량의 파일을 돌리는데 수월합니다.

Ps
데이터를 다루려면 데이터셋을 정제가 필요합니다.
정제만으로 결과물이 나오진 않습니다.
정제된 데이터로 데이터 정렬과 필터링, 결측치 처리 등의 조치를 해줘야 합니다.
이 책을 통해 대스크로 비정형 데이터를 파싱, 정제, 분석하는 법을 배울 수 있습니다.
대스크와 데이터 분석에 관심 있는 분들에게 이 책을 추천합니다.