책의 내용을 간단하게 정리해보았다.
아파치 스파크는 통합 컴퓨팅 엔진이며 클러스터 환경에서 테이터를 병렬로 처리하는 라이브러리 집합이다.
스파크는 가방 활발하게 개발되고 있는 병렬 처리 오픈소스 엔지닝며 빅데이터 에 관심이있는 여러 개발자와 데이터 과학자에게 표준도구가 되어가고있다.
스파크는 파이썬, 자바, 스칼라, R) 을 지원하며 SQL 뿐만 아니라 스트리밍 , 머신러닝에 이르는 범위까지의 라이브러리를 제공한다.
스파크 기능 구성
먼저 스파크의 버전은
스파크 1.0 구조화된 데이터를 기반으로 동작하는 신규 api스파크 sql이 추가 되었다고 한다.
책에서는 스파크 다운로드 페이지와 예제소스를 제공하고있다.
https://spark.apache.org/downloads.html
스파크 설치후 아래와 같이 spark 명령을 실행하면 sparksession을 확인할수있다.
책은 그림도 적절히 인용되어 설명을 쉽게 풀이 해주었다.
스파크는 dataset,dataframe,sql 테이블 그리고 rdd라는 몇가지 핵심 추상화 개념을 가지고 있다.
이개념 모두 분산 데이터 모음을 표현한다. 이중 가장 쉽고 효율적인 dataframe은 모든 프로그래밍 언어에서 사용할수있다.
스파크는 모든 익스큐터가 병렬로 작업을 수행할수 있도록 파티션이라 불리는 청크 단위로 데이터를 분할한다.
파티션은 클러스터의 물리적 머신에 존재하는 로우의 집합을 의미한다.
스파크에 대해 입문하는데 이책을 통해 어려움이 없었고, 자세한 설명과 예제를 통해 스파크에 대해 한발더 다가갈수있었다.