-
-
스파크를 활용한 실시간 처리 - 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
제러드 마스.프랑수아 가릴로 지음, 김인범 옮김 / 한빛미디어 / 2021년 4월
평점 :
아파치 스파크는 SQL, 스트리밍, 머신러닝, 그래프 처리를 위한 대규모 데이터 처리용 통합 분석 엔진입니다.
스파크는 분산 시스템에 속하는데요.
주로 인 메모리 처리 아키텍처에 쓰입니다.
스파크에 관심 있는 분들에게 추천하고 싶은 책이 있습니다.
책 제목은 '스파크를 활용한 실시간 처리'입니다.
여기서는 스파크는 아파치 스파크를 줄여서 말하겠습니다.
이 책을 통해 스트리밍 데이터를 처리하는 방법을 배워가는 시간이 되길 바랍니다.

1. 스트림
분석 도구로 빠르게 인사이트를 얻으려면 어떻게 해야 할까요?
데이터를 실시간처리 하는 방법을 알아야 합니다.
실시간 처리라 하면 생방송을 예로 들 수 있습니다.
생방송이 중간에 끊기면 시청자들은 불만을 느끼게 됩니다.
끊김 없이 바로바로 처리되어야 문제가 없는 겁니다.
이처럼 데이터를 처리할 때 실시간 처리가 잘 이뤄져야 오류 없이 실행됩니다.
직렬과 병렬을 비교하면 직렬보다 병렬이 빠르게 동작합니다.
병렬처리는 속도는 빠르지만, 비용이 많이 듭니다.

2. 분산처리
분산처리는 쉽게 표현해보겠습니다.
100명의 사람이 한길로 가게 되면 오랜 시간이 걸리게 됩니다.
하지만 100명의 사람이 10개의 길로 간다면 시간은 십 분의 일이 줄어듭니다.
분산처리란 자원을 효과적으로 관리하는 것을 의미합니다.
간단한 경우 설명이 쉽지만 복잡한 구조의 경우 구조에 대한 이해가 필요합니다.

Ps
아파치 스파크 이론과 예제를 통해 학습하신다면 스파크를 이해하는 데 도움 될 것입니다.
기본개념부터 머신러닝을 사용하는 고급 스파크 스트리밍 기술까지 알려줍니다.
이 책을 통해 스파크 스트리밍 라이브러리와 최신 구조적 스트리밍 API를 배울 수 있습니다.
스트리밍은 사람들이 실시간 처리로 알고 있습니다.
데이터 처리 방식에는 예를 들어 일괄처리방식이 있는데요.
데이터를 모아뒀다가 일괄적으로 처리하는 것을 말합니다.
스파크가 궁금하신 분들은 이 책을 한 번 읽어보시길 추천합니다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.