스파크를 활용한 실시간 처리 - 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
제러드 마스.프랑수아 가릴로 지음, 김인범 옮김 / 한빛미디어 / 2021년 4월
평점 :
장바구니담기


스파크를 잘 써보고자 한다면

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

스파크는 각광받는 분산처리 프레임워크입니다. 데이터를 메모리에 두고 처리하기 때문에 처리 속도가 매우 빠릅니다. 물론 이로 인해 공간의 제약을 받기 때문에 많은 양의 데이터를 한꺼번에 처리하기 힘들다는 단점을 가지고 있지만, 램의 발전 속도가 멈추지 않고 있기 때문에 날이 갈수록 더욱 고용량의 메모리를 적정한 가격에 구비할 수 있는 것도 사실입니다. 특히 해당 도서에서 자랑하고 있는 실시간 처리를 위해서는 한꺼번에 처리해야 하는 양보다는 처리 속도가 더 중요한 지표이기 때문에 이런 상황에서 스파크는 몇 없는 선택지 중 하나가 됩니다. 더구나 스칼라, 자바 뿐만 아니라 pyspark 등을 사용하면 python 으로도 사용할 수 있기 때문에 접근성이 꽤 높다는 장점도 있지요.


실시간 데이터 처리를 위해서라면

본 책에서는 실시간 처리 과정에서 일어날 수 있는 다양한 상황과 이런 상황에서 사용할 수 있는 방법들을 일목요연하게 정리하여 제시해주고 있습니다.

스파크를 사용하고 있는 기업은 제법 많지만 국어로 번역되어 나온 스파크 서적 중 개념서 이상의 책은 많지 않은 것으로 알고 있습니다. 물론 다른 좋은 책도 많지만 실시간 데이터 처리를 하고자 하는 사람에게는 이 책이 매우 좋은 가이드북이 될 수 있을 것이라고 생각합니다.

더구나 책 말미에는 실시간 ML에 적용하는 방법 등도 제시하고 있는데 유사한 ML 파이프라인을 구축해보고자 하는 사람들에게도 좋은 안내서가 될 것입니다.


어디까지나 "잘"(!) 쓰고자 하는, 목적에 충실한 책

그렇습니다. '잘' 쓰고자 하는 사람을 위한 책이지 '써보고자' 하는 사람을 위한 책은 아닙니다. 더구나 예제 코드가 스칼라 이외에는 제공되지 않기 때문에 자바나 파이썬으로 스파크를 접한 사람에게는 바로 적용하기 힘든 레퍼런스가 될 수도 있겠다는 생각도 듭니다.

위 도서에서는 스파크에 대한 자세한 설명 없이 (이미 알고 있다고 생각하고) 실시간 처리를 적용하는 단계로 넘어갑니다. 만약 스파크를 처음 접하는 사람에게는 같은 출판사의 '스파크 완벽 가이드'가 더 좋은 안내서가 될 수 있을 것으로 생각합니다. 무턱대고 대상 도서를 사는 사람은 없었으면 하는 바람이 있습니다.

아무튼 스파크를 사용해 본 경험이 있고, 이를 바탕으로 스트리밍을 프로덕션 단계에 적용하고자 하는 사람에게는 최고의 책이겠지만 그렇지 않은 사람에게는 다른 동네의 이야기가 될 수도 있겠다는 생각이 들었습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo