처음 처음 | 이전 이전 | 1 | 2 |다음 다음 | 마지막 마지막
스파크를 활용한 실시간 처리 - 실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기
제러드 마스.프랑수아 가릴로 지음, 김인범 옮김 / 한빛미디어 / 2021년 4월
평점 :
장바구니담기


한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

아파치 스파크란?

아파치 스파크는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하고 데이터 처리 작업을 분산할 수 있는 데이터 처리 프레임워크다. 이 책에서는 스파크를 활용하여 실시간 처리와 관련된 여러가지 정보들을 알려주고 있다. 

이책에서 가장 중점적으로 하는 집중하는 분야는 특히 Streaming과 관련되어있는 쪽으로 실시간에 포커스가 맞춰져있다.

이 책에서 주로 다루는 내용

대주제로써는 아파치 스파크를 사용한 스트림 처리의 기본. 구조적 스트리밍, 스파크 스트리밍,고급 스트리밍 기술과 같은 방향으로 전적으로 스트리밍 서비스와 대용량 스트리밍에 적합한 내용들 위주로 대부분의 내용들로 구성되어있었으며, 어떤식으로 코딩을 해야하는 가에 대해서도 역시 적혀져 있었다. 

Spark를 다루는 언어로는 대부분 Scala를 이용하고 있고, 스칼라를 바탕으로 스트리밍을 하는 방식에 대해서 예제를 많이 다루고 있다. 스트리밍에 필요한 API들에 대해서 자세하게 다루고 있었다. 

 

내부 내용중 구조적 스트리밍 소스에 관련하여 간략하게 보자면,  다음과 같은 내용들이 포함되어있었다. (p.153)

사용가능한 소스가 파일, 카프카 소캣, 레이트와 같은 소스들을 지정해서 구조적 스트리밍소스에 포함되있다.

그중 파일형식을 지정하기 위해서는 스칼라에서 다음과 같은 방향으로 설정해줘야한다. 

 

파일은 다음과 같은 형식을 지켜줘야한다. 

  • CSV
  • JSON
  • 파케이
  • 텍스트 등...

구조적 스트리밍을 하기위해서 필요한 직접적으로 사용할 수 있는 코드들과 어떤 것이 가능한지에 대해서 자세하게 적혀져있다. 

여러 스트리밍들에 대해서 여러 메소드들에 대한 자세한 설명, 그리고 

마지막으로...

스파크 스트리밍과 스칼라를 아는 상태를 전제로 책을 집필한듯해보였고, 대부분의 예제와 스파크를 어느정도 아는 상태에서 이 책을 보면 훨씬 더 좋은 내용들이 많이 들어있을거라고 생각한다. 내가 빅데이터와 스트리밍이 필요할정도로 규모가 큰 아키텍쳐를 다뤄보았던 경험이 없어서 크게 더 와닿지 않았던 것이 더 좋은 서평을 쓰기에 스스로의 실력이 좀 벅찼던 것이 제일 아쉬웠다. 

 




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
배워서 바로 쓰는 14가지 AWS 구축 패턴 - 서버리스에서 마이크로서비스와 AI까지, 실무에 바로 써먹는 시스템 구축 패턴 익히기
가와카미 아키히사 지음, 정도현 옮김 / 한빛미디어 / 2020년 3월
평점 :
장바구니담기


AWS를 괜찮은 효율을 가진 서비스를 사용하지 않고, EC2로 우격다짐으로 구성한다고 생각될때, 분명 더 좋은 구조가 있을 건데 무엇이 있을지 정확하게 모를때 우리 서버의 구조를 더 효율적으로 구성하고 싶을때 보면 좋은 책

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
두 번째 달, 블루문 창비청소년문학 81
신운선 지음 / 창비 / 2017년 11월
평점 :
장바구니담기


생각 해보지도 못했던 이야기가 펼쳐지는 것이 너무 무서웠다. 사실 미혼모, 혹은 아이를 가진 여성이 가질 그 이야기들은 적어도 남성인 나는 전혀 이해하지 못했는데.. 이 책을 통해 알게 되었다. 왜 그들이 이렇게 큰 짐을 지고있는가에 대한 질문을 계속해봤었다.

댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
처음 처음 | 이전 이전 | 1 | 2 |다음 다음 | 마지막 마지막