자바와 파이썬으로 만드는 빅데이터 시스템 - 하둡, 카프카, 아파치 스파크로 연결하는 나만의 빅데이터 전처리 파이프라인 구현
황세규 지음 / 제이펍 / 2023년 5월
평점 :
장바구니담기


#자바와파이썬으로만드는빅데이터시스템 #황세규 #제이펍 #제이펍출판사 #서평 #서평이벤트 #페이스북 #자바 #파이썬 #하둡 #카프카 #아파치 #스파크 #빅데이터전처리파이프라인

페이스북 게시물을 보다가 코딩 관련 페이스북 그룹에서 제이펍 소통지원팀 직원분이 《자바와 파이썬으로 만드는 빅데이터 시스템》 도서 이벤트를 진행하고 계셨다. 빅데이터 분야에 관심이 많고 공부하고 싶어서 책의 서평 이벤트를 신청했고 당첨되어서 책을 받게 되었다.

책의 저자-황세규

연세대학교에서 기계공학을 전공했고 동 대학원에서 석사학위를 취득하였다. 소프트웨어 사업을 천직으로 여기며 끊임없는 자기계발과 인사이트를 찾으려 하는 기술 작가다. 오픈소스 기술이 가져오는 열린 마음, 포용적이고 개방적인 영향력을 체험하며 오픈소스 관련 개발 언어와 서비스에 대한 서적을 집필하고 있다. 《Eclipse와 JBoss7을 이용한 Java 웹서비스 구축》(홍릉과학출판사), 《빅데이터 프로그래밍》(지앤선)을 집필하였다.

책의 목차

머리말 viii

베타리더 후기 xii

CHAPTER 1 빅데이터 개론 1

1.1 빅데이터란? 1

1.2 빅데이터 저장과 분석 12

1.3 데이터 전처리와 람다 아키텍처 23

CHAPTER 2 개발 통합 환경 29

2.1 자바 설치 29

2.2 파이썬 설치 34

2.3 이클립스 설치 및 설정 39

2.4 저장소 설치 51

2.5 실습 데이터 63

CHAPTER 3 하둡 파일 시스템 I 89

3.1 하둡 구조 및 기능 89

3.2 하둡 파일 시스템 설치 및 설정 93

3.3 하둡 파일시스템 API 114

CHAPTER 4 하둡 파일 시스템 II 129

4.1 자바 실습 프로젝트 129

4.2 파이썬 실습 프로젝트 172

CHAPTER 5 카프카를 이용한 데이터 송수신 197

5.1 카프카의 개념과 기능 197

5.2 카프카 설치 및 설정 202

5.3 카프카 메시지 서비스의 API 211

5.4 자바 실습 프로젝트 224

5.5 파이썬 실습 프로젝트 231

CHAPTER 6 아파치 스파크 배치 작업 I 237

6.1 아파치 스파크의 개념과 하부 프로젝트 237

6.2 아파치 스파크 설치 및 설정 242

6.3 아파치 스파크 SQL API 252

CHAPTER 7 아파치 스파크 배치 작업 II 295

7.1 자바 실습 프로젝트 295

7.2 파이썬 실습 프로젝트 306

CHAPTER 8 아파치 스파크 스트리밍 작업 317

8.1 아파치 스파크의 구조화 스트리밍 개념 317

8.2 아파치 스파크 구조화 스트리밍 API 322

8.3 자바 실습 프로젝트 329

8.4 파이썬 실습 프로젝트 335

CHAPTER 9 MySQL 데이터 작업 341

9.1 관계형 데이터베이스 정의와 개념 341

9.2 SQL 및 Python API 347

9.3 파이썬 실습 프로젝트 376

CHAPTER 10 몽고디비 데이터 작업 389

10.1 몽고디비 개념과 특징 389

10.2 몽고디비 API 394

10.3 파이썬 실습 프로젝트 406

찾아보기 415

책의 특징

이 책에서는 방대한 데이터 레이크에서 인공지능 분석에 필요한 빅데이터를 생성하고 저장하며 다시 이를 가공하는 시스템인 ETL(extration, transformation, loading) 시스템을 만들어 본다. 그리고 학습용 빅데이터를 어떻게 생성하고 관리하여 머신러닝에 학습시키는지에 대한 통찰력과 사용된 기술을 제공한다. 여러 빅데이터 기술을 통하여 학습 데이터가 만들어지고 노드에 전송되는 과정을 직접 우리의 로컬 환경에서 구현한다. 그리고 각종 빅데이터 오픈소스를 직접 설치하고 코딩하여 전처리 데이터 파이프라인을 만들어 본다. 각종 빅데이터 기술의 장점과 기능, 다른 기술과의 연동을 예제로 실습하여 학습해 본다. 또 구체적으로, 독자들은 이 책의 학습을 통하여 데이터 레이크의 단순 raw 타입의 저장 데이터에서 인공지능 분석에 사용되는 데이터로의 파이프라인을 직접 구현해 본다. 그리고 실습을 통하여 현재 인공지능 시대에서 사용되는 빅데이터 기술들을 학습하게 된다. 이 책의 주요 목표는 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두고 있다.

책의 장점

시중에 빅데이터 분석 및 활용에 대한 책들은 많이 있다. 그러나 이 책처럼 빅데이터를 위한 데이터 파이프라이닝 전반을 다뤄주는 책은 보기가 힘들다. 그래서 이 책은 희소한 가치가 있다는 생각이 든다. HDFS, 카프카, RDB의 MySQL와 NoSQL의 MongoDB까지 자바와 파이썬으로 함께 사용 사례를 설명하여 한 권의 책으로 폭넓은 경험을 해볼 수 있는 장점도 있다. 또 전처리 과정에서 사용할 수 있는 다양한 패키지와 라이브러리에 대한 설명도 잘 되어 있어 이해하기가 편하다.

책의 후기

분석에 필요한 대량의 데이터를 효과적으로 처리하는 파이프라인 구축에 대한 다양한 기술과 방법을 단계별 진행을 통해 체계적으로 접근할 수 있었고 빅데이터 프로그래밍에 입문할 수 있게 되었다. 파이썬, 자바, 몽고DB, SQL 등 다양한 프로그래밍 프로그램을 사용하고 공부할 수 있어서 유용했으며, 경제/금융에 관심이 많은 편인데 데이터를 경제/금융에과 관련된 FRED의 데이터를 사용해서 좋았다. 이 책에서 배운 것을 응용해서 나만의 빅데이터 프로그램을 만들어봐야겠다.

 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo