[엘루이님의 서재] : 알라딘

[서평] 견고한 데이터 엔지니어링ｌ마이리뷰

엘루이 l 2023-08-03 16:21

https://blog.aladin.co.kr/777010186/14801594

견고한 데이터 엔지니어링 - 데이터 파이프라인 설계와 구축의 핵심 원칙 조 라이스.맷 하우슬리 지음, 김인범 옮김 / 한빛미디어 / 2023년 6월 평점 :

<견고한 데이터 엔지니어링>은 데이터 엔지니어링 및 데이터의 수명주기와 관련된 아키텍처를 설계하고 관리하는 방법을 설명하는 책이다.

따라서 당연하게도 데이터와 관련된 코드는 등장하지 않는다.

이 책에서 제시하는 인프라 환경은 최근 트랜드를 반영하여 클라우드 환경에서의 데이터 엔지니어링을 다룬다.

데이터 엔지니어링은 실제 운영 환경에서 데이터 사용자(데이터과학자, 분석가 등)가 데이터 과학 및 분석에 필요한 데이터를 활용할 수 있도록 기반을 구축하는 것으로써 “원시 데이터를 가져와 분석 및 머신러닝과 같은 다운스트림 사용 사례를 지원하는, 고품질의 일관된 정보를 생성하는 시스템과 프로세스의 개발, 구현 및 유지관리”로 정의한다. (이 책에서는 데이터 엔지니어링이 데이터 과학 및 분석과는 별개라는 입장을 취하며, 데이터 엔지니어는 데이터 과학의 업스트림에 위치한다고 본다.)

데이터 엔지니어링 수명주기는 “원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝과 같은 사용 사례에 데이터를 제공하는” 절차로 다음의 단계가 있다.

- 데이터 생성 → 데이터 저장 → 데이터 수집 → 데이터 변환 → 데이터 서빙

당연한 말이겠지만 데이터 엔지니어링 수명주기는 데이터 수명주기의 하위집합이다.

데이터 엔지니어링 수명주기에는 보안, 데이터 관리, 데이터옵스, 데이터 아키텍처, 오케스트레이션, 소프트웨어 엔지니어링 등의 드러나지 않는 요소들을 포함하는 개념이다.

데이터 아키텍처는 “기업의 진화하는 데이터 요구사항을 지원하는 시스템 설계로, 트레이드 오프에 대한 신중한 평가를 통해 유연하고 되돌릴 수 있는 결정을 내림으로써 실현”되는 것으로 정의하고 있다.

이러한 점을 고려하여 데이터 엔지니어는 데이터 파이프라인 설계를 위해서는 개인정보보호, 익명화, 데이터 가비지 수집 및 규정 준수에 대해 관심을 가지고 고민을 해야 한다.

성공적인 데이터 엔지니어링을 위한 데이터 아키텍처 설계를 위해 클라우드 기능을 활용하여 확장성, 가용성, 신뢰성 확보가 중요하다고 강조하고 있다.

데이터 엔지니어링을 위한 기술 선택에 대해 매일 새로운 기술과 패턴이 등장하는 상황을 고려하여 사용사례, 비용, 구축 vs 구매 비교, 모듈화 간의 균형을 고려하여야 하며, 항상 아키텍처와 동일할 방식으로 기술에 접근하고, 트레이드 오프 평가 및 되돌릴 수 있는 결정을 내릴 수 있도록 하는 것을 목표로 삼아야 한다.

이 책에서는 역ETL에 대해 어느 정도 비중을 두고 다루고 있다. 역ETL이란 “OLAP 데이터베이스에서 원천 시스템으로 다시 적재해 제공하는 것”으로 저자들은 양방향 적재 및 변환이라고 부르기도 한다.

역ETL에 대한 주의사항으로 역ETL은 본질적으로 피드백 루프를 생성하는데, 이는 순식간에 엄청난 비용이 발생할 수 있으므로 주의가 필요하다고 지적하며, 세심한 모니터링 및 감시 체계를 구축의 필요성을 제시하고 있다.

( 이 책에서는 예시로서 구글 광고 데이터를 다운로드 후 모델을 사용해 사로운 입찰가를 계산한 다음, 입찰가를 구글 광고에 다시 로드하고 프로세스를 다시 시작하는 경우를 가정하여 제시하고 있다.)

이 책은 데이터 엔지니어 혹은 TA(Technical Architect)에게 데이터를 관리하기 위한 기반기술의 모든 것을 알려주지는 않는다. 다만 데이터 관리를 위한 기반을 구축하기 위해 필요한 요소가 무엇인지, 그것을 위해 어떤 지식들이 필요한 지를 조목조목 짚어주고 있다.

간혹 데이터 분야를 담당하는데 데이터 기반 구조를 어떻게 설계해야 효율적이고 효과적인지 왜 모르냐는 핀잔을 들을 때가 있다. 그럴 때를 대비하여 이 책은 초보적인 수준일 망정 그와 관련한 대화를 나누기 위한 좋은 기본서 임에 틀림 없다.

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

[서평] 챗GPT 빅 웨이브ｌ마이리뷰

엘루이 l 2023-06-09 15:49

https://blog.aladin.co.kr/777010186/14650355

챗GPT 빅 웨이브 - 초거대 AI가 불러올 비즈니스 변화 김지현.최재홍 지음 / CRETA(크레타) / 2023년 5월 평점 :

이 책은 기존의 챗GPT 관련 책들과 매우 많이 다르다.

기존의 책들이 기술적인 부분에 초점을 두고 있다면 이 책은 미래의 동향에 대해 혹은 앞으로 어떻게 우리가 대처해 나가야하는지에 대해 대부분의 내용을 할애하고 있다.

그러기 위해 이 책은 두 전문가(김지현 테크라이터와 최재홍 교수)가 대담 형식으로 내용을 전개하고 있다.

그러다 보니 챗GPT를 포함한 LLM 및 AI 기술과 동향을 매우 쉽게 설명해 주고 그것이 앞으로 IT人으로서 어떻게 대비해야 하는지 알려주고 있다.

LLM이 구글 등 기존 검색엔진과의 경쟁 및 차별화에 대하여 시장 전문가와의 상담과 사전을 찾아보는 것의 차이라는 설명은 매우 쉽게 그리고 무엇을 해야 하는지에 대한 시사점을 제공해주는 설명이었다고 생각한다.

전문가라고 해서 모든 것을 다 아는 것은 아니며, 그들이 제시하는 솔루션이 모두 정확한 것도 아니다.

(일례로 우리가 병원에 찾았을 때 의사들이 어떻게 대하는지 생각해보면 될 일이다. 그들 대부분은 자신이 가지고 있는 전문적인 지식에 의존해서 우리의 병을 진단하고 처방할 뿐이다. 전문적인 지식에서 벗어난 새로운 병에 대해서는 엉뚱한 해석을 내놓기도 하고 이는 오진으로 이어진다.)

따라서 LLM에게 물어볼 수는 있지만 그것이 내놓은 답을 어떻게 취할지에 대한 취사선택은 오로지 사용자 자신의 몫이 되는 것이다.

반면 검색엔진을 통해 제공되는 결과값들은 오로지 사용자가 직접 접하고 하나하나 자신이 필요로 하는 것을 선택해 해석하고 응용해야 하는 것이다.

그런 측면에서 그 둘은 서로 상보적인 면을 지니고 있다.

오히려 무조건적인 인공지능에 대한 추종(LLM 혹은 챗GPT에 대한 맹신)은 혁신을 저해하고 더 나아가 이익이 아닌 손실을 볼 수도 있음을 저자들은 지적하고 있다.

특히 LLM을 적용하는 사업을 영위하는 스타트업의 경우 무료로 서비스를 제공하는 경우가 많은데 명확하지 않은 비즈니스 모델이 문제일 수도 있지만 지금까지의 LLM 서비스가 지닌 한계를 제대로 인지하지 못했기 때문일 수도 있기에 이 부분은 매우 경계해야 한다.

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

[서평] 데이터 과학 레벨업 with 로드맵ｌ마이리뷰

엘루이 l 2023-06-07 17:47

https://blog.aladin.co.kr/777010186/14645776

데이터 과학 레벨 업 with 로드맵 - 캐글 그랜드마스터가 알려주는 문제 해결의 기술 콘라트 바나헤비치.루카 마사론 지음, 김형민 옮김 / 한빛미디어 / 2023년 4월 평점 :

얼마전 챗-GPT를 개발한 OpenAI의 CEO인 샘 알트멍의 인터뷰 기사를 읽었다.

내용인 즉슨 오픈API 합류 후 머신러닝을 대하고 그것읗 학습한 과정과 챗-GPT 등 서비스를 개발한 과정에 대한 이야기였다.

그가 머신러닝, 딥러닝을 익히기 위해 얼마나 노력했는지에 대한 내용과 그가 AI 서비스를 개발하면서 어떤 과정을 거쳐 왔는지를 진솔하게 이야기하고 있었다.

그리고 느낀 점은 저렇게 난 사람도 어려워하는데, 이 바닥에서 살아남으려면 나같은 범인은 어떻게 하여야 하는가 하는 것이었다.

<데이터 과학 레벨업 with 로드맵>은 나처럼 머신러닝, 딥러닝 결국인 데이터 과학에 치중하게 되는 인공지능 기술을 어떻게 익히고 경험을 최소한이나마 쌓을 수 있는지를 알려주는 책이다.

이를 위하여 캐글(https://www.kaggle.com)이라는 사이트를 이용한다. 따라서 책의 시작은 캐글에 대한 시작으로부터 시작하고 있다. 캐글을 이용하여 데이터 과학, 더 나아가 AI 관련 기술을 익혀서 성공한 사례와 캐글 사이트의 서비스를 이용하는 방법(데이터셋, 캐글 노트북 사용법 등)을 소개하고 있다.

그 이후에 캐글에서 제공하는 데이터셋을 이용하여 모델링 및 최적화 등을 하는 방법을 알려주고 있고(이 책에서는 이것을 ‘대회를 위한 테크닉’이라는 파트로 다루고 있다), 끝으로 데이터 과학자가 되기 위한 경력관리 방법 즉 포트폴리오 준비하는 방법과 캐글에서의 새로운 기회를 찾는 방법을 알려주고 있다.

케글에서 데이터셋을 발굴하고 모델링한 후 그것을 최적화하여 답을 제시하는 것은 다른 책에도 많이 나와 있는 듯하지만, 캐글을 이용한 경력관리 방법에 관한 내용은 나로서는 이 책에서 처음 접하는 듯하여 매우 신선하게 다가왔다.

특히 캐글을 넘어 온라인에 존재감 드러내기는 블로그나 깃허브를 이용하여 자신이 작성한 코드를 공개하고 외부에 알릴 수 있다는 것을 소개하고 있으며, 또한 자신을 적극적으로 알리기 위하여 캐글에 새롭게 등록되는 대회에 적극적인 참여가 필요함과 이러한 최신 소식을 지속적으로 모니터링이 필요하다고 적고 있다.

덧붙이자면 블로그를 통해 자신을 알리는 것은 기술적인 글쓰기 방법을 익혀야 함을 의미한다.

결국은 이 세계에서 살아남기 위해서는 지속적인 학습과 끊임없는 노력이 필요하다는 것이 아마 이 책의 결론이 아닐까 싶다.

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

[서평] 파이썬 라이브러리를 활용한 데이터 분석ｌ마이리뷰

엘루이 l 2023-06-01 11:32

https://blog.aladin.co.kr/777010186/14630785

파이썬 라이브러리를 활용한 데이터 분석 웨스 맥키니 지음, 김영근 옮김 / 한빛미디어 / 2023년 5월 평점 :

나는 언젠가부터 DA로 일하고 있다. 내가 원해서 한 것이 아니라, 데이터 분야를 담당할 사람이 없으니 이번 한 번만 그냥 해보라고 해서 했을 뿐인데, 한 번 경험했으면 그 수준이야 어찌되었든 그 분야의 전문가 아니냐는 우리나라의 문화특성으로 인해 계속 혹은 주로 DA 업무를 맡고 있다.

게다가 언제부턴가 데이터 분석 관련 업무도 내게 떨어지는 경우가 있어 참으로 난감한 경우가 많았다. DA 업무와 데이터 분석 업무는 엄연히 다를텐데 말이다.

그러던 참에 <파이썬 라이브러리를 활용한 데이터 분석>이라는 책을 접하게 되었다.

이 책은 데이터 분석에 대한 어떤 방법을 알려주기보다는 이미 그러한 책이 다양하게 나와 있으므로 제목 그대로 데이터 분석을 위하여 파이썬의 어떤 라이브러리를 어떻게 활용하는지 기술적인 부분을 주로 다룬다.

이 책에서 데이터 분석을 위해 다루는(사용하는) 파이썬 라이브러리는 넘파이, 판다스(이 책의 저자는 판다스 개발자이기도 하다.), 사이킥런, 사이파이 등과 데이터 시각화를 위해 맷플록립이다.

그리고 코딩을 위한 도구로는 보통 주피터 노트북을 많이 사용하는데 이 책에서는 특이하게도 IPython도 같이 사용하고 있으며, 부록으로는 IPython의 (나름) 상세한 사용법을 싣고 있다. (이 둘이 같은 개발자가 만들었으며, IPython 웹버전이 주피터라는 사실도 이 책을 통해 처음 알게 되었다.)

이 책의 한계는 명확하다.

이 책은 정형데이터 즉 구조화된 데이터만을 이용하여 데이터 분석을 하는 법을 다룬다.

즉 비정형데이터, 예를 들면 센서 데이터 등을 정제하여 정형데이터로 변환하거나 혹은 그 자체를 이용하여 데이터 분석을 하는 방법에 대해서는 다루지 않는다는 뜻이기도 하다.

(아마도 그 부분은 데이터 분석 보다는 머신러닝 영역에서 다룰 부분이기도 하다.(???))

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

[서평] 그림으로 배우는 AWS 구조ｌ마이리뷰

엘루이 l 2023-05-31 00:38

https://blog.aladin.co.kr/777010186/14625761

그림으로 배우는 AWS 구조 니시무라 야스히로 지음, 김성훈 옮김 / 영진.com(영진닷컴) / 2023년 5월 평점 :

먼저 이 책의 구성을 살펴보자.

한 쪽(왼쪽 페이지)에는 개념에 대한 간략한 설명을 그리고 반대쪽 페이지에는 도해로 그 개념을 이해하기 쉽게 하고 있다.

하지만 이 책을 이용하여 AWS에 대한 실습을 하고 그것을 통해 AWS에 대한 기술을 터득하는 데에는 명백한 한계가 있다.

이 책의 제목이 시사하고 있듯이 이 책은 AWS에 대한 기본적인 구조, 더 나아가 클라우드 서비스에 대한 기본적은 구조를 설명하고 있는 입문서이다.

따라서 이 책을 통해 AWS 혹은 클라우드 서비스가 어떤 방식으로 구성하여 우리의 고객인 엔드유저에게 서비스를 제공하고 이용하게 되는지 이 책은 쉽게 처음부터 차근차근 알려주고 있지만, 실습 기반이 아닌 도해를 이용한 설명 기반이기에 지니는 한계는 있다.

그러나 AWS 실습을 통해 익히는 책을 보면 지나치게 AWS의 화면을 이용한 설명, 즉 실습에 치우치다 보니 이론적인 부분이 부족한 면이 많이 보이는 경우가 있는데, 이럴 경우 이 책은 아주 좋은 보조교재의 역할 혹은 참고서의 역할을 충실히 해 줄 것이다.

이 책으로 AWS 더 나아가 클라우드가 무엇인지는 터득할 수 있지만, 그 수준은 개요 정도에 그친다는 아쉬움이 남는다.

그러나 무엇인가를 배울 때에는 일단 입문을 하여야 하고, 그러기 위해서는 개념서가 무엇보다 중요하다고 생각한다.

그러한 의미에서 <그림으로 배우는 AWS 구조>는 좋은 선택지가 될 것이다.

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

엘루이님의 서재

리스트

마이리뷰

마이페이퍼

방명록

[서평] 견고한 데이터 엔지니어링ｌ마이리뷰

엘루이 l 2023-08-03 16:21

[서평] 챗GPT 빅 웨이브ｌ마이리뷰

엘루이 l 2023-06-09 15:49

[서평] 데이터 과학 레벨업 with 로드맵ｌ마이리뷰

엘루이 l 2023-06-07 17:47

[서평] 파이썬 라이브러리를 활용한 데이터 분석ｌ마이리뷰

엘루이 l 2023-06-01 11:32

[서평] 그림으로 배우는 AWS 구조ｌ마이리뷰

엘루이 l 2023-05-31 00:38

서재지수 : 1518점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)

엘루이님의 서재

리스트

마이리뷰

마이페이퍼

방명록

[서평] 견고한 데이터 엔지니어링ｌ마이리뷰

엘루이 l 2023-08-03 16:21

[서평] 챗GPT 빅 웨이브ｌ마이리뷰

엘루이 l 2023-06-09 15:49

﻿[서평] 데이터 과학 레벨업 with 로드맵ｌ마이리뷰

엘루이 l 2023-06-07 17:47

[서평] 파이썬 라이브러리를 활용한 데이터 분석ｌ마이리뷰

엘루이 l 2023-06-01 11:32

[서평] 그림으로 배우는 AWS 구조ｌ마이리뷰

엘루이 l 2023-05-31 00:38

서재지수 : 1518점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)

[서평] 데이터 과학 레벨업 with 로드맵ｌ마이리뷰