SQL로 시작하는 데이터 분석 - 실무에 꼭 필요한 분석 기법 총정리! 실전 데이터셋으로 배우는 시계열, 코호트, 텍스트 분석
캐시 타니무라 지음, 박상근 옮김 / 한빛미디어 / 2022년 8월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

최근 '데이터 분석'이라는 키워드를 달고 등장하는 강의나 책에서 채택하는 언어는 대부분 Python, R을 기반으로 하고 있습니다. 인공지능, 머신러닝 기술의 부상에 힘입어 이를 함께 할 수 있는 다재다능한 두 언어가 주목받고 있지만, 실제로 데이터 분석가 공고를 살펴보면 필수 자격으로 더 많이 올라와 있는 것은 SQL입니다.


실제 현업에서는 DB에 있는 데이터를 추출하는 단계부터 쓰다보니 필수적으로 SQL을 사용하게 되는데요. 여러 SQL 강의 실습에서는 단지 SQL을 추출 용도로만 사용하기에 데이터 분석에 입문하는 분은 "SQL로 그런 것(=분석)도 할 수 있어요?"라고 되묻는 경우도 있습니다.


위 책은 이런 질문에 대한 답이 될 수 있다고 생각합니다. 사실 출간 전부터 해당 책에 대한 기대가 높았는데요. 그 기대에 맞게 좋은 책이었습니다. 굉장히 기본에 충실하면서도 다양한 데이터 분석에 도전해 볼 수 있도록 구성되어 있는데요. SQL을 활용하여 데이터 프로파일링 하는 과정에서부터 실제로 많이 활용해 볼 수 있는 코호트 분석, 실험에 대한 다양한 검정 방법등도 실려있어 책을 따라가며 시도해 볼 수 있었습니다.


책에 나와 있는 SQL 코드 역시 깔끔하게 작성되어 있어서 따라하기 어렵지 않았습니다. 물론 컬러였다면 조금 더 보기 편했을 것 같으나 코드 자체가 길지 않아서 보기에 불편하지는 않았습니다. (컬러로 했다면 가격이 비싸지기 때문에 좋은 선택이라고 생각됩니다.) 다만, SQL 기초 문법에 대해 세세하게 다루고 있지는 않으니 SQL을 처음 접하시는 학습자께서는 기초 문법을 다룬 다른 책을 먼저 보시고, 해당 책을 접하신다면 SQL을 사용한 데이터 분석의 길로 가는 데 문제가 없을 것으로 생각됩니다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
이펙티브 엔지니어 - 개발자의 인생을 바꾸는 효율성의 법칙 길벗 개발자 자기계발서
에드먼드 라우 지음, 이미령 옮김 / 길벗 / 2022년 6월
평점 :
장바구니담기


“<길벗 개발자 리뷰어>에 참여하여 도서를 제공받아 작성된 서평입니다.”


성장을 원하는 주니어에게 ‘일잘러’는 선망의 대상입니다. 많은 일도 척척 처리해내는 시니어 분을 보고 있노라면 경이롭게 느껴지기도 합니다. 물론 단순 지식보다는 ‘짬’에서 나오는 바이브인 경우가 많지만, 그래도 일잘러의 노하우가 궁금하기 마련입니다. 그에 대한 수요를 반영하듯 ‘효율적, 효과적으로 일하는 법' 등의 콘텐츠가 많이 나오고 있는데요. 엔지니어 역시 ‘일잘러’가 되고자 하는 열망을 가지고 있을텐데요. 그렇다면 ‘일잘엔지니어’는 어떻게 일을 할까요?


‘이펙티브 엔지니어'에서는 엔지니어로서 ‘효율적, 효과적으로 일하는 법’을 소개하고 있습니다. 단순히 각 장의 주제와 소주제만 본다면 뻔한 내용이라고 느껴질 수도 있겠습니다. 하지만 그만큼 강조하여도 지나치지 않을 주제를 다루고 있습니다. 특히 각 주제별로 직접 겪었던 경험을 자세히 소개해주어서 더욱 와닿았습니다. 책을 보면서 저자도 많은 시행착오를 겪어가며 ‘이펙티브’를 학습했음을 알 수 있었는데요. 그런 과정을 포장없이 전달해 준 점이 인상깊었습니다. 덕분에 읽으면서 제가 이전에 했던 방식에 대해서도 반성해 볼 수 있었습니다.


책의 주제는 뒷쪽 책날개에서도 볼 수 있는 문장 하나로 귀결되는데요.

“가장 제한적인 자산은 시간이며, 레버리지(투자한 시간당 생산한 가치)는 시간을 가장 중요한 곳에 쏟게 해준다.”


스타트업에서 일을 하면서 충분히 자동화 할 수 있는 일도 ‘바쁘다'라는 핑계로 기존의 방법대로 진행한 경우가 많았습니다. 심지어는 중요하지 않아서 폐기해야 하는 일도 괜한 불안함에 병행하는 경우도 많았고요. 책에서는 이런 일이 레버리지 관점에서 얼마나 잘못된 행동인 지를 주장합니다.


책을 읽으면서 지난 날 프로젝트를 진행했던 방식에 대해 얼마나 잘못되었는지 반성할 수 있었습니다. 그렇기에 동일한 고민을 하고 계신, 혹은 동일한 고민을 하실 다른 분도 읽어보시길 권하는 책이기도 합니다.



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
비즈니스 데이터 과학 - 비즈니스 의사결정을 위한 통계학, 경제학, 인공지능의 만남
맷 태디 지음, 이준용 옮김 / 한빛미디어 / 2022년 6월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

"하지만 비즈니스 문제에 대한 더 깊은 분석을 위해서는 무슨 일이 일어났는지보다 왜 이런 일이 발생했는지를 파악해야 한다."


이래저래 데이터 과학이 화두입니다. 책 뿐만 아니라 온/오프라인 강의에도 데이터 분석을 가르치는 강의가 많아졌고요. 하지만 '데이터 분석'이 붙어있는 책이나 강의를 보면 파이썬 코딩 방법이나 머신러닝/딥러닝 정도를 가르쳐 주는 것이 대부분입니다. 실제 현장에서는 모델 구현이나 해당 모델의 결과값도 중요하지만 그 결과로부터 어떤 인사이트를 이끌어 낼 수 있는지도 중요한데 말이지요. 아무래도 후자의 내용을 다루는 곳은 많이 없는 것 같다는 느낌입니다.


다시 말해, 예측(Prediction)과 추론(Inference) 모두 중요한데 시중에는 전자에만 방점을 두는 책이나 강의가 많은 듯합니다. 그래도 최근에는 추론을 통해 프로덕트를 분석하고 이를 비즈니스에 적용하기 위한 움직임도 늘어나고 있는데요. 이에 따라 후자와 관련된 책 역시 하나 둘 나오고 있습니다. 그리고 이 책 역시 그런 흐름에 발맞춰 나온 책이라고 할 수 있겠고요.


회귀, 정규화, 분류 등 책의 전반적인 흐름은 기존의 서적과 유사합니다. 하지만 더 자세히 들여다보면 책의 특징이 보이는 곳이 많은데요. 기초만을 다루는 기존의 책과 달리 어떻게 하면 결과값을 더 자세히 해석하고 신뢰도 있게 바라볼 수 있을 지에 대해 여러가지 방법론을 제시하고 있습니다.

개인적으로 재밌게 읽었던 부분은 Chap 5, 6 에 걸쳐져 있는 '실험'과 '제어'에 대한 내용이었습니다. 실제 데이터 분석을 하면서 실험 설계가 되었는지 혹은 어떤 조건을 제외 혹은 포함해야 할 지에 대해 고민한 적이 있는데요. 그에 대한 힌트를 얻고 당시 어떤 생각을 했는지에 대해 반추해 볼 수 있어서 좋았습니다.


책의 내용은 좋지만 몇 가지 주의사항 역시 있습니다. 일단은 그리 가벼운 책은 아니라는 점인데요. 서문에서도 말하고 있는 것처럼 경제학에 대한 개념이 있어야 이해가 쉬운 부분도 있고, 수학 기호도 꽤 있어 이런 부분까지 모두 이해하고자 한다면 기초 수학에 대한 베이스가 있어야 하는 것도 사실입니다. 그리고 일련의 R 코드를 보고 이해하기에 문제가 없을 정도가 되어야 책을 보는데 문제가 없을 것 같습니다.


R 코드를 어느 정도 볼 수 있고, 기초 수학 지식이 있는 실무자가 실제 데이터 분석 과정에서 자신이 잘 하고 있는지 혹은 어떻게 하면 더 잘 할 수 있을 지를 고민중이라면 해당 책은 그에 대한 좋은 가이드가 되어 줄 것으로 생각됩니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
구글 BERT의 정석 - 인공지능, 자연어 처리를 위한 BERT의 모든 것
수다르산 라비찬디란 지음, 전희원.정승환.김형준 옮김 / 한빛미디어 / 2021년 11월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


2018년 발표된 구글의 BERT는 자연어 이해(NLU, Natural Language Understanding)에서 이전의 모델보다 괄목할만한 성장을 보여주었습니다. BERT 출시를 기점으로 BERT로부터 파생된 수많은 모델이 탄생하였는데요. 19-20년도에 다양한 BERT 기반의 모델이 발표되던 모습은 자연어처리에도 '존버'(존귀한 BERT)의 시대가 오지 않았나 하는 생각도 해보게 됩니다.


하지만 시중에 나와있는 자연어처리 서적 중에서 BERT 이후의 모델을 다루는 책은 거의 없다시피 했습니다. 그나마 GPT, BERT까지의 모델을 다루는 서적은 몇 권 정도가 있었습니다만, 19년도 이후의 모델을 공부하기 위해서 참고할 수 있는 자료는 논문이나 블로그, 유튜브 자료가 전부였죠.


<구글 BERT의 정석>은 BERT에서 파생되어 출시된 여러 자연어처리 모델의 흐름을 조망할 수 있는 책이라고 할 수 있겠습니다. 책 초반부에서는 BERT의 기반이 되는 트랜스포머 모델을 설명하고, 이로부터 BERT가 어떻게 탄생하였고 모델의 특징은 무엇인지를 다루고 있습니다. 후반부에는 앞서 말씀드린 것과 같이 BERT의 파생 모델을 각 모델의 특징에 따라 구분하여 정리해주고 있지요.


굳이 단점을 뽑자면 트랜스포머에서 뻗어나온 반대편 줄기(?)인 GPT를 다루지는 않는다는 점이 있습니다. 해당 부분이 아쉽기는 하지만 오히려 BERT 계열 모델에 집중하여 정리할 수 있는 것이 본 책의 장점이 아닐까 합니다. 본 서적을 통해 BERT에 대한 이해와 BERT 계열 모델에 대한 대략적인 흐름을 익히고 논문 자료로 넘어간다면 훨씬 더 수월하게 논문을 읽어낼 수 있지 않을까 합니다.

양질의 서적을 빠르게 번역해주신 번역자분과 출판사에게 감사의 말씀을 드립니다.


[리뷰 중 생각난 TMI : 모델의 중요도와는 상관없이 네이밍에서 특이점이 온 BERT로는 프랑스어 모델인 까망베르(CamemBERT)도 있습니다.]


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
일잘러의 비밀, 엑셀 대신 파이썬으로 업무 자동화하기 - 엑셀 반복 업무로 지친 직장인, 파이썬으로 칼퇴하자! 일잘러의 비밀
포스코인재창조원 지음 / 한빛미디어 / 2022년 5월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


2018년 안동시에 근무하는 공익근무요원 분께서 자동화 관련하여 화제(?)가 된 적이 있습니다.


https://www.donga.com/news/Society/article/all/20181218/93346855/1


기존에 수작업으로 처리하던 작업을 자동화해서 6개월 걸릴 일을 하루만에 끝냈다는 이야기인데요. 이렇게 적절한 자동화는 단순 반복 업무를 줄여주어 효율을 높여줄 수 있습니다. 물론 자동화를 위한 여러 가지 노코드 툴이 나와있는 것은 사실입니다. 하지만 프로그래밍 언어를 사용하면 원하는 곳에 적절한 자동화를 적용할 수 있습니다. 개인적으로도 엑셀 형태의 공공데이터 수집 계약 업무를 잠깐 하면서 파이썬을 활용한 경험이 있고요.


비개발자가 자동화를 위해 새로운 언어를 배운다면 단연코 추천할 수 있는 언어는 파이썬인데요. 미국에서는 프로그래밍 입문 언어로 채택하고 있을 만큼 쉽기도 하고, 오랜 시간동안 축적해온 자료가 많기 때문에 처음 배우더라도 (다른 언어에 비해) 에러를 쉽게 해결해나갈 수 있습니다. 


본 서적에서는 파이썬을 사용한 자동화 방법을 여럿 소개하고 있는데요. 책의 타겟 독자가 비개발자, 혹은 프로그래밍 언어를 처음 다루는 사람인만큼 파이썬 기초 내용부터 차근차근 설명해줍니다. 또한 Pandas, Openpyxl 라이브러리를 사용해서 시트 형태의 데이터를 다루거나 시트 문서를 자동화 하는 방법을 자세히 알려주고 있어, 시트를 사용하여 하고 있는 반복 작업이 많은 사람이라면 충분히 배울만한 가치가 있지 않나 생각합니다.

더불어 책에 있는 파워포인트나 pyautogui 라이브러리를 사용하는 시스템 자동화, 크롤링까지 정복한다면 반복작업은 더 이상 여러분의 몫이 아닐 것입니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo