프런트엔드 개발자를 위한 테스트 가이드 - 셀레늄, 사이프러스, 퍼피티어, 플레이라이트 오픈소스 테스트 자동화 프레임워크 교과서
에란 킨스브루너 지음, 김완섭 옮김 / 제이펍 / 2023년 7월
평점 :
장바구니담기


프런트엔드 진영의 테스트 가이드로 오픈소스 테스트 프레임워크인 셀레늄, 사이프러스, 플레이라이트, 퍼피티어 등의 구체적인 사용법을 다루고 있다는 것이 특징이다.

프런트엔드 기술은 서버보다는 브라우저에 종속적이기에 백엔드에 비해 공개적으로 테스트 할 수 있는 프레임워크가 흔한 것으로 알고 있었지만 이 책을 통해 현 시점 프런트엔드 시장에서 주도적인 위상을 차지하는 대표적인 프레임워크를 알게 되었다.다운로드 횟수

더불어 프런트엔드는 과거 기준으로는 적어도 백엔드에 비해 테스트의 중요성이 부각되지 않은 것이 사실이나 모바일 등장 이후 대규모 변화를 겪고 있어 생각보다 많은 부분을 신경써야 한다는 것도 새롭게 알게 된 사실이다.

모든 링크가 제대로 동작하는지 테스트하는 것에서 시작하여 반응형 웹 등의 접근성 측면은 물론이고, 보안, API, 성능에 이르기까지 테스트 할 사항은 많지만 이를 자동화하여 편의성을 제공하는 방법을 찾기는 쉽지 않다.

그런 측면에서 이 책의 파트 2 ~ 3에 걸친 테스트 프레임워크의 활용법에 대한 소개는 이 책이 가지는 가장 큰 장점이라 생각한다.

이 책이 소개하는 프레임워크로는 오픈소스 테스트 프레임워크에 해당하는 셀레늄, 사이프러스, 플레이라이트, 퍼피티어 등이 있고, 코드리스 툴로는 퍼펙토 스크립트리스, 테스팀, 메이블 등을 소개한다.

특히 오픈소스 테스트 프레임워크의 기본 기능과 고급 기능을 실습을 통해 세부적으로 소개하고 있는데 이를 잘 정리한 표는 다음과 같다.기능비교

접근성, 성능, 시각적 테스트 측면에서는 대동소이하게 모두 훌륭한 기능을 지원하는 편인데 고유기능은 각기 지향하는 포커스가 다르기에 현업에서 집중하고자 하는 기능을 담고 있는 프레임워크를 선택하는 것이 좋은 선택이 될 것 같다.

개인적으로 프런트엔드가 주전공 분야는 아니기에 이 책에 소개된 프레임워크의 기능을 십분 이해하고 제대로 활용하기엔 가진 실력이 부족했다. 책에서 다양한 테스트를 다뤄주고는 있지만 짧은 설명의 실습으로 그치기에 구체적으로 테스트 결과 및 증상에 따른 해결책이 소개되지 않은 것은 아쉬운 부분이었다.

그럼에도 한 떄나마 소극적으로 프런트엔드 프로젝트에 가담했던 경험이 있는 입장에서 그리고 아직도 프런트엔드 기술에 관심을 갖고 지켜보는 입장에서 테스트 프레임워크를 집대성하여 정리한 책은 거의 찾아보기가 힘들기에 이 책의 가치를 높게 평가하고 싶다.

특히 구글 개발자 도구의 프로토콜을 활용하는 퍼피티어나 플레이라이트 등의 도구는 다루기가 쉬워 향후 자주 활용해 봐야겠다는 생각이 들었다.퍼피티어

또한 이 책은 오픈소스 테스트 프레임워크를 주로 다루고 있지만 그 외에도 프런트엔드 품질을 위한 많은 조언을 담고 있다. 특히 테스트 프로세스 측정을 위한 애자일 방식의 27가지 지표나 Miro 마인드맵 툴을 활용한 테스트 전략 예시는 짧은 지면에도 불구하고 많은 인사이트를 얻을 수 있었다.

그 외에도 OWASP 보안 취약점에 대한 고려, 프런트 엔드 플랫폼에 대한 고민, 세부적인 테스트 유형의 항목 정리 등 최신 트렌드에 맞춰 프런트엔드 진영이 필수적으로 알아야 할 기술 지식들을 다양하게 습득할 수 있었다.

IT 어느 분야에서나 테스트는 늘 우선순위에 조금씩 밀리는 것이 현실이나 차후 기술적 부채를 감안한다면 테스트는 피할 수 없는 필수적인 과정임을 다시 한 번 느낄 수 있었고, 프런트엔드 테스트 자동화를 원하는 개발자에게 이 책을 추천하고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
자동화 실무 사례로 배우는 구글 앱스 스크립트 - 대시보드, 이메일, 재고 관리 등 실전 프로젝트로 익히는 스프레드시트 & GAS 프로그래밍
박용 지음 / 제이펍 / 2023년 7월
평점 :
장바구니담기


구글 스프레드 시트와 같은 워크스페이스 제품을 100점 만점으로 활용하는 방법을 다룬 책으로 특히 구글 앱스 스크립트를 활용하여 더욱 풍부하게 기능을 즐길 수 있는 방법들이 소개되어 있다.

구글 스프레드 시트, 캘린더 등 구글 워크스페이스를 만점 수준으로 활용하는 방법을 담은 책이다.

특히, 후반부에는 구글 앱스 스크립트를 활용하여 워크스페이스 도구 간 정보를 공유하거나 웹서버 없이도 간단한 웹프로그래밍을 만들 수 있도록 구글 앱스 스크립트의 기초 문법을 배워 후원 문서 발행 프로그램을 만들어보는 과정을 거친다.

이 책을 보기 전까지는 스스로 구글 워크스페이스를 제법 잘 활용하고 있다고 착각한 것 같다.

예전에 구글 설문지를 활용할 일이 있었다. 일반적인 설문지를 만들어 배포하는 것은 하나도 어려울 것이 없었지만 회사에 적을 두지 않은 외부인이나 익명으로 작성한 글을 거를 필요가 있다는 것이 문제였다.

그때 처음으로 구글 앱스 스크립트를 사용하게 되었는데 배포 당시 해당자의 사번과 같은 특정 고유값에 대한 암호값을 함께 전송 후 설문 응답이 수신된 데이터의 암호값이 고유값과 불일치 하는 경우 설문 응답 모데이터에서 제외하는 방법을 사용하여 꽤 요긴하게 활용한 적이 있다.

그런 특별한 사례가 아니더라도 구글 워크스페이스는 클라우드 기반의 서비스이기에 다수의 인원이 동시에 접속하여 수정이 가능하다는 장점 및 로컬 PC 및 서버 간 동기화를 고려할 필요가 없었기에 늘 애용해왔다.

하지만 이 책에 나온 내용을 하나씩 실습하며 그동안 구글 워크스페이스에서 제공하는 기능의 10%도 채 제대로 활용하지 못하였음을 알고 꽤 충격을 먹었다.

너무 많은 것들을 새로 배웠지만 가장 인상적이었던 대표 기능을 꼽으라면 3가지 정도로 요약할 수 있을 것 같다.

우선, 간단한 웹프로그램을 개발할 수 있다는 사실에 놀랐다. 웹프로그래밍을 만드는 거야 크게 어려운 일은 아니지만 문제는 이를 운영할 수 있는 서버나 클라우드 환경 등 인프라로 인한 비용을 감당하기 어려워 쉽게 운영해오지 못했다.웹프로그래밍

이 책의 가장 큰 챕터에 소개되는 후원자 문서 발행 프로그램의 실습을 그대로 따라하다보면 간단한 기능의 웹페이지를 쉽게 만들 수 있다. 결과를 스프레드시트에 저장하며 DB처럼 활용하고, 구글 독스에 연동하여 리포트로 발행하는 등 구글 워크스페이스 제품군의 기능을 엮어 완성된 형태의 웹 서비스를 쉽게 만들 수 있다는 사실에 놀랐다.

데이터 분석이나 AI를 학습하며 구글 코랩을 활용해 실시간으로 원하는 AI 이미지들을 만들어 내곤 했었는데 이런 전통적인 웹 프로그램도 서비스 가능한 형태로 만들 수 있다는 사실에 놀랐다.

그 과정에 필요한 구글 앱스 스크립트는 자바스크립트와 문법도 매우 유사하고 이 책에서 구글 라이브러리의 활용법을 친절하게 설명해주고 있어 웹 프로그래밍을 경험한 사람이라면 큰 어려움 없이 간단한 웹프로그램을 개발하여 활용할 수 있을 것이다.

다음으로 유익했던 것은 스프레드시트를 DB처럼 활용하는 기능이다. 주로 Sqlite 같은 DB를 개인적으로 활용하지만 인터넷에 연결되지 않아 동기화 측면에서 늘 불편했었는데 이젠 스프레드시트를 편리하게 이용할 수 있을 듯 하다.DB화

Python과 Pandas를 활용한 데이터 분석이 꽤 편리해졌음에도 아직도 Sql을 활용하는 것 만큼 편리하진 않다. 스프레드 시트에 SQL을 활용할 수 있다는 것을 이번에 처음 알았는데 엑셀과 비슷한 스프레드 시트의 직관적이지 못한 기능들 때문에 난이도 있는 사용을 꺼려왔는데 SQL과 거의 유사한 문법이 지원된다는 것을 알게되어 너무 반가웠다.

마지막으로 엑셀과 비교 시 기능이 대동소이하지만 엑셀과 똑같은 기능을 찾으려면 어떻게 해야 하는지 난감한 적이 많았다. 이 책의 1, 2부를 따라하다보니 엑셀과 비슷한 기능을 수행하는 기능들이 어디 숨어있는지 명확히 알 수 있었다.스프레드시트

아무래도 구글 클라우드 제품중에서도 스프레드시트는 가장 많이 애용되는 서비스일 것이기에 저자 분도 스프레드시트에 익숙할 수 있도록 상당한 지면을 할애하신 것 같다. 덕분에 기초에 충실할 수 있어 좋았고 전달력 좋은 본 도서 덕분에 늘 미뤄왔던 엑셀과의 기능 비교 및 습득을 이 참에 정리해 볼 수 있어 좋았다.

이 책은 구글 클라우드 및 워크스페이스의 기능을 100%에 가깝게 활용하고 싶은 분 혹은 개인적 업무의 자동화 등을 꿈꾸는 분께 꼭 추천하고 싶은 책이다. 이 책에 소개된 기능을 충실히 학습한다면 스스로 해야 할 잡무들을 효율적으로 개선하는 데 많은 도움이 될 것이다. 더불어 프로그래밍 세계에 입문하는 일반인에게도 추천하고 싶다.




댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
마이크로서비스 아키텍처 구축 - 대용량 시스템의 효율적인 분산 설계 기법 | MSA 핵심 용어집 수록, 설계/아키텍처 분야 아마존 베스트셀러, 전면 개정판
샘 뉴먼 지음, 정성권 옮김 / 한빛미디어 / 2023년 6월
평점 :
장바구니담기


처음 접했을 때 신선한 충격을 주었던 마이크로서비스 아키텍처를 학습할 수 있는 책으로 도입, 설계, 구현 등에 있어 반드시 참조해야 할 필독서라 평하고 싶다.

마이크로서비스란 무엇인가?

늘 그렇듯 무언가의 정의를 내리는 것은 쉽지 않은 일이다. 추상적으로 기술하면 진실에 가까워지지만 내용이 선뜻 와 닿지를 않고 구체적으로 표현하면 이해하기는 쉽지만 정의에 가까워지기 힘들고 내용이 길어진다.

그럼에도 마이크로서비스를 처음 접하는 독자를 위한 리뷰에서는 일부분이라도 구체적으로 기술하여 독자의 이해를 돕지 않는 것이 우선이라 생각되기에 나름의 정의를 내려보려 한다.

그러한 관점에서 개인적으로는 RestAPI의 결합체 혹은 DB를 공유하지 않는 서비스들의 집합 정도로 정의를 내리고 싶다. 개발자 입장에서 그나마 가장 가시적인 정의라 생각하기 때문이다.DB

책에 등장한 예시와 같이 배송, 주문관리, 재고 등 각각 하나의 마이크로서비스를 결합하면 전자 상거래 시스템을 구축할 수 있는 개념이자 이에 필요한 아키텍처다.정의

한편 이 책에 기술된 마이크로서비스의 정의는 다음과 같다.

독립적 변경, 배포, 릴리스를 하기 위한 분산 시스템에 대한 접근 방식 중 하나.

좋은 책들이 그렇듯 이 책 또한 마이크로서비스의 개념에 대한 확실한 이해를 돕기위해 여러 장치를 사용한다. 예시, 비교, 특징, 장점, 단점 등 여러 각도에서 마이크로서비스를 살펴봄으로써 이해를 돕게 해준다.

예시의 경우 앞서 이미 언급하였고 비교의 경우 SOA나 모놀리식 아키텍처와 비교하며 개념 정의의 좌표를 조금 더 구체화한다. SOA의 태생 목적에 더욱 충실하기 위해 등장한 개념이란 것과 데이터베이스를 공유하며 프로세스 경계선으로 모듈이 나뉘는 모놀리식과의 차이점을 통해 마이크로서비스의 개념을 구체화 할 수 있게 해준다.

물론 배포를 독립적으로 수행할 수 있다거나, 기술보다는 비즈니스 모델링을 우선한다는 점, DB를 공유하지 않는 대신 자기 상태를 공유한다는 점, 하나의 서비스가 자신의 두뇌 용량을 초과하지 않을 정도로 작개 쪼갠다는 점 등의 특징도 설명하고 있어 다양한 각도에서 마이크로서비스의 본질을 생각하게 해준다.

이를 돕는 기술로 라이트스텝이나 허니코움의 제품 들이 제공하는 로그 집계 및 분산 추적 기술, 쿠버네티스, 스트리밍, 서버리스 등의 기술이 생태계를 풍부하게 한다고 소개하고 있어 보다 구체적인 감을 잡는 데 도움을 준다.

그럼에도 엄청난 변화를 수반하는 스타트업 시스템이나 보안에 민감하다거나 전통적인 RDBMS가 자랑하는 ACID를 핵심으로 하는 시스템에는 적합하지 않을 수 있다는 한계를 분명히 명시한다.

이렇듯 풍부하고 다양한 관점을 수반한 정의 및 기술은 마이크로서비스의 본질을 이해하는 데 충분하고도 넘친다는 생각이 들었고 그동안 애매하게 알고 있던 마이크로서비스의 개념 좌표를 머릿속에서 좀 더 명확하게 배치할 수 있게 많은 도움을 주었다.

한편 생각해보면 이는 단지 서비스 아케텍처에 국한되는 유행은 아닌 것 같다. 일상에서도 독립적인 영화나 드라마는 넷플릭스, Wavv와 같은 스트리밍 서비스에서 결합하고 있고 다양한 1인 기업들이 뭉쳐 거대한 서비스를 지탱하게 해주는 등의 사회적인 현상으로도 클라우드나 쿠버네티스와 같은 기술적인 영역에서도 마이크로서비스와 유사한 장점을 극대화하고자 하는 움직임은 거의 모든 영역을 장악해 나가는 듯 하다.

어쨌든 이 책은 개인적으로 처음 개념을 접했을 때 신선한 충격을 주었던 마이크로서비스가 무엇인지 이해하고 제대로 활용할 수 있는 안목을 갖추는 데 큰 도움을 준 명작이다.

이미 몇 년 전에 발간된 책이지만 이번 개정판은 그동안 이 개념이 발전하는 과도기에 있던 애매모호한 위치를 명확히 바로잡는 데 많은 도움을 준다. 가히 그동안 마이크로서비스 개념을 널리 알리고 사람을 모아 발전할 수 있게한 견인차 역할을 한 책 답게 명작이라는 생각이 들었다. 이 개념을 이해하는데 이 책을 통하지 않는다면 다른 방법으로는 너무 많은 시간과 노력을 낭비하게 될 것 같기 때문이다.

워낙 훌륭한 책임에도 그 중에서도 돋보이는 특징 몇가지를 소개해보고자 한다.

첫째, 보다 전통적이고 친숙한 모놀리식 시스템을 분해하는 과정으로 구체적으로 마이크로서비스를 어떻게 구축하고 설계해야 할지 쉽게 감을 잡을 수 있었다. 특히 동기 대 비동기 방식 구현을 어떻게 설계하는지 검토하는 과정은 본질 개념을 이해하는 데 많은 도움이 되었다.

둘쨰, DB 공유에 대한 독립성을 유지하면서 ACID를 어떻게 보장할 것인지에 대해 평소 늘 궁금했던 주제였고 데이터에 관심이 많은 사람으로써 호기심이 많은 주제였는데 명확하게 이해할 수 있었다. 특히 사가 패턴을 말로만 듣다가 구체적인 설계 방법과 원리가 소개되어 있어 인상적이었다.DB공유

셋째, 최근 트렌디한 기술이나 개념, 아키텍처를 학습하는 데 도움이 된다. 마이크로서비스 아키텍처만 다루는 것이 아닌 생태계의 관련 기술을 대부분 망라하고 있어 마이크로서비스에 관심없는 독자도 유익하게 활용할 수 있을 만한 다양한 기술들이 소개된다. 멀티태넌시와 페데레이션이나 심지어는 웹어셈블리와 같은 개념도 상세하게 소개해주고 있어 유익했다.기술스택

넷쨰, 콘웨이 법칙 등 유명 인사들의 발언이나 주장과 관련된 레퍼런스들이 다양하게 소개되고 있다. 이는 저자가 관련 분야에 정통함은 물론 긴 세월 동안 객관적인 시각을 견지하기 위해 노력해왔음을 보여주는 반증이라 생각한다.

그 외에도 보안이나 사용자 인터페이스 등 마이크로서비스를 소개하는 정도에 그치지 않고 추후 확장해서 고민하고 그 과정을 통해 시행착오와 비용을 크게 아껴줄 수 있도록 노력한 구성이 감동적이었다.

이 책은 마이크로서비스 구축을 검토한다거나 개념을 학습하는 데 있어 바이블이라 평하고 싶다. 마이크로서비스를 학습하면서 다양한 생태계의 기술 현주소를 파악하고 스스로의 지식을 업그레이드 하는 데 있어 큰 도움이 되는 양서이기에 반드시 일독을 권하고 싶다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
Do it! 점프 투 파이썬 - 중학생도 첫날부터 실습하는 초고속 입문서, 전면 개정 2판 Do it! 시리즈
박응용 지음 / 이지스퍼블리싱 / 2023년 6월
평점 :
장바구니담기


Python이나 프로그래밍을 익히는 데 있어 가장 먼저 추천하고 싶은 책.

프로그램을 처음 배우는 초보자나 Python을 처음 배우는 초보자에게 가장 먼저 읽을 책으로 본 도서를 권하고 싶다. 사고의 흐름에 따라 이해를 돕는 저자의 전달력, 2차원의 책을 입체적으로 전달하는 구성, Pythonic 추구, 실무에서 접할 수 있는 예외나 에러를 거의 다 입문 과정에 녹인 점, 국내서로 번역서의 정보전달 왜곡이나 한계가 없다는 점 등 Python 입문서로는 가히 최고의 도서로 손 꼽고 싶다.

프로그래밍에 구글링은 빼 놓을 수 없는 과정인데 Python을 처음 배우는 사람이 구글링 검색결과로 자주 마주하는 것이 스택오버플로우와 이 책의 위키독스 버전 페이지일 정도이다. 알게모르게 누구나 검색을 통해 이 책의 내용이 담긴 페이지를 한 번 쯤은 마주했을 것이다.

비록 후반부에 소개되어있지만 이 책을 가장 잘 소개하는 예제로 메모장 만들기 실습을 꼽고 싶다.

먼저 메모장 기능에 필요한 기능으로는 입출력이 있다. 즉, 쓰고 보는 기능이 필요한데 이를 sys 모듈로 인자를 받아들이는 부분과 print 내장 함수로 출력하는 가장 심플한 예제를 만들어 보면서 기능을 확장해 나간다.메모장

이후에 인풋으로 전달할 세부 옵션 기능을 추가하고 입력받은 내용을 출력하여 파일로 저장하며 그 파일을 다시 읽어 보여주는 파일 처리 기능으로 확장한다.메모장2

이 과정을 통해 테스트 드리븐 TDD의 구성과 Pythonic, MVP 기법 등을 저절로 익힐 수 있다. 책의 모든 실습 예제에 이런 철학이 가미되어있어 특별한 노력없이도 좋은 코딩 습관과 프로그래밍 언어론을 묵시적으로 습득하게 된다.

빼놓을 수 없는 또 다른 장점으로 실제 현업에서 프로그래밍 중에 만나게 될 다양한 장애물들과 예외 상황이 모두 실습으로 구현되어 있다는 점이다. 보통의 기본서는 문법 구현 자체에만 집중하지만 막상 실전 프로그래밍을 구현하다보면 기본서만으로는 한계가 있다.

새로운 기능에 대한 지식이 없어 막히는 경우도 흔하지만 이미 알고 있는 문법임에도 다양한 상황이나 경험이 축적되지 못해 디버깅에 실패하는 경우도 프로그래밍 세계에 접근하는데 큰 장애물이 되곤 한다. 이 책은 그런 에러를 겪는 과정이나 경험을 예제로 미리 경험하게 해준다. 그 과정에서 하나의 문법도 정확성있게 확실히 익힐 수 있다.

또한 이 책에 소개된 제너레이터, 데코레이터와 같은 개념은 타 프로그래밍 언어론에도 도움이 되는 고급 지식으로 추후 고급서를 익히는 데 도움이 될 수 있는 징검다리 역할을 담당한다.데코레이터

뿐만 아니라 정규표현식은 어떤 언어에서도 유용하게 활용할 수 있는 방법인데 입문자들이 중급자로 넘어가는 데 가장 어려워 하는 부분 중 하나이다. 매우 적은 분량으로 빠르고 쉽게 정규표현식에 입문할 수 있음은 물론 이 책 부록으로 등장하는 ChatGPT 활용과 병행한다면 예전 보다는 훨씬 쉽게 익힐 수 있을거라 생각한다.정규표현식

개인적으로는 Python을 본격적으로 시작한 것은 2016년 경인데 그 때 입문하면서 이 책으로 많은 도움을 받았다. 충분히 8년 연속 베스트 셀러에 오를만한 자격이 있는 책이라 생각한다. Python을 처음 익히는 데에는 이 책과 더불어 효율적 개발로 이끄는 파이썬 실천 기술을 권하고 싶다.

결론적으로 참 쉽게 이해할 수 있도록 구성된 저자의 전달력이 돋보이는 책이기에 프로그래밍의 세계에 입문하는 이라면 꼭 한 번 읽어볼 것을 권하는 바이다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
행동 데이터 분석 - R과 파이썬으로 시작하는 행동 데이터 분석 가이드
플로랑 뷔송 지음, 시진 옮김 / 한빛미디어 / 2023년 5월
평점 :
장바구니담기


데이터 분석 그 중에서 특히 인간의 의도가 무엇인지 분석하는 행동 데이터 분석을 다룬 책으로 현대적 인과관계 분석 방법 및 엄밀하진 않지만 구전으로 전해오는 실무 비법들을 공개한다.

상관관계는 인과관계가 아니다.

아이스크림이 많이 팔릴수록 상어가 사람을 많이 공격하니, 아이스크림을 덜 팔면 상어가 인간을 덜 공격할 것이다.

말도 안되는 명제임에 틀림없음에도 분명 데이터 분석 세계에서는 흔히 일어날 수 있는 결론이다. 아이스크림 판매량과 상어의 공격 빈도는 계절별로 놀라울 정도의 상관성을 갖기 때문이다.

두 데이터의 패턴은 일치하지만 저런 어리석은 결론이 도출된 결정적인 이유는 인과관계가 결여되어있기 떄문이다. 무엇 때문에 아이스크림이 많이 팔렸는지, 무엇 때문에 상어에게 공격을 당하는지 찾아본다면 쉽게 위 결론을 부정할 수 있다.

문제는 위 명제가 상식에 의해 참이 아니라는 나름의 믿음이 있기에 오류를 발견할 수 있다는 점이다. 이 책에 등장하는 예제처럼 무엇때문에 매출이 증가했는지, 혹은 할인 프로모션이 과연 매출 상승에 도움을 준 것이 사실인지와 같은 결론을 알지 못하는 명제를 맞딱드린다면 저런 우를 범하기 쉬워진다.

이런 문제를 해결하고자 이 책에서 도입한 기법이 인과관계 기법이다. 위에 언급한 “무엇”이 무엇인지를 찾기 위해 즉, 원인을 찾기 위해 데이터 분석에서 사용할 수 있는 다양한 실용적인 실무 기법이 소개된 것이 이 책의 가장 큰 장점이다.

교란 데이터를 찾아내는 기법이 그 중 하나이다. 단순히 아이스크림의 판매량이 기온이라는 원인에 의해 영향을 받는 것으로 분석하여 모델을 만들고 계절 특성이 타지 않는 갑작스런 기온 상승에 본 모델을 활용하여 재고량을 비축하는 과정에서 모델의 예측이 어긋나는 경우를 그 예시로 들고 있다.

사실 판매량은 기온 외에도 특정 계절에 학생들이 방학을 맞이하여 판매량이 늘었다는 또 다른 원인이 숨어있었다는 사실을 밝히고 교랸 변수를 찾다보면 인과관계를 찾아내는 과정은 결코 쉬운 일이 아님을 깨닫게 된다.

인간의 복잡한 마음이 단순하게 규명되긴 쉽지 않기에 그 과정을 도식화 하는 과정을 통해 모델의 정확성을 높이고 단순화하여 이해하기 쉽게 만들 수 있는 여러 기법이 소개되는데 그 중 가장 먼저 등장하는 것이 인과관계 다이어그램이다.

특히 사슬, 분기, 충돌이라는 세가지 기본 구조의 소개가 인상적이었다. 사슬이란 기온이 아이스크림 매출을 올리고, 아이스 크림 매출이 도넛 매출을 따라 올리는 연쇄적인 유발 관계를 의미한다. 이러한 사슬은 확장도 가능하고 축소도 가능하다.

분기란 기온이 아이스크림 매출을 올리기도 하지만 아이스커피의 매출을 올리기도 하는 관계를 의미한다. 반면 충돌은 2가지 이상의 변수가 동일한 결과를 유발한다. 여름철 여부라는 변수가 기온에도 영향을 주고 매출량에도 영향을 주면서도, 기온이 또 매출량에도 영향을 주는 셈이다.

이런 복잡한 매커니즘을 단순화하는 방법으로 피처를 분할하거나 집계를 내거나 순환을 관리하는 방법들이 존재하는데 기법 자체로도 중요하지만 데이터를 분석하는 사람이라면 철학적으로도 반드시 알아둬야 할 기본 교양이라 생각한다.

이를 토대로 4장에서는 인과관계 다이어그램을 만들어보는 예제가 여럿 등장하는데 한 과정씩 따라하다보면 구체적으로 인과관계 다이어그램을 어떤 방식으로 그릴 수 있는지 감을 잡을 수 있다.다이어그램

아울러 앞서 언급한 교란 해소 방법으로 DCC(분리 인과 기준)과 BC(백도어 기준)은 반드시 읽어볼 것을 권하고 싶다. 이런 교란은 실무에서는 본능적으로 애써 외면하게 된다. 별다른 성과없이 엄청난 시간과 노동력을 잡아 먹을만한 주제라는 것을 알기 때문이다.

하지만 대부분의 문제는 먼 길을 돌다보면 결국 이 교랸 문제의 모순을 해결해야 풀리는 경우를 자주 발견한다. 비록 구체적인 예제가 등장하지 않아 아쉽지만 그럼에도 좋은 예시와 해결방법이 소개되어 있다.

이 책은 인과관계만 다루는 것은 아니다. 또 하나의 주제로 그동안 입문서나 교과서에서 다루지 않던 또는 수학과 같이 엄밀함을 보장할 수 없어 어두운 그늘에서 실무자 사이에만 구전으로 전해오던 현실에서의 실전 분석 방법도 상당수 소개되고 있다.

그 중 대표적인 것이 결측치 처리이다. 결측치를 처음 접했을 때만 해도 어차피 없는 데이터 따위는 없애거나 대체하면 그만이라 쉽게 생각했는데 그 없다는 것도 나름의 정보이다. 이를 무시하면 절대 성능좋은 모델을 만들 수 없다.

보이지 않는 데이터가 때로는 보이는 데이터보다 결정적인 결과를 도출하기도 한다. 교양서이지만 통계학의 대가 데이비드 핸드가 저술한다크데이터라는 책을 읽어본다면 결측치를 결코 만만하게 볼 수 없음을 깨달을 수 있다.

아무튼 MCAR, MAR, MNAR 등을 인과관계 다이어그램과 결부시켜 실습해보는 것이 인상적인 부분인데 비교적 적은 코드로 결측치의 숨은 진실을 쉽게 파악할 수 있게 잘 정리되어있다 생각했다.

부트스트랩을 이용한 불확실성 측정 또한 놀라웠다. 그동안 그저 모델이 정확도를 높이기 위해 부트스트랩을 활용해 왔는데 p-value의 남용 이슈와 관련된 부분에서도 큰 도움을 받을 수 있다는 사실을 직접 실습할 수 있어 유익했다.

p값 남용 문제는 통계학회의 권고 외에도 무수히 많은 책에서 확인해 온 내용이지만 그래서 결론은 어쩌라구? 라는 내 질문에 나름의 해법조차 전달한 책을 찾기는 드물었다. 분명 분석가 나름의 방법이 있을텐데 엄밀하지 않아서 확실하지 않아서 명예가 훼손될까 감춰진 경향이 강했다. 저자는 그 기법을 쿨하게 밝히고 있다. 물론 서문에서 다른 학자 및 전문가와 견해를 달리할 수 있음을 밝혀두었다.전통적 검정력

그 외에도 실험을 직접 설계해보며 조절효과나 매개효과를 측정하는 방법 또한 매우 유익했다. 논문을 읽을 때마다 확실한 이해가 부족하여 막혔던 부분인데 이 책을 읽고 어느정도 감을 잡고 자신감을 얻을 수 있었다.

실습 언어는 R, Python 두 언어를 모두 사용하고 있다. 예제에 따라 두 언어 중 보다 적합한 언어를 선택하여 예제를 구성하고 있다.예제

다만 실습 위주의 책은 아니다. 크게 얻을 것이 없는데 실습 량이 많아 질 것 같은 부분은 예시로 대체하고 있으며 짧은 실습으로 언어적 기술보다 이해에 도움이 될 부분만 예제를 도입하고 있는데 그 완급조절이 가히 예술이다. 최대한 적은 분량으로 많은 것들을 알기 쉽게 전하는 책이다.

이렇듯 이 책은 99%의 입문서나 교과서가 담고 있지 않은 현실에서의 더럽고, 복잡하고, 자신있게 주장하기 힘든 데이터 분석 문제에 대하여 저자 나름의 해법을 용기있게 전달하는 책이다. 아울러 이 책에서 소개한 큰 주제 중 하나인 인과관계는 개인적으로 강인공지능(AGI)을 위한 열쇠라고 생각한다.

저자의 경험에서 얻은 노하우의 공유에 감사드리며 데이터 분석에 임하는 모든이들에게 꼭 한 번 읽어볼 것을 권하고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo