처음 처음 | 이전 이전 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |다음 다음 | 마지막 마지막
랭체인으로 LLM 기반의 AI 서비스 개발하기 - 현직 AI Specialist에게 배우는 RAG! 랭체인, 오픈AI API, 스트림릿으로 8가지 서비스 구현까지
서지영 지음 / 길벗 / 2024년 2월
평점 :
장바구니담기


대표적 LLM인 OpenAI를 활용하여 빠르게 AI 서비스를 구현하는 방법을 안내한 책이다.

이 책은 기술 서적 치고는 두께가 얇은 편이다. 그렇기에 내용을 빠르게 파악하고 기초적인 AI서비스를 빠르게 구현할 수 있다는 점이 큰 장점인데 이 책을 읽고 얻을 수 있는 큰 세가지를 뽑자면 다음과 같다.

첫번째로는 LLM 중심의 AI서비스의 트렌드를 빠르게 이해할 수 있다는 점이다. 딥러닝이 등장한 후 배워야 할 것이 너무도 많아졌다. 게다가 바로 수익을 창출할 수 있는 수준의 LLM API들이 속속들이 등장하고 있기에 최근 트렌드는 모델의 코어나 연구 수준의 이해보다는 이를 빠르게 활용하고 수익과 연결하는 부분으로 트렌드의 중심이 이동한 느낌이다.LLM
트렌드

주로 유명한 LLM의 API를 활용하여 그 위에 파인튜닝이나 랭체인을 활용하여 타 서비스와의 차별화를 두고 있고 내부적으로 임베딩의 기법에 차이를 두는 편인 것 같다. 그렇기에 전통 모델들의 학술 레벨 수준의 깊은 이해보다는 빠른 활용에 초점을 맞추는 것이 시간 없는 현실에 대응하는 올바른 방법이라는 생각도 든다.임베딩

그런 측면에서 이 책은 빠르게 LLM을 활용하는 기술을 익히고 싶은 프로그래머 외에도 기획자나 프로그래밍에 대해 거의 아는 것이 없는 입문자에게도 좋은 책이 되리라는 생각이 든다. 이 책을 가이드 삼아 OpenAI의 API 문서를 참고하고 창의성만 더해진다면 어쩌면 프로그래머들이 만들 수 있는 수준 이상의 좋은 서비스를 구현하는데 문제가 없어 보인다.

두번째는 딥러닝 중심의 기술들의 큰흐름을 빠르게 익힐 수 있다는 점이다. 핵심 코어인 모델의 내부나 작동원리를 설명하는 내용은 거의 없지만 앞서 언급한 바와 같이 핵심 코어의 이해는 사실 상 덜 중요한 일이 되었다. 이미 GPT 수준의 LLM을 일반인이 만든다는 것이 불가능해졌기 때문이다.

OpenAI API 하나만 제대로 숙지해도 딥러닝 중심의 기술 활용 능력을 신장시킬 수 있는 좋은 시대이기도 하다. 앞서 언급한 바와 같이 거대 LLM의 도움을 받아 각자 나름의 차별화가 중요한 시점이 되었는데 그 차별화된 영역은 일종의 작은 딥러닝 모델이라고 볼 수 있기에 전반적인 지식을 잘 익혀둘 필요가 있다.

다만 그 과정에서 AI 트렌드가 빛의 속도로 움직이는 현 시점에 밑바닥부터 학술 레벨 수준의 깊은 이해를 익혀나가는데는 시간적 제약이 크고 손실이 크기에 빠르게 모델에서 서빙까지의 전반을 살필 필요가 있는데 이 책이 딥러닝 중심 기술을 빠르게 익히는데 큰 도움을 준다.

마지막으로 OpenAI API를 활용하여 눈에 보이는 서비스를 가장 빠르게 만드는 방법이 소개되어있다. 그 어떤 독자도 이 책을 읽으면 이렇게 짧은 코드만으로 수준높은 서비스를 구현할 수 있다는 것에 매우 놀랄것이다.예제

물론 이 책의 코드만으로 서비스를 제공하는 것은 상당히 빈약하다. AWS와 같이 클라우드 혹은 서버리스를 운영할 수 있는 인프라 지식도 필요하고 소스코드에 편의기능을 추가할 리액트와 같은 프런트엔드 영역에 대한 학습도 필요하다.

뿐만 아니라 서비스 행위를 DB에 기록한다거나 모바일 서비스에서의 자원 활용 등에 대한 고찰 등 다양한 영역의 심도있는 지식이 추가적으로 필요한 것도 사실이지만 그 부분들은 이 코어를 중심으로 단계적으로 배우며 살을 붙여나가면 된다.

중요한 것은 API를 활용하여 수준 높은 서비스의 핵심을 바로 구현하는 방법을 안내한다는 것이며 PDF 요약하기 웹사이트 예제와 같이 눈에 보이는 서비스를 구현하다보면 생각보다 빠른 시간내에 굉장한 서비스를 기획할 수 있을 것이다.PDF

시대의 흐름에 맞게 빠르게 LLM을 활용한 서비스를 꿈꾸는 입문자들에게 추천하고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
실무로 통하는 ML 문제 해결 with 파이썬 - 전처리부터 딥러닝까지, 216개 실용 예제로 익히는 문제 해결 기법
카일 갤러틴.크리스 알본 지음, 박해선 옮김 / 한빛미디어 / 2024년 4월
평점 :
장바구니담기


머신러닝 입문자가 빠르게 실무에 적응할 수 있도록 도와주는 책. 가장 빠른 방법으로 실무 중심의 핵심만 빠르게 습득하는데 큰 도움을 준다.

약 7년 만에 “파이썬을 활용한 머신러닝 쿡북”의 개정판이 나왔다. 알파고의 등장 이후 딥러닝을 학습하며 거의 처음으로 만났던 책이었기에 매우 반가웠고 몇해 흐르는 동안 관련된 지식을 이미 충분히 알고 있음에도 다시금 반갑게 개정판을 읽은 이유는 다음과 같다.

먼저 1판의 텐서플로 버전과 개정판의 파이토치 버전을 비교해보고 싶은 마음 하나와 몇년 전에 읽었을때의 개념과 제법 실무를 쌓고 난 지금 시점에서 읽었을 때 얼마나 책의 내용이 다르게 다가오는지 느끼고 싶은 이유 때문이었다.

결론을 말하자면 개인적으로는 파이토치와 텐서플로의 구현 방법의 차이를 조금 더 명확하게 정리할 수 있었고 당시 이해하기 어려웠던 개념들을 말끔하게 정리해 볼 수 있음을 느꼈는데 확실히 이 책은 머신러닝을 입문하는 독자들에게 큰 도움이 될 수 있는 내용이 담겨있고 그 내용들은 체계적으로 독자들에게 다가갈 수 있게 구성한 저자의 노력이 돋보였다.

1~7장은 주로 다양한 성격의 데이터를 능숙하게 다루는 방법을 다루고 있다. 수치형이나 범주형으로 구성된 Tabular 성격의 데이터를 Pandas를 통해 가공, 추출하는 것에서 시작하여 텍스트와 같은 비정형 데이터를 다루는 방법을 담고 있다. 특히, 날짜나 시간 또는 벡터와 같이 다루기 까다로운 유형의 데이터를 다루는 방법을 집중하여 설명하고 있어 입문자에게 많은 도움이 된다.

8장~12장에는 주로 전처리 내용을 다룬다. OpenCV로 이미지를 다루는 방법에서부터 차원 축소 등의 피처 엔지니어링 기법도 다루며 모델을 평가하는 방법이나 선택하는 방법 등 실무에 자주 활용되는 파이프라인의 큰 그림을 포괄적으로 이해할 수 있는 파트이다.OpenCV
PCA

14장~19장에는 가장 흔하게 널리 알려진 ML모델을 하나씩 살펴본다. 회귀나 분류 모델은 물론 나이브베이즈나 군집 모델에 대해서도 상세히 실습해 볼 수 있다. 또한 기본 베이스라인 수준의 코드들이 잘 갖춰져있기에 이 책의 모델을 조금만 수정하면 실무 어디에도 쉽게 활용할 수 있도록 구성된 점이 눈에 띈다. 제목에서 알 수 있듯 이 책이 실무에 많은 도움이 되는 내용이기도 하다.

특히 몇년 사이에 ML 핵심 모델을 구현한 최신 라이브러리들의 활용법이 매우 간소화되었다. 이런 최신화 라이브러리의 트렌드를 잘 반영하고 있는 책이기에 1판을 읽었던 독자에게도 도움되는 내용들이 많다고 볼 수 있다.

여담으로 예전에 1판 리뷰를 작성하며 제목에 조금 실무에 도움된다는 느낌이 반영되었으면 한다고 기록한 적이 있는데 어쩌면 출판사에서 그 리뷰 의견을 반영하여 개정판의 제목을 반영해주신건 아닐까 감사한 마음도 든다.

20장 이후로는 딥러닝을 소개한다. Pytorch를 활용하는 기본적인 방법론 및 이미지, 텍스트 위주의 신경망 훈련 예제가 등장한다. 마지막 장에는 서빙을 다루는데 복잡한 서빙의 과정을 API화하여 독자가 쉽고 빠르게 서빙의 개념을 익힐 수 있도록 안배한 구성이 마음에 든다.시각화

이 책의 특징을 종합하자면 머신러닝 입문자가 빠르게 실무에 적응할 수 있도록 도와주는 책이라고 할 수 있다. 모든 예제들은 베이스라인이 탄탄하여 약간의 변형을 가하여 실무에 바로 활용할 수 있고, 머신러닝의 근간이 되는 핵심개념들은 수식을 거의 활용하지 않고 구현과 예제 중심으로 학습할 수 있도록 되어있어 이해하기 애매모호한 부분을 최소화한 점이 강점이다.베이스라인

물론 시대적으로 LLM, GPT, RAG, 랭체인 등이 등장하며 더이상 모델의 Core에 대한 이해가 중요했던 시기는 사라져가고 있는 것이 사실인 듯 하다. 주로 유명한 LLM의 API를 활용하여 그 위에 파인튜닝이나 랭체인을 활용하여 타 서비스와의 차별화를 두고 있고 내부적으로 임베딩의 기법에 차이를 두는 편인 것 같다.

예전처럼 밑바닥부터 온프레미스 느낌으로 자체 모델을 구현하고 서빙했던 환경에서 차차 거대 LLM에 의존하는 현 상황에서 모델의 핵심에 대한 배경 지식이 예전보다 중요성이 떨어진 것은 사실이다. 그럼에도 LLM을 제대로 활용하고 차별화된 별도의 모델을 구현하기 위해 여전히 머신러닝의 코어 지식은 중요하다고 생각한다.

그렇기에 이 책의 내용이 현 시점 트렌드와 약간 거리감이 있는 것은 사실이나 머신러닝이나 딥러닝 분야의 종사자라면 이 정도 모델의 핵심 개념과 활용방법 정도는 기본으로 숙지해야 할 부분이다. 해야할 것이 참 많이 시간이 부족한 요즘 이런 내용들을 가급적 가장 빠른 방법으로 실무 중심의 핵심만 빠르게 습득하는데 큰 도움을 준다는 점이 이 책의 가장 큰 장점일거라 말하고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
혼자 공부하는 네트워크 - 1:1 과외하듯 배우는 네트워크 자습서 혼자 공부하는 시리즈
강민철 지음 / 한빛미디어 / 2024년 4월
평점 :
장바구니담기


늘 추천하고 싶은 혼공시리즈의 신간으로 “네트워크”의 주제를 담고있다.

혼자 공부하는 “혼공” 시리즈의 최신간이 나왔다. 이번 주제는 “네트워크”이다. IT업에 종사한지 꽤 오랜 시간이 지남에 따라 주변에 예비 IT 꿈나무들에게 종종 교재 추천 문의를 받곤 하는데 가장 추천하는 시리즈가 바로 이 혼공시리즈이다.

혼공시리즈는 말 그대로 혼자 공부할 수 있게 구성된 시리즈인데 “혼자”라는 말이 무색하지 않게 다양한 방법으로 혼자 공부할 수 있게 해주는 것이 특징이다.

즉, 내용이 매우 쉽게 기술되어있어 혼자할 수 있고, 심지어는 한빛미디어 채널에 유튜브 강의도 올라와있어 동영상으로도 혼자 학습할 수 있고, 페이스북 커뮤니티에 들어가면 혼공러 모임에 가입하여 동료들과 함께 학습하며 스터디 지원 혜택도 받을 수 있다.

책의 구성도 “혼자” 임하기에 적합한 데 직관적인 학습에 가장 큰 도움을 받을 수 있는 “그림”, 하나의 개념을 가장 구체적이고 가시적으로 이해할 수 있는 “예시”, 추상적 개념을 뚜렷하게 만들어 주는 “비유” 등의 장치가 섞여 있으며 나를 포함한 다양한 베타리더들이 미리 읽어보고 가독성을 높여주는 업그레이드를 거쳤으며 그 외 학습플랜, 연습문제, 용어노트 부록 등의 장치도 포함되어 있어 혼자 쉽게 공부하기에 최적의 교재라 생각한다.용어노트

추천하는 대상 독자로는 단연 IT 커리어의 꿈을 가진 꿈나무들에게 가장 추천하고 싶은 책이고, IT 분야의 범위가 매우 다양하기 때문에 특정분야의 고수라 할지라도 주 분야가 아닌 이상 초보 수준일 수 있기에 새로운 유관파트를 학습하고 싶은 IT 입문자들에게도 추천하고 싶다.

그 중 이번에 소개하는 주제는 “네트워크“편이다. 개인적으로 혼공시리즈를 너무 좋아하기에 베타리딩에 자주 참여한다. 다른 혼공시리즈들 또한 블로그에 리뷰를 남겨놓았으니 다른 시리즈의 리뷰를 확인하고 싶다면 블로그에서 검색해보면 된다.

개인적으로 네트워크 지식은 문외한에 가까운지라 이번 책이 개인적으로 네트워크 지식을 향상시키는 데 많은 도움이 되었다. 이 분야의 지식은 NW분야 종사자에게는 단연 필수 지식이겠지만 나 같은 프로그래머에게도 많은 부분에 있어 간접적으로 도움이 된다.

요즘 프로그래밍은 대부분 인터넷이나 네트워크 인프라 위에서 작동하기 때문에 프로그램 개발 시 네트워크에 대한 기본 지식이 필요하며 이는 보안 지식으로도 이어지기 떄문에 이 책으로 기본 유관지식을 튼튼히 할 수 있다는 점이 장점이다.

가장 마음에 들었던 후반 파트인 와이어샤크 편을 예로 들자면 실제 웹사이트에 접속하여 주고 받는 패킷의 형태를 볼 수 있고 주고받는 프로토콜의 특성을 직접 눈으로 확인할 수 있으니 직관적으로 이해하는데 많은 도움이 되었다.와이어샤크

또한 사무실에 돌아다니는 흔히 말하는 LAN선을 식별할 수 있는 능력도 갖출 수 있었다. NW 전문가 분들께 매번 카테코리6 이런 말들을 귀동냥으로 어깨너머 듣기만하다 이 책을 통해 케이블에도 다양한 종류가 있고 상품별로 어떻게 표기되는 것인지 알게되어 신기했다. 뭐든지 모를 때는 참 무서운 법인데 알고나니 별로 겁이 안난다.케이블

내부에 숨겨진 개념들을 쉽게 이해할 수 있다는 점도 장점 중 하나이다. 코로나 이후 택배 주문 횟수가 급격히 증가하였다고 하니 택배에 대해 모르는 독자는 없을 것이다. 네트워크 패킷을 택배에 비유하여 예시를 드니 복잡한 개념도 쉽게 이해할 수 있었다.택배

혼공 시리즈라고 하지만 나름 전문적인 내용도 꽤 등장한다. 신문에서 주파수를 구매 공개입찰 등의 내용을 봤을 때 솔직히 전체 주파수의 체계를 알지 못했는데 대한민국 주파수 분배도표라는 것이 존재하는 줄 이 책을 통해 처음 알게 되었다.대한민국 주파수 분배도표

SSL과 보안에 대한 개념도 마찬가지이다. 공개키와 개인키로 이뤄져 HTTP 내부의 패킷이 암복호화되는 과정을 매우 쉽게 전달하고 있다. 처음 CA 개념이 이해가지 않아 해메였던 대학시절을 생각하면 지금은 이렇게 좋은 교재로 쉽게 학습할 수 있는 시절이니 부럽기도 했다.SSL

전반적으로 네트워크를 처음 배울 때 반드시 알아야 할 내용들을 압축하여 전달하는 책이다. 나아가 심화 단계로 이어질 수 있는 주제들을 후반부에 잘 소개하고 있다.

앞서 언급한 바와 같이 기본적으로 혼공시리즈들이 가지는 학습 능률 장치들이 이번 신간에도 잘 반영되어있음을 확인하였으며 네트워크 문외한인 내게 네트워크에 대한 자신감을 복돋워주고 그간 몰랐거나 아리송한 개념을 정리해 준 고마운 책이다.

눈에 보이지 않아 어려운 네트워크에 대해 눈에 보이듯 쉽게 학습하고 싶은 독자라면 이 책으로 네트워크 학습을 시작하는 것이 후회없는 선택이 될 것이라 확신한다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
도시를 만드는 기술 이야기 - 다리, 터널, 도로, 통신망, 전력망, 철도, 댐, 상하수도, 건설 장비까지 우리 주변을 둘러싼 인프라의 모든 것
그레이디 힐하우스 지음, 윤신영 옮김 / 한빛미디어 / 2024년 3월
평점 :
장바구니담기


인류 문명에 쓰인 거의 모든 공학 기술의 원리가 담겨있는 책. 문과와 인과의 감성을 모두 느낄 수 있어 신선했다.

어린 시절 누구나 거대한 나만의 건물이나 왕국을 만드는 상상 한 번쯤은 해봤을 것이다. 나의 경우에는 집짓기, 댐만들기, 자동 전력 공급장치와 같은 것을 상상하며 언젠가 한 번 내 손으로 만들어 보겠다는 상상을 했다.

누구나 그렇듯 세월이 흐르며 동심과 호기심은 먹고 사는 우선순위에 밀려 뒷전으로 밀린다. 하지만 잠들기 전 상상의 나래 속을 완전히 잃어버린 것 아니다.

갑자기 다른 나라에서 쳐들어 왔을 때 숲속에 들키지 않는 나만의 아지트를 만들어 대피하는 상상은 건설과 인프라에 대한 상상의 나래를 끝없이 샘솟게 만든다.

핵폭탄이 떨어져도 견딜 수 있을 나만의 아지트, 그 안의 비상식량, 조금 더 상상을 전개하다보면 그 안의 방은 몇 개를 만들지, 전력이 공급되지 않아 음식물이 상하지 않게 하려면 어떻게 해야할지, 적들이 결국 튼튼한 요새를 뚫지 못해 독가스를 살포하여 나오게 만들 경우 어떻게 대응할 것인지 등 그렇게 하나의 질문의 꼬리는 끊기지 않고 끝없이 이어지다 결국 내 기술과 인프라, 공학 지식의 한계에 이르를 때 즈음 비로소 상상이 멈춘다.

대략 한달 간 이 책을 꽤 재미있게 읽었던 것 같다. 어린시절부터 이어 온 내 상상을 현실로 만들기위해 곳곳에 어떤 매커니즘이 숨어져있는지 알아가는 시간은 꽤 즐거웠던 시간이었던 것 같다. 단순히 공학에 대한 지식을 습득하는 것에 지나지 않고 동심과 상상을 이어주는 이 책이 참 묘하게 느껴졌다. 이과 감성과 문과 감성을 공존할 수 있게 해주는 책은 언제나 그렇듯 참 매력적이다.

이 책의 원서 제목은 “Engineering in Plain Sight” 즉, 번역하자면 “평면도에서의 공학”이라는 뜻이다. 이를 의역하여 번역서에는 “도시를 만드는 기술 이야기”라는 제목이 붙었는데 원서보다 책 안의 내용을 구체적으로 잘 표현했다는 생각이 든다.

제목에서 알 수 있듯 이 책은 우리가 문명을 이뤄 살아가기 위한 다양한 인프라, 구조물, 건설 장비에 대한 공학적 지식을 담고 있다. 딱딱하고 전문가 수준의 지식을 담았다면 이 책을 재미있게 읽기는 쉽지 않았을 것이다.

다리, 터널, 도로, 통신, 전력, 댐, 구조물, 상하수도, 건설 등에 대한 다양한 주제를 담고 있고 이 분야의 공학 전 분야는 한 사람의 인생을 온전히 갈아넣는다고 해도 특정 파트 하나 완벽하게 소화하기 힘든 주제들이기에 각 분야마다 전문가 수준의 지식을 쌓는다는 것도 쉽지 않은 일이다.

언제나 그렇듯 이러한 난제를 해결하는데 도움이 되는 수단은 그림이다. 차를 타고 터널의 내부를 지나가면서 터널이 대체 어떻게 생겨먹었을지 한 번 쯤은 상상해봤을 것이다.터널

갑자기 터널이 무너지면 어디로 대피를 해야 할지에서부터 터널에 물이 차면 어디로 빠져나가는지, 환기는 제대로 이뤄지는지 다양한 상상을 하지만 그 귀중한 호기심은 보통 터널 밖으로 나가기 전에 사라지고 마는 것 같다. 다행히 나는 이 책 덕분에 금붕어 기억력과 같은 호기심의 수명을 이번엔 제법 늘릴 수 있었다.터널설명

짧은 리뷰에 이 책을 통해 배운 공학적 지식을 나열하는 것은 별 의미가 없을 듯 하여 위 터널 구조도에 대한 이 책의 설명을 담았다. 읽어보면 알겠지만 터널에는 생각보다 많은 과학이 존재한다. 미처 생각하지 못했던 대기압의 문제나 오수지와 같은 구조를 알게되니 신선했다.

전력에서 건설에 이르는 다양한 주제들이 위와 같은 형식으로 도식으로 보여준 뒤 저자가 자세하게 내부를 뜯어 설명하는 구조로 되어있다. 하나하나 쉽지 않은 주제지만 잘 이해되지 않는 부분들은 부담없이 건너뛰고 읽어도 무관하다.

두번, 세번 반복해서 읽다보면 후반에 읽었던 지식들이 전반부의 지식을 보강해주기도 하고, 저자의 유튜브 채널 등을 통해 보완하여 이해할 수도 있기 때문이다. 또한 본 도서 후반부에도 어려운 용어들을 설명한 용어집이 제공되고 중간중간 못다한 이야기 파트에서 조금 더 자세히 이해할 수 있게 해준다.용어집
못다한이야기

아무튼 난 이 책 덕분에 그동안 상상 속에서만 이뤄져왔던 동심의 여행을 어느정도 현실로 끌어 내는데 성공했다. 수십년 간 궁금했지만 그냥 물음표에만 머물러 있었던 궁금증들을 상당부분 해소할 수 있어 속 시원한 부분도 있다.

책을 읽는 목적에 따라 어떤 독자에게는 현실적으로 많은 도움이 될지도 모르겠다. 나 역시 퇴직 후 가문에 이어져 내려오는 시골땅에 집을 지을 생각인데 이 책에서 읽은 지식이 꽤 요긴하게 쓰일 것 같다.

아울러 아들과 종종 이 책을 읽곤 했는데 특히 자라나는 아이들에게 이 책은 꽤 훌륭한 보석이라는 생각이 들었다. 이 세상의 거대한 건축물에 대해 늘 호기심이 많았던 아들이 이젠 나보다 이 책을 더 많이 손에 쥐고 즐기고 있다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
실무로 통하는 인과추론 with 파이썬 - 데이터 분석에서 정책 수립까지, 이론과 사례 연구를 통한 실용적인 학습법
마테우스 파쿠레 지음, 신진수.가짜연구소 인과추론팀 옮김, 박지용 감수 / 한빛미디어 / 2024년 3월
평점 :
장바구니담기


AI가 아직 해결하기 힘든 난제이자 진리로 향하는 필수 도구인 인과추론의 개념과 도출 기법을 다룬 몇 안되는 희귀한 도서.

인과관계는 상관관계와 다르다.”(이 책에서는 상관관계를 연관관계라는 단어로 표현한다.)

아이스크림이 많이 팔리면 상어에게 인간이 잡혀먹힐 확률이 높다라는 가정은 직관적으로 생각해도 말이 안되는 명제이지만 일상에서 생각보다 많은 사람들이 상관관게의 현상에 가려 잘못된 인과를 도출한다.

실상 원인은 기온이고 그에 따른 결과로 아이스크림이 많이 팔릴 뿐이다. 기온이 올라가니 사람들이 해변에서 수영을 즐기는 빈도가 높아지고 자연스레 상어로 부터의 위험에 노출될 확률이 올라가는 것이다.

그럼에도 해당 도메인 분야에 약간의 무지만 더한다면 상관관계와 인과관계를 구별하는 것은 생각보다 쉬운일이 아니다. 이 책은 통계학적 기법을 중심으로 그 차이를 분별해 낼 수 있는 능력을 키워주는 도서이자 나아가 통계 모델과 수학을 활용하여 관측된 데이터를 객관적으로 해석할 수 있는 방법을 도출하는데 도움을 준다.

사실 인과추론은 결코 쉬운 주제가 아니다. 경험의 축적을 통해 충분히 인과관계를 밝힐 수 있는 직관이 확립된 일상생활이나 또는 수십년간의 연구를 통해 해당 도메인 분야에 내공이 쌓인 경우가 아니라면 결국은 관측 데이터를 통해 궁금증을 해결할 수 밖에 없기 때문이다.

위험한 함정에 빠지지 않기위해 이 책에서는 실제 데이터와 파이썬의 시각화를 통한 검증을 거쳐가며 가급적 쉽게 인과추론의 타당성을 검증해 나간다.예시데이터

책의 구성 상 차례대로 읽어나갈 것을 권하고 싶다. 특히 1장의 경우 인과추론 입문 과정의 필수지식을 담고 있기에 반드시 정독해야 한다. 인과추론의 기본 개념은 물론 관계 심슨의 역설과 같은 반드시 알아두어야 할 인과 함정 등의 내용이 등장한다.심슨의 역설

특히, ATE(평균 처치효과), 실험군에 대한 평균 처치효과(ATT), 조건부 평균 처치효과(CATE) 개념은 반드시 숙지해 둬야 할 개념이다. 인과추정량을 모르고는 2장부터 마지막까지 이어지는 대부분의 내용을 이해하기 어려울 것이다.인과추정량

인과의 함정을 피하기 위한 도구로 후반부 까지 지속적으로 검증에 도움을 주는 도구로 활용되기 때문이다.

초반부에는 인과를 검증하기 위한 어려 장치들이 등장한다. 통계학 진영에서 긴 세월동안 축적해 온 귀무가설의 p-value를 측정할 때 활용하는 유의성 검증부터 시각적 도구로 난해한 관계에 직관을 부여하는 그래프 인과 모델 등이 그러한 예시이다.유의성검증
그래프인과모델

2부로 넘어가면 회귀분석을 활용하여 편향을 제거하는 방법이나 및 성향점수나 이중 강건 추정법을 활용하는데 마치 연안에서 망망대해를 나가는 과정에 비유할 수 있겠다.

3부에서는 머신러닝을 활용한다. 그간 전통적인 통계 기법은 엄밀성을 강조한 나머지 추론한 결과의 신빙성은 보호할 수 있었으나 경영진이 의사결정하는데 있어 정작알고 싶은 가려운 구석은 긁어주지 못하는 한계를 가지고 있었다.

최근 화두가 된 AI 진영의 기법이 더해지면서 보다 실용적으로 인과추론을 활용하는 시도들이 소개된다. T, X, S러너들이 대표적인 기법들인데 개인화에 초점을 맞춘다거나 편향을 제거하는데 보다 좋은 성과를 얻을 수 있다.

4부는 개인적으로 가장 흥미롭게 읽었던 부분이다. 솔직히 통계학 전공이 아니기에 매 순간 이해하는데 어려움이 많았는데 이 파트는 더욱 이해하기 어려웠다. 인과에 시간이 더해지는 파트이다.

사실 인과 자체도 어려운 영역인데 시간 역시 만만치 않다. 시간을 정의내리는 것이 쉽지 않기 때문이다. 과학을 넘어 철학까지 이어지는 여정은 흥미롭고 신비한 여정이지만 그에 상응하는 고통도 수반한다. 누구도 시간을 흔쾌히 정의내리지 못한다. 아인슈타인의 시공간이 하나라는 개념이 더해지면 더욱 그렇다.

문제는 인과는 정의만 쉽지 검증이 어렵다. 이 두 난해한 과제가 만나 시계열 분석은 물론 인과추론까지 접목되어 통계학에서 그간 애용된 이중차분법과 같은 모델이 만나니 왠만한 내공의 독자가 아니면 이 파트를 속시원히 설명하긴 어려울 듯 하다.

마지막 5부에서는 불연속 설계나 스위치 백 실험들이 등장하고 추가로 학습해 볼만한 주제들이 등장한다.

저자는 이 책을 인과추론의 입문서 정도로 소개했지만 안에 담긴 내용은 결코 입문서 수준이 아님에 유의하길 바란다. Python 예제들은 직관을 도출하거나 난해한 통계 검증 기법을 시각화 시켜주는데 도움을 주지만 인과추론을 연역적으로 기술하는 도구는 아니다. 어디까지나 보조장치로 활용되기에 Python으로 인과추론을 이해하는 구성이라 생각하면 안될 것 같다.

그보다는 머신러닌 진영의 기법이나 특히 통계학의 수학을 기반으로 한 연역 기법이 많이 활용되고 있어 Python과 같은 프로그래밍 스킬은 물론 통계학이나 수학적 지식의 베이스가 탄탄한 독자가 읽는 것이 이해에 무리가 없을거라 생각한다.

개인적으로 인과추론은 향후 AGI에의 도달을 위해 해결해야 할 가장 큰 장애물 중 하나라고 생각한다. 현 시점 묵과할 주제가 아니라는 말이다.

게다가 인과추론은 신생 학문이고 참조할 만한 레퍼런스가 너무 적다. 그런 의미에서 현 시점 이 책이 가지는 가치는 상당할 것으로 평할 수 있을 것이다. 한 단계 고차원적인 AI 기법의 하나이자 보다 정확한 진실을 향해 다가가는데 활용할 수 있는 도구로써 인과추론에 관심있는 독자들에게 본 도서의 일독을 권하는 바이다.




댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
처음 처음 | 이전 이전 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |다음 다음 | 마지막 마지막