[nanhmjjang님의 서재] : 알라딘

만화로 보는 바빌론 부자들의 돈 버는 지혜ｌ리뷰/페이퍼

nanhmjjang () l 2020-10-05 09:26

https://blog.aladin.co.kr/740711217/12046001

바빌론 부자들의 돈 버는 지혜 - 만화로 보는 조지 S. 클래이슨 지음, 사카노 아사히 그림, 김은혜 옮김, 오하시 코스케 기획 / 한빛비즈 / 2020년 9월 평점 :

본 도서는 1926년 미국에서 출간된 “바빌론 부자들의 돈 버는 지혜”를 각색한 만화책으로 인생에 필요한 금융, 재테크, 인간관계, 행복을 주제로 다룬다.

데일카네기의 인간관계론과 더불어 그 무렵 출간된 멋진 고전 중 하나로 100년 가까이 사랑을 받아왔던 책인지라 꼭 한 번 읽어보고 싶었는데 만화책이 간행되어 부담없이 재미를 느끼며 읽을 수 있어 행복했다.

책의 배경은 기원전 18세기에서 4세기까지 번성했던 바빌로니아 왕국을 무대로 한다. 잘 모르는 나라라고 생각하기 쉽지만 바벨탑으로 유명한 나라이며 “눈에는 눈, 이에는 이”로 유명한 함무라비 왕도 이 나라를 다스린 왕 중 한 명이다.

책의 내용은 액자식 구성을 띈다. 인생에 실패한 고고학자 최재욱 교수가 친구의 의뢰를 받아 바빌로니아 유적지에서 발굴된 점토판을 번역하는 것으로 이야기는 시작된다.

점토판에는 바빌로니아 시대 주인공 반시르가 거액의 부를 쌓는 여정이 담겨있다. 특히, 바빌로니아의 발전을 지탱한 황금의 법칙이 등장하는데 이 부분이 이 책의 핵심이다.

최교수는 번역을 마치고 황금의 법칙대로 열심히 살아 파탄난 인생을 다시 행복한 인생으로 되돌린다는 액자식 구성으로 되어있는데, 무려 459p에 달하는 방대한 분량에 반시르의 인생 대부분이 녹아있다.

분량이 상당하지만 걱정하지 않아도 된다. 만화책이기 때문이다. 또한 우리가 늘 일상에 겪는 일들이 소재로 담겨있어 흥미진진하다.

보다 자세한 내용을 소개하고 싶지만 자칫 스포일러가 될까 우려되어 대신 가장 중요하게 느낀 핵심과 나의 생각을 정리해보려 한다.

황금을 불리는 5가지 법칙
바빌로니아를 장구한 역사에 걸쳐 지탱해 온 황금을 불리는 법칙 5가지를 먼저 소개할까 한다. 전 시대에 걸쳐 통용될 만한 매우 중요한 법칙이지만 원칙이라는 것이 늘 그렇듯 중요한 만큼 단순하고 뻔하다.
사실 어린 시절에 읽었으면 크게 와 닿지 않았을지 모르는데 살면서 좌충우돌 돈 때문에 속을 썩고 살다보니 뻔한 문장이 달리보인다. 아이들이 돈의 관념을 익히기 전 반드시 읽어야 할 책이라는 생각이 들었다.
아이들은 현실로 받아들이기보다는 교과서 처럼 받아들일 가능성이 크기에 부모나 스승이 자신의 사례를 곁들여 설명해준다면 아이가 장성하여 스스로의 부를 지키는 데 가장 훌륭한 울타리가 될 수 있을것 같다.
- 1.가족과 자신의 미래를 위해 수입의 10분의 1이상을 저축하는 자에게 황금이 따라온다.
  요즘 식으로 말하자면 종잣돈의 소중함이다. 서민에게 종잣돈이란 부의 항해를 위한 유일한 교두보이자 가능성이다.
  나 역시 사회 초년 시절엔 종잣돈이란 그저 어릴때부터 귀에 못이 박히도록 중요하다고 들어온 저축 정도로만 생각했다.
  생각보다 시간은 빠르다. 물론 총각 때 버는 돈은 금방 모인다. 인생에 작은 실수 정도는 세월이 용납해준다.
  하지만 결국 차를 사고 결혼하고 아이를 부양하고 집을사며 교육비를 부양하고 노부모를 부양하는 누구나 뻔하게 살아가는 인생 패턴이 생각보다 빨리 찾아온다.
  그 시절엔 하루도 1/24로 줄고, 돈도 1/24로 줄어드는 느낌이다. 총소득은 자꾸 늘어나는데 새는 돈은 걷잡을 수도 없이 많아지는 봉변이 일어난다.
  역설적이지만 종잣돈은 총각 때 모아야 한다. 아니 그때가 아니면 거의 모을 수 없다. 그럼에도 그 이후 모으는 유일한 방법은 수입의 10분의 1이상을 저축하는 것이다.
- 2. 황금을 모을 수 있는 직장을 찾고, 양 떼를 불리는 양치기처럼 현명하게 행동하면 황금이 불어난다.
  직장의 중요성은 두말할 나위 없다. 꾸준한 소득원이 있어야 한다는 말이며 이를 불릴줄 알아야 한다.
- 3. 황금을 잘 다루는 사람의 조언에 귀 기울이는 자가 황금을 지킬 수 있다. 정보의 중요성은 나날이 중요해지고 있다. 주위의 인맥을 활용하여 재테크의 조언을 구하는 것은 상상 이상으로 중요하다.
- 4. 자신이 잘 모르는 사업이나 황금을 잘 지키는 자가 추천하지 않는 사업에 투자하는 자는 황금을 지킬 수 없다.
  지피지기면 백전백승이라는 고금의 진리로 돈을 굴릴때는 반드시 내가 잘 알거나, 잘 아는 사람이 추천하는 길로 가야 한다.
- 5. 비현실적인 이익을 바라거나 사기꾼의 달콤한 유혹에 넘어가고 자신의 미숙한 경험을 맹신하는 자는 황금을 지킬 수 없다.
  대표적으로 비트코인을 예로 들고 싶다. 지금까지도 열풍이 식지않고 꾸준히 우상향하는 것은 사실이지만 2017년 우리나라에 광풍이 불었을 때 불나방 같은 투자로 많은 청년들이 재산을 잃었다. 물론 시점에 따라 어마어마한 부를 얻은 사람도 있겠지만 전체 대비 얼마나 많은 사람들이 성공했을까?
  주식이든 코인이든 다른 현물이든 사람들은 X축(시간)에 별로 집중하지 않고 Y축(가격)에만 집착하는 경향이 있다. X축이 무한에 가까운 변수가 될 수 있음을 깨닫는다면 일확천금을 노리다 한방에 올인될 수도 있음을 알아야한다. 위험한 투자 역시 마찬가지다.
  더불어 주위에 부유한 분들의 조언을 새겨 들었더라면 지금 부자는 아니어도 넉넉한 경제력을 유지할 수는 있을것이라는 생각이 든다.
  집부터 사고, 종잣돈 모으고, 차를 사는 너무 쉽고 간단한 그 분들의 조언을 단순하다고 무시하고, 똑똑한 나는 대부분의 사람들이 모르는 마법의 공식을 찾아내 성공할 수 있다고 자만한 청년 시절의 치기가 떠올라 읽는 내내 부끄러웠다.
황금의 법칙외에도 또 다른 유용한 법칙들도 있는데 아래 그림은 책 전반에 걸친 핵심을 잘 정리한 페이지이다.
더불어 책 곳곳에 현 시점에 걸맞는 투자법도 소개되어 있다. 하지만 대부분 황금의 법칙과 일맥상통하는 내용들이라 자세히 다루지는 않겠다. 이것으로 리뷰를 마무리할까 한다.

이 책은 학생 혹은 사회 초년생에게 꼭 추천하고 싶은 책이다. 돈을 본격적으로 접하기 전 좋은 기본 지침을 들고 원칙을 세우고 자신의 자산을 관리하게 된다면 일확천금은 아니더라도 경제적으로 방향을 잃고 헤매진 않을거라는 생각이 든다.

경계할 것은 뻔한 이야기라고 절대 무시하지 않았으면 좋겠다. 그 뻔한 이야기를 대부분 실천으로 옮기지 못해 인생에 최소 한 번 이상의 위기와 직면하게 되고 괴로워 한다. 특히 황금의 법칙 5번 처럼 자신의 미숙한 경험을 맹신하지 않았으면 좋겠다.

이미 부를 이룬 분들은 그동안 걸어 온 본인의 여정에 잘못된 원칙이 있진 않은지 점검하기에 좋은 기회가 될거라 생각하며 한창 부의 전선에서 치열하게 전쟁 중인 나와 같은 사람들에게는 과거의 잘못을 곱씹고 반성하며 미래에 반복하지 않기 위한 원칙을 세우는 데 도움이 되리라 생각한다.

그 외 주인공 반시르의 평생의 여정을 같이 여행해보며 스스로의 인생, 가족, 사랑에 대해 다시 돌이켜 보는 소중한 시간을 얻을 수 있음을 강조하고 싶다.

책소개 - 만화로 보는 바빌론 부자들의 돈 버는 지혜

바빌론, 부자, 지혜, 돈, 부, 재테크, 황금, 법칙

댓글(0) 먼댓글(0) 좋아요(0)

ｌ

찜하기 ｌ

[100자평] 퀀트 전략을 위한 인공지능 트레이딩ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-27 01:46

https://blog.aladin.co.kr/740711217/12028447

퀀트 전략을 위한 인공지능 트레이딩 - 파이썬과 케라스를 활용한 머신러닝/딥러닝 퀀트 전략 기술 김태헌.신준호 지음 / 한빛미디어 / 2020년 8월 평점 :

총 379페이지에 달하는 분량안에 투자의 핵심, 퀀트 전략, 머신러닝과 딥러닝에의 접목, 알짜배기 Python 스킬, 금융 학술분야 논문 구현에 이르기까지 상대적으로 적은 분량에 어떻게 이 모든 지식들을 다 녹여낼 수 있는 것인지 저자의 역량에 감탄을 금할 길 없다.

댓글(0) 먼댓글(0) 좋아요(2)

ｌ

찜하기 ｌ

퀀트 전략을 위한 인공지능 트레이딩ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-27 01:41

https://blog.aladin.co.kr/740711217/12028440

퀀트 전략을 위한 인공지능 트레이딩 - 파이썬과 케라스를 활용한 머신러닝/딥러닝 퀀트 전략 기술 김태헌.신준호 지음 / 한빛미디어 / 2020년 8월 평점 :

본 도서는 머신러닝과 딥러닝을 활용한 AI 트레이닝 전략 및 구현을 다룬다.

알파고가 등장한지 4년이 넘어서일까 이제 시중에는 좋은 AI 서적들이 많이 늘어났다. 이 책 역시 그런 멋진 도서 중 하나이다. 총평을 먼저 내리자면 AI 실용서 중 으뜸인 수작이라고 평하고 싶다.

총 379페이지에 달하는 분량안에 투자의 핵심, 퀀트 전략, 머신러닝과 딥러닝에의 접목, 알짜배기 Python 스킬, 금융 학술분야 논문 구현에 이르기까지 상대적으로 적은 분량에 어떻게 이 모든 지식들을 다 녹여낼 수 있는 것인지 저자의 역량에 감탄을 금할 길 없다.

AI를 다루는 서적임에도 좋은 투자의 교본서 같은 느낌도 든다. 주식이나 코인 등을 투자해본 경험이 있는 분이 이 책을 읽는다면 왠만한 시중의 주식 서적보다 더 많은 인사이트와 분석법을 제공한다는 사실을 깨닫게 될 것이다.

무엇보다 저자의 전달력이 너무 뛰어나다. 저자는 AI 분야의 베스트 셀러인 단단한 머신러닝, 데이터 과학자와 데이터 엔지니어를 위한 문답집의 역자이기도 하다.

두 책 모두 읽은 독자로써 번역서임에도 읽기가 참 편하다는 느낌이 들어 저자분의 성함을 기억하고 있었는데 그런 전달력으로 본인의 내공을 전달하기 때문일까 고난도의 알짜배기 지식이 간결하고 알기 쉽게 저술되어있어 인상적이었다.

책의 구성은 크게 개요 및 파이썬, 퀀트 전략, 머신러닝 적용, 딥러닝 적용 4개의 파트로 나뉜다. 각 장의 특성에 맞게 파트별로 간단히 소개해 보겠다.

개요 및 파이썬 (1~2장)
1장 개요에서는 금융 영역 전반에 걸쳐 머신러닝이 어떤 평가를 받고 있고 어떻게 적용되고 있으며 투자에 어떤 알고리즘이 활용되는지 등의 전반적인 교양 수준의 지식을 총체적으로 다룬다. 뒷장에서 이어나갈 이론의 배경이자 실습 구현을 위한 기본 상식이기 때문에 미리 알아두는 것이 좋다.
2장은 금융에 특화된 파이썬 활용법을 소개한다. 이 장은 비록 본 도서의 핵심 내용은 아니지만 반드시 필요한 기초 중의 기초를 다루고 있으며 이 장의 파이썬 스킬들만 잘 익혀도 뒷 장의 구현에 큰 어려움이 없을만큼 알짜 지식이 잘 정리되어 있다.
일반적인 다른 서적들이 두루뭉실 API 활용법과 예제의 나열로 이루어져 뒷장을 넘길수록 망각하거나 체계가 잡히지 않아 고난이도 파트를 구현하는데 애를 먹기 마련인데 이 책은 필요 지식들이 유기적으로 연결되어있어 기억이 오래 남았다. 무엇보다 파이썬으로 데이터를 처리하려는 초보자가 한 번씩 골머리 앓는 아래와 같은 문제들을 디테일하게 언급하고 있어 인상적이었다.
- 시계열에 특화된 함수들
  잘 모르면 group by 등 전통적인 프로그래밍 방식으로 노가다의 지옥에 빠져들 수 있는데 이를 방지하기 위한 주요 함수들을 깔끔히 정리해준다.
  - shift() : 특정 시점 시프트 이동 기능. 이후 비교 등의 처리에 용이. 아래와 같이 직관적인 시각화 그림이 제시되어있어 정말 쉽게 이해할 수 있다.
  - pct_change() : shift 기능 + 백분율 변화량
  - diff() : shift 기능 + 변화량
  - rolling() : 마치 CNN의 윈도우와 비슷한 개념으로 윈도우 크기만큼 일정 구간 데이터들의 평균, 최소, 최대 값을 계산하는 함수
  - resample() : 시간 간격 조정 가능. 업 샘플링 + 다운 샘플링
- 시계열 데이터 분석 시 시점과 기간의 컨트롤 차이
- R과의 차이점 : NaN(Not a Number) 등
- dropna() 함수로 열을 제거하고 싶은 경우 axis=1 옵션에 대한 깔끔한 설명
- Pandas에서 컬럼에 접근 시 중괄호 두번 사용 등
거의 매일 쓰이는 유용한 금융 데이터 처리 기법을 익힌 후 금융 API가 소개되며 “인베스팅.com”의 API를 활용하여 차트를 그려보는 등의 실습을 진행한다. 금융 데이터를 처리할 때 사용하는 Python의 핵심 기능을 최대한 분량을 줄여 전달하는 저자의 노력과 배려가 돋보였다.

퀀트 전략 (3~4장)
3장에서는 가장 기초적인 바이앤홀드 전략을 소개하고 연평균 복리 수익률, 최대 낙폭, 변동성, 샤프 지수, 성과 분석 결과를 구현해 본다. 일반인들에게도 크게 어렵지 않은 지표들이지만 데이터에 특화된 프로그래밍 언어나 라이브러리를 사용하지 않고 일반적인 프로그래밍 기법으로 구현하면 쉽지도 않을뿐 더러 코드가 복잡해진다. 나중에는 객체 지향 기법과 패턴을 동원해도 한 눈에 알아보기 힘들어 시간이 흐른 후 유지보수하기 힘들어지는 단점을 2장에서 배운 핵심 파이썬 지식을 활용해 방지할 수 있다.
4장에서는 전통적인 퀀트 투자 전략을 구현해본다. 주식 투자를 한 번이라도 해 본 사람은 귀에 익은 말이 있을 것이다. 바로 기술적 투자와 가치투자.
이 장에서는 기술적 투자에 있어 대표적인 2가지 관점에 대한 지표들을 직접 구현해 본다. 먼저 “올라간 주식은 반드시 내려온다.” 관점의 대표격이라 할 수 있는 평균 회귀 지표인 볼린저 밴드를 구현해 본다.
마찬가지로 또 다른 유용한 관점 “올라가는 주식이 계속 오른다”의 방식인 듀얼(상대-절대) 모멘텀도 구현해 본다.
더불어 가치투자에 해당하는 마법의 공식도 구현해본다. 이는 주식 실전 투자 전략서에 자주 소개되는 유명한 공식인데 조엘 그린블라트가 고안한 방법이다.
주식 투자 시 각종 차트를 통해 활용했던 입장에서 직접 구현을 해봄으로써 내부 매커니즘을 익히는데 도움이되고 특히 퀀트를 목표로 하는 입문자에게는 상당한 자신감을 키워줄 수 있는 유용한 파트였다.

머신러닝 적용 (5~6장)
사실 위 4장까지만 다뤄도 충분히 부족함 없는 완성도 높은 책이라는 생각이 들텐데 본 게임은 여기에서부터 시작된다.
금융 분야는 핵심 이론의 공유가 폐쇄된 분야인데 이는 수익성과 직결되어있기 때문이다. 5장에서는 조심스러운 입장에서 많이 공개되지 않은 학술자료를 바탕으로 머신러닝이 금융에서 차지하는 포지션을 다뤄본다.
더불어 머신러닝의 대표적인 기법들을 간단히 정리해 본 후 교차검증, 전처리, 측정 지표, 백테스팅 방법에 대해 다룬다. 짧은 내용이지만 머신러닝의 알짜배기를 빠르게 익힐 수 있고 특히 말로만 듣던 백테스팅 방법을 직접 구현해보며 퀀트의 실제에 대한 맛을 볼 수 있었다.
6장에서는 5장에서 배운 지식들을 토대로 머신러닝을 적용한 결과물들을 직접 구현해본다. ETFs를 활용한 주가 방향 예측 구현 파트에서는 트리 기반의 앙상블 구현을 통해 각 전문가들의 의견을 조합하는 방식을 배울 수 있다.
이어 초보자도 이해하기 쉬운 k-최근접 이웃 알고리즘을 통한 지도학습 전략, 비지도 학습 알고리즘인 클러스터링을 활용한 종목 분류 또한 직접 구현한다. 여기까지 이르면 사실 머리가 상당히 복잡해지지만 그럼에도 머리속에 나름의 체계가 잡히는 것이 신기했다. 아마도 저자의 뛰어난 체계적인 전달력이 책에 녹아있기 때문이 아닐까 생각한다.

딥러닝 적용 (7~8장)
드디어 대망의 딥러닝이 등장하는 파트이다.
7장에는 딥러닝의 전반적인 지식을 소개하는 개요 부분이라 할 수 있다. 대표적인 딥러닝 알고리즘 소개 및 학술 분야의 연구 현황과 케라스 프레임워크를 다루는 방법까지 두루 살펴본다.
이어 8장에서는 7장의 지식들을 활용해 직접 논문의 기술들을 구현해본다. 제일 먼저 주식 데이터의 캔들 그림을 인풋 데이터로 활용하여 CNN으로 예측 분석 모델을 구현한다. Tabular 데이터가 뻔히 있음에도 이미지로 변환하여 CNN에 적용하는 아이디어가 매우 인상적이었다.
다음으로 시계열 모델에 유리한 RNN을 활용하여 주가 방향성을 분류하는 모델을 만든다. 더불어 오토인코더를 활용하여 주가 데이터를 생성해보는 논문도 구현하게 되는데 이 부분은 나중에 GAN 같은 기술을 활용하면 더욱 의미 있을 듯 하다.
그간 금융 분야에 딥러닝을 적용하는 기법들은 세간의 관심사인데 반해 정작 알려진 혹은 쉽게 이해할 수 있는 레퍼런스가 매우 드물었다. 특히 국내 서적은 말할 것도 없다. 그런점에서 본 파트가 책 중 가장 가치 있는 내용을 다룬다고 생각한다. 논문을 직접 구현해보며 학술적인 안목도 높힐 수 있고 스스로의 인사이트를 트레이닝 모델에 접목해 볼 수 있는 자생력을 키울 수 있기에 매우 유익했다.

책 소개는 이 정도면 충분할 것 같다. 금융 분야에의 AI 기술은 수익과 직결되는 부분이기에 쉽게 공유되지 않는 소중한 지식들이다. 더욱이 일반인들이 쉽게 이해하기 어려운 영역이기도 하다.

이런 소중한 지식을 저자의 내공과 전달력이 버무러져 쉽게 떠먹을 수 있는 형태로 구성된 책이기에 도저히 추천하지 않을 수 없다. 앞에서 칭찬 일색으로 도배했듯 AI에 관심 있는 모든 분들이 반드시 읽어봐야 할 필독서임을 강조하고 싶다. 이런 멋진 양서를 세상에 베푼 저자, 출판사 관계자 분들께 깊이 감사드린다.

책소개 - 퀀트 전략을 위한 인공지능 트레이딩

댓글(0) 먼댓글(0) 좋아요(2)

ｌ

찜하기 ｌ

[100자평] 데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-19 16:18

https://blog.aladin.co.kr/740711217/12010812

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 - 100개 이상의 실전 면접 문제로 배우는 머신러닝, 딥러닝, 강화학습 알고리즘 ㅣ 제이펍의 인공지능 시리즈 (I♥A.I.) 28 Hulu 데이터 과학팀 지음, 김태헌 옮김 / 제이펍 / 2020년 6월 평점 :

15인의 전문가들이 마치 앙상블 방식으로 저술한 점이 마음에 든다. 개개인의 튼튼한 수학 기초는 물론 알고리즘 및 모델에 대한 깊은 이해를 집단 지성으로 녹인 듯 하다. 개인적으로는 국내에 나온 관련 서적 중 손에 꼽을 수 있는 Top-Tier 레벨의 책이라는 생각이 들었다.

댓글(2) 먼댓글(0) 좋아요(2)

ｌ

찜하기 ｌ

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-19 16:17

https://blog.aladin.co.kr/740711217/12010811

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 - 100개 이상의 실전 면접 문제로 배우는 머신러닝, 딥러닝, 강화학습 알고리즘 ㅣ 제이펍의 인공지능 시리즈 (I♥A.I.) 28 Hulu 데이터 과학팀 지음, 김태헌 옮김 / 제이펍 / 2020년 6월 평점 :

본 도서는 HULU(넷플릭스 대항마로 월트 디즈니가 설립한 OTT 서비스 회사) 15명의 데이터 과학자가 공저하였다.

HULU는 개인화 추천, 검색, 컨텐츠 이해, 광고 예측과 타기팅, 의사결정 서프트 등에 특화된 AI 기술을 다루고 있고, 저자들이 탄탄한 연구 실적을 쌓아와서일까 책 내용의 깊이가 남다른 것 같다.

읽은 소감을 먼저 전하자면 15인의 전문가들이 마치 앙상블 방식으로 저술한 점이 마음에 든다. 개개인의 튼튼한 수학 기초는 물론 알고리즘 및 모델에 대한 깊은 이해를 집단 지성으로 녹인 듯 하다. 개인적으로는 국내에 나온 관련 서적 중 손에 꼽을 수 있는 Top-Tier 레벨의 책이라는 생각이 들었다.

책의 내용을 전체적으로 정리해보고 싶은 욕심이 있었지만 리뷰 수준으로는 분량을 감당하기 어려워 책의 장점과 학습법을 위주로 몇가지 토픽들을 정리해보았다.

메타 지식
데이터 사이언스 분야는 공부할 것이 너무 많아 시간이 매우 부족하기에 속도 보다는 방향이 중요하다. 메타지식을 먼저 접하여 좋은 방향을 설정하는 것도 시간을 줄여줄 수 있는 좋은 방법이다.
이 책은 실무에서 80%를 차지하는 20%의 지식을 메타지식으로 잘 정리한 책이다. 가장 중요한 것을 먼저 배울 수 있다.
개인적인 경험으로는 이 분야를 학습할 때 삼천포로 빠지지 않기 위해 많은 노력을 기울여야 한다.
남들이 좋다는 논문을 가리지 않고 리뷰하면 만족감이나 수박 겉 핥기 지식이 쌓이기는 하는데 배후의 원리나 철학은 블랙박스로 남아있거나 잘 기억이 나지 않을 수 있다.
혹은 선대, 미방, 확통의 중요성을 늘 들어왔기에 책도 보고 논문도 들춰본다. 처음 보는 수학기호를 만나면 아! 내가 수학 기초가 정말 부족하구나라고 중얼거리면서 정수론, 집합론, 해석학 책을 구매하기 시작한다.
시간을 헛되이 보내지 않은 것 같은 만족감이 나를 위로 하긴 하지만 다시 현실로 돌아가면 여전히 할 수 있는게 없다. 학습은 열심히 했는데 실전에선 영 시원찮다.
일종의 과적합에 빠진 것 같다. 과적합을 피하기 위한 좋은 기법 중 하나가 Dropout이다. 학습에도 가지치기가 필요하다. 너무 불필요한 노드까지 다 학습하면 시간은 다 증발하고 현실에서 성능을 발휘하지 못한다.
이 책에는 중요한 핵심이 잘 드러난다. QnA의 구성 덕분인지 두괄식으로 우선순위에 따라 서술된다.
배깅과 부스팅을 예로 들면 배깅은 분산을 낮추데 효과적이고, 부스팅은 편향을 낮추는데 효과적이라고 먼저 알려주어 숲을 파악하기 쉽게 해준다.
예전에 어떤 책을 따라하다 성능이 저조한데도 원인도 제대로 파악 못하고 편향을 낮춰야 하는데 배깅으로 끙끙대고 했던 기억이 있기에 이런 두괄식 구성이 눈에 띄였다.
만약 AI 분야로 진로를 정한 입문자라면 먼저 이 책을 볼 것을 권유드리고 싶다. AI 기술 분야별로 자신에게 소질이 있거나 적성이 있어 보이는 분야를 먼저 찾기에 용이하기 때문이다. 최소한 이건 내가 죽었다 깨어나도 못하겠다는 분야 정도는 찾을 수 있다.
난이도는 결코 입문자급도 아니고 쉽지 않다. 깊은 수학적 원리가 정리된 챕터 같은 경우 이미 실무에 종사하고 있는 전문가분들도 어렵다는 평을 들었다.
하지만 일단 메타지식을 쌓고 비벼볼만한 영역을 찾아 읽어나가다 막히는 부분이 생기면 다른 입문서를 참조하면 된다. Top-Down 방식처럼 말이다. 비록 과적합에 빠질지라도 가장 알짜배기를 모아놓은 책이기에 투자대비 위험 부담이 적다.
그렇게 노력하다보면 스스로 하고 싶은 연구 혹은 진로 분야가 명확해지지 않을까?

실무 스킬과의 연계
본 도서의 또 다른 장점은 실무에서 활용되는 예시가 자주 등장한다는 것이다. 그간 경험한 사례와 비추어 유용했던 몇 가지 예시를 정리해 보았다.
- RMSE(평균제곱근오차)와 특이점
  이 문제는 내가 겪은 문제이기도 하고 누구나 초보 시절 한 번은 겪을 법한 문제인데 RMSE(평균제곱근오차)가 특이점에 민감하다는 내용이다.
  이론을 아는 수준에서 그치고 넘어가면 실제 상황에는 잘 기억이 나지 않는다. 직접 당해보고 해결한 후에나 다음 번에 주의를 기울이게 되는데 업계의 사례가 구체적으로 제시되기에 미리 간접 경험을 할 수 있고 이해도 쉬워진다.
  이런 현상이 발생하는 원인을 수식을 통해 풀어보며 원리 깊숙히 들여다보기도 하고 나아가 전처리 과정에서의 필터링, 예측 성능 향상, 평가지표를 견고하게 만드는 등 또 다른 해결책이 제시되는 유기적으로 이어진 구성이 마음에 든다.
- LDA
  PCA의 원리를 배우고 예제를 따라해보며 자신감을 얻은 후 실전에 적용해보니 원하는 대로 동작하지 않은 적이 있었다.
  나중에야 클래스가 다른 레이블들의 차원 축소에는 LDA라는 기법이 도움이 된다는 사실을 알았는데 당시에는 LDA 지식이 이론으로만 머리속에서 따로 놀아 실전에서 유용한 해결 기법으로 매칭되지 않았다.
  해당 파트를 읽어보니 어떤 상황에서 써야 하는지가 자세히 소개되어 처음부터 이 책을 통해 LDA를 배웠다면 큰 도움을 받을 수 있을거라는 아쉬움이 들었다. 특히, QnA 방식 구성이 실전에 필요한 집중력을 높여주는 것 같다.
- 클러스터링 경향성 측정
  양질의 데이터가 넘치는 기업은 드문데 내가 다니는 회사도 마찬가지이다. 결국 비지도 학습에서 인사이트를 얻고자 노력하는 편인데 라벨이 없는 상태에서 클러스터링을 비교하는 일은 지식이 부족해 주로 R스퀘어 값이 많이 의존하는 편이었다.
  본 파트 덕분에 그동안 몰랐던 지식을 체계적으로 이해할 수 있었다. 예전에 데이터의 분포가 랜덤을 띄는지 파악할 필요가 생겼는데 방법을 몰라 생략한 적이 있다.
  아래는 홉킨스 통계를 사용한 랜덤성 여부를 판단하는 과정인데 설명이 짧고 깔끔해 이해하기 쉽다.
  클러스터링 품질을 측정하는 방법으로 실루엣 계수, RMSSTD, 후버트 통계량 등 여러 가지 기법이 제시된 점, 이론적으로 깔끔하게 정리된 점이 마음에 들었다.
  다양한 분야의 머신러닝, 딥러닝 지식이 폭넓게 담겨있어 실전에서 모델링 후 체크리스트로 활용하기에 좋겠다는 생각도 든다.

아이디어의 근간이 되는 기초 과학과의 접목
사실 이 장점은 개인적으로는 너무 마음에 들지만 독자에 따라 상황에 따라 호불호가 갈릴 것 같다. 인터뷰를 준비하는 독자의 시점에서 너무 이론 중심으로 치우친 것은 아닌가 싶을 정도로 각 아이디어는 철저히 원리를 파헤친다.
예를 들어 아래 그림은 GANs 가치함수에 대해 수식 전개는 물론 아이디어의 원리까지 꼼꼼히 설명하는 부분이다.
이어 대량 확률추론 계산을 피하는 법, 훈련 중 발생하는 이슈, 와서스타인 거리, 추론 네트워크 등이 소개되기에 GANs의 발전 과정과 핵심 아이디어를 유기적으로 배울 수 있다.
수식이 난무하고 원리를 대충 지나가는 법이 없으니 수월치 않은 것도 사실이지만 실전에서 나의 문제에만, 나의 데이터에만 발생하는 문제에 대응하기 위해서는 원리의 이해가 필수라 생각한다.
인터뷰에서 이 정도 깊이의 문제가 나오면 얼마나 나오냐 부정적으로 볼 수도 있을텐데 흔히 접하는 80%의 문제는 잘 외우기만 하면 된다. 하지만 면접관 분들이 외워서 해결되는 문제만 질문할까?
본 책에서도 저자 중 한 사람인 천라밍의 경우 지원자들의 경험에 맞춰 맞춤형 문제를 미리 만들어 간다 했다.
흔히 마주치기 어려운 20%의 문제에 대한 어떤 아이디어가 있는지, 빨리 해결할 수 있는 능력이 있는지 파악하기 위해 응용뒤에 숨겨진 원리를 물어보게 될텐데 이에 대한 대답이 승부수가 아닐까 한다.
예전에 본 어떤 영화에서 A에서 D를 유추하기까지 일반인들은 A, B, C, D를 하나씩 단계적으로 배워가야 하지만 천재들은 A에서 바로 D가 나온다고 한 대사가 기억에 남는다.
비숍의 PRML이 다들 칭송하는 책임에도 생각보다 우리 곁에 오래 머물지 않는 이유도 마찬가지가 아닐까? 우리는 B, C 를 알아야 하는데 자꾸 D만 이야기 하니 말이다.
그렇다고 언제까지 B, C를 피할수도 없고 피해서도 안되며 즐길 수 있어야 한다. B, C를 알고 싶은 호기심은 데이터 사이언스 분야에서 일하는 이들의 원동력이기도 하다. 저자 중 한 사람인 쉬샤오란의 말처럼 공리적인 이유나 현란한 기술을 뽐내기 위해 이 분야에 들어왔다면 금방 지치고 말것이기 때문이다.
이 책은 그런 B, C의 과정을 익히는데 제격이라는 생각이 든다. 수학을 근간으로 하면서도 설명은 직관적으로 서술하고자 노력한 흔적이 돋보인다. 행렬 분해가 어디에 응용되는지 자꾸 언급되기에 자연스레 선형대수에 호기심이 생길 수 밖에 없다.
용어, 수학, 원리, 선행연구와 더불어 다들 왜 그렇게 만들고 돌리는지 명확하게 알고 있어야 나에게만 닥칠 혼돈 속에서 길을 잃지 않고 방향을 잡을 수 있지 않을까?
그렇게 경험이 쌓여야 기존 학문의 진의를 깨치고, 나아가 기존 학술 연구에 존재하는 편견과 고정관념에서 탈피해 자유로운 상상력을 펼 수 있을 것 같다.

만들줄 안다고 제대로 알고 있는걸까?
좋은 모델을 설계할 수 있다고, 잘 구현할 수 있다고, 데이터 분석을 능숙하게 한다고 해도 과연 제대로 알고 있는 것인지 반문하는 것은 스스로의 발전에 정말 중요하다고 생각한다.
이 책에는 그런 점에서 스스로의 실력을 되돌아 볼 만한 날카로운 질문과 그에 대한 해답이 등장한다.
- N차원 입력의 임의의 부울함수는 최소 몇 개의 노드와 층을 필요로 할까?
- 부트스트래핑 과정 중 n이 무한대로 커진다면 한 번도 추출되지 않는 데이터 수는 얼마나 될지?
- 수치형 데이터에 왜 정규화를 해야 하는지?
- 신경망의 가중치를 0으로 초기화하면 무슨일이 벌어지는지?
왜 해야 하는지도 모르고 했던 많은 작업들의 진의를 알 수 있다면 실무에서 간혹 발생하는 안개를 뚫고 지나갈 수 있는 묘안도 얻을 수 있을 것이다.

융합에서 얻는 아이디어
데이터 사이언스 분야는 컴퓨터 과학, 통계학, 심리학, 신경과학, 인지과학, 사회학 등 방대한 스펙트럼이 폭넓게 융합된 학문인지라 모든 분야를 다 잘하는 사람은 있을 수가 없다.
마찬가지로 아무리 전문가라 할 지라도 이 책에서 다루는 모든 분야를 완벽하게 다 알고 있는 사람은 드물 것이다. 책을 통해 잘 모르는 분야를 빠르게 익힌다면 연구 및 실무에 새로운 아이디어를 떠올릴 수 있는 계기가 될지도 모른다.
마치 GANs과 CNN이 융합하여 DCGAN이 탄생한 것 처럼 말이다.

인터뷰와 커리어
이 책의 주된 관심사는 아마도 인터뷰일 것 이다. 본 도서에서 다루는 인터뷰 문제는 실제 HULU 채용에 활용되었던 문제들이기에 이미 검증된 셈이다.
Tensorflow, Pytorch 등 특정 플랫폼이나 언어의 구현 방법이나 팁 등은 다루지 않아 불만인 분들도 있을 것 같다. 하지만 그런 부분들은 지면상 모두 언급될 수도 없거니와 사실 참고할 만한 도서도 많다.
42p에는 아래와 같이 인터뷰에 대한 팁도 나온다.중요한 핵심을 모두 담고있는 유용한 팁이 아닐까?
이런 부류의 책들이 더 많이 출간되었으면 좋겠다. 참고로 개인적으로 유용했던 인터넷 정보들도 같이 정리해본다.
- 변성윤님의 블로그
- Data Scientist 면접 질문들
- Cracking the Facebook Data Scientist Interview
- glassdoor
- 그 외 하용호님, 남세동님의 글도 있었으나 원본 링크는 사라졌고 대신 위 변성윤님 블로그에 같이 포함되어있다.

그 외 책을 읽으며 느꼈던 전반적인 내용들을 정리해 보겠다. 7장 최적화 및 9장 피드 포워드 신경망은 보통 대부분의 분들이 딥러닝, 머신러닝을 통해 입문하시기에 가장 친숙하실 것 같다. 책이 본인에게 맞는지 판단하려면 서점에서 7, 9장을 먼저 확인해보는 것도 좋을 것 같다.

1, 2장은 피처 엔지니어링과 모델 평가를 다루는데 쉬워보이지만 언제나 활용되는 매우 중요한 개념들이 가득하다. 특히 케이스가 다양하여 이론과 실제를 연동하기 힘든 부분 임에도 적은 지면에 필요한 내용을 잘 정리한 느낌이었다.

AI 분야에 처음 발을 딛는 일반인 혹은 입문자 분들이라면 15명 저자의 에필로그, 14장 인공지능의 응용 현황 부터 읽으신다면 발걸음이 좀 가벼울 것이다. 이미 지식이 있는 분들이라면 목차를 보고 늘 궁금했던 질문 순서로 읽는 것도 좋은 방법일 것 같다.

더불어 번역의 질이 매우 뛰어나 읽는데 매우 편하다. 역자의 또 다른 역서 단단한 머신러닝도 번역이 잘 되어 읽기 좋았다. 최근에 출간된 퀀트 전략을 위한 인공지능 트레이딩의 저자이기도 하다. 이 책 또한 특유의 매끄러운 전개 방식과 뛰어난 가독성이 일품이다.

데이터 사이언스 인터뷰를 준비하시는 지원자, 면접관은 물론 AI 기술의 핵심을 빠르게 훑고 싶은 관리자, 사업가께도 좋은 책이라 생각한다. 더불어 새로운 주제를 찾는 연구자 분들께도 적합하며 난이도는 쉽지 않지만 메타 지식을 활용하기 위해 입문자 분들께 가장 추천드리고 싶다.

책소개 - 데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

데이터사이언스, 인터뷰, 면접, 딥러닝, 머신러닝, 강화학습

댓글(0) 먼댓글(0) 좋아요(1)

ｌ

찜하기 ｌ

nanhmjjang님의 서재

리스트

리뷰/페이퍼

방명록

서재 태그

만화로 보는 바빌론 부자들의 돈 버는 지혜ｌ리뷰/페이퍼

nanhmjjang () l 2020-10-05 09:26

[100자평] 퀀트 전략을 위한 인공지능 트레이딩ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-27 01:46

퀀트 전략을 위한 인공지능 트레이딩ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-27 01:41

[100자평] 데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-19 16:18

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집ｌ리뷰/페이퍼

nanhmjjang () l 2020-09-19 16:17

서재지수 : 19205점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)