원인과 결과의 경제학 - 넘치는 데이터 속에서 진짜 의미를 찾아내는 법
나카무로 마키코.쓰가와 유스케 지음, 윤지나 옮김 / 리더스북 / 2018년 9월
평점 :
장바구니담기


트위터에선가 '인과추론'을 익히기에 좋은 책이라고 추천한 글을 보고 냅다 사서 읽었습니다. 저자가 아주 쉬운 인과추론 입문서라고 밝혔듯이 통계학 지식이 거의 없어도 찬찬이 읽으면 오롯이 이해가 갈 정도로 쉬운 수준입니다. Python에서는 무슨 라이브러리를 쓴다든가 하는 내용은 없습니다. 실무를 시작하며 인과추론을 어떻게 시작해야 할지에 대한 내용은 딱히 없어서 다른 책을 더 찾아 읽어야 하겠습니다만, 원론적인 지침을 이해하기에는 좋았습니다. 어떻게 보면 통계학도보다는 사람들이 악의적인 속임수로 쓰인 숫자에 농락 당하지 않고 현실을 온전히 관찰하기를 바라는 마음에 쓴 책이 아닐까 싶습니다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터 품질의 비밀 - 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드
바 모세스.라이어 개비쉬.몰리 보르웨르크 지음, 데이터야놀자 옮김 / 디코딩 / 2023년 4월
평점 :
장바구니담기


IT 일을 하는 내내 데이터와 어울렁더울렁하며 살았기에 데이터 품질과 거버넌스라는 개념 자체에는 익숙합니다. 그럼에도 속시원하게 데이터 품질관리를 했거나 거버넌스를 실현했다고 감히 말하지 못합니다. 업무 관련 법규에 따라 강제로 DBMS 메타데이터 관리를 도입했던 조직은 필요한 데이터를 모두 DB에 넣지 못했고, 그런 관리 솔루션을 도입하지 못했던 조직은 뭐는 'T', 뭐는 '1', 뭐는 TRUE, 뭐는 'Y' 혹은 'y' 같은 식으로 이력을 모르면 분석할 엄두를 내지 못하는 지경이기도 했습니다. 2023년을 기준으로 '데이터 거버넌스'는 민망하거나 엄두가 나지 않아 꺼내기 힘든 어휘이기도 합니다. 전산실에서 일하던 때에는 어떻게든 데이터 거버넌스를 도입하고 싶어서 선두주자이지만 고가였던 전문 솔루션은 제치고 MS Data Quality Services(https://learn.microsoft.com/ko-kr/sql/data-quality-services/data-quality-services) 자료를 탐독하기도 했습니다. 그나마 도입 가능하다고 보았었지요.


빅데이터가 대세가 되자 데이터 거버넌스의 전 단계로 데이터 카탈로그 도입을 많이 거론했습니다. Hadoop 에코 시스템의 Atlas(https://atlas.apache.org/)는 일견 매력적이었으나 클라우드 시대를 맞아서는 들어맞지 않는 부분이 생겨서 개인적으로는 작별을 고했습니다. 그렇게 AI 열풍을 맞아 지내다 이 책을 만났습니다. 꽤 놀라웠습니다. 고민하고 살던 이슈 중 상당 부분을 이 책에서 거론하고 있었습니다. 저자들의 식견이 상당합니다. 데이터 웨어하우스, 데이터 레이크, 데이터 플랫폼, 데이터 거버넌스 등 데이터를 기술 관점만이 아니라 경영과 운영(Operation) 면에서도 수준 높게 다루고자 하는 이는 이 책을 가이드 삼아 action plan을 만들어도 좋겠습니다.


다만, 예시를 너무 자세히 보이거나 통계지표를 나열하다가 IT 아키텍처를 논하면서 나중에는 정책과 방향성을 다루는 이 책의 내용이 널뛰는 듯하게 느껴질 수도 있겠다는 우려가 들었습니다. 저자가 여럿이어서 그럴 만하긴 한데, IT 부서만 잘한다고 데이터 품질이 잘 관리되는 게 아니기 때문이기도 하겠습니다. 더불어 TO-BE 이미지를 명확히 제시하지는 않기에 IT 경험이 적은 독자는 두루뭉술하다고 오해하여 짜증이 날 수 있습니다. 이 사안은 조직문화와 직결하기에 정답이 나오지 못하다는 현실을 알아주길 바랍니다. 누가 뭐래도 데이터 업무 종사자라면 한 번 읽고 버릴 책은 아니라고 봅니다. 내가 뭘 빼먹고 있지는 않은가 가끔씩 살피기에 적당하겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
머신러닝 시스템 설계 - 프로젝트 범위 산정부터 프로덕션 배포 후 모니터링까지, MLOps 완벽 해부하기
칩 후옌 지음, 김대근.김영민 옮김 / 한빛미디어 / 2023년 3월
평점 :
장바구니담기


MLOps 책은 몇 권 읽었던 터라 제목만 봤을 때에는 비슷한 내용일까 했으나, 차례를 보니 독특할 정도로 많은 주제를 다룬다는 생각이 들었습니다. 다른 책이 부족하다는 게 아니라 이 책의 다루는 주제 범위가 상당히 넓습니다. 머신러닝 개요, 머신러닝에 앞서 작업해야 하는 데이터 엔지니어링, 운영을 감안한 모델 개발의 여러 요소, 모니터링과 개선에 AI 윤리까지 정말 머신러닝을 활용한 '서비스 전반'에 대해 다룹니다.



머신러닝 분야에서 시니어로 성장하거나, 인공지능과는 별 상관없이 일해왔더라도 아키텍트로서 성장하고프다면 이 책이 두고두고 도움이 될 겁니다. '두고두고'라는 어휘를 쓴 이유는 7~8년차 이상 경험을 쌓지 않았거나 데이터 파이프라인과 무관했던 경력이라면 낯선 이야기가 많기 때문입니다. 세부적인 기술과 도구는 바뀌더라도 이 책이 다루는 아젠다는 로드맵으로 삼을 만합니다. 이 책에서 다루는 아젠다를 섭렵하거나 최소한 실습해 본다면 저자만큼 이 분야에서 산전수전을 다 겪게 되는 셈입니다.


지난 몇 년 간 빅데이터와 AI 분야에서 굴러온 경험을 반추하게 되면서, 단중기적으로 뭘 더 해야 하겠구나 계획을 세워 보게 되었습니다. 지금 이 시점에 이 책을 만나서 참 다행입니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
정리하는 뇌 - 디지털 시대, 정보와 선택 과부하로 뒤엉킨 머릿속과 일상을 정리하는 기술
대니얼 J. 레비틴 지음, 김성훈 옮김 / 와이즈베리 / 2015년 6월
평점 :
장바구니담기


유사 이래로 인류가 접하는 데이터의 양은 계속 최대치를 경신하는 중입니다. 데이터를 정보로서 가공하고 소화하여 지식으로 발전하게 하며 나아가 지혜로서 발휘해야 하건만, 작금의 시대는 데이터가 쏟아져 나와 무엇이 유익한지조차 적시에 판별하기가 힘듭니다. 그러다 보니 접근이 쉬운 악의적인 정보에 놀아나고 마는 사람들이 정말 많습니다. 자기 시간과 돈을 들여 해로운 정보를 만들도록 일조하는 악순환마저 펼쳐지는 형국입니다. 



이 책은 뇌에 부담을 덜 주며 우리 뇌가 에너지를 헛되이 쓰지 않도록 도움말을 줍니다. 무슨 도구를 쓰고 어떤 환경을 조성해야 하는지 아주 다양한 사례를 들어 설명합니다. 담담하게 조언하던 저자가 때때로 속엣것을 풀어 놓는 구절이 나오기도 합니다. 실행하라. 위임하라. 미루어라. 그만두어라. 이 네 가지 지침을 적당하게 활용하여 정보의 바다에 휩쓸리지 않고 유유자적 살아 가시길 바랍니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬 기반 금융 인공지능 - 파이썬과 케라스를 활용한 금융 시계열 데이터 기반 알고리즘 트레이딩 전략
이브스 힐피쉬 지음, 김도형 옮김 / 한빛미디어 / 2022년 9월
평점 :
장바구니담기


주식투자 경험과 더불어 통계학을 '좀' 알고, Python의 ScikitLearn과 Pandas 라이브러리에 익숙하면 이 책을 읽기에 충분합니다. 저는 트레이딩에 대해 잘 아는 편이 아니라 중반 이후부터는 이해하기가 쉽지 않았습니다. 손절 정도의 리스크 관리까지는 그런가보다 하겠는데 상승매수, 하락매도 같은 용어가 나오니 제대로 이해하고 있는 건지 확신하기가 힘들더군요. 인공지능에 대한 지식은 없어도 됩니다. 이 책에서 필요한 사항은 설명해줍니다.


전통적인 금융공학에 대해 약술하고, 다음 단계로 나아가는 내용이 제일 흥미로웠습니다. 기존 금융 이론은 일간 데이터를 기반으로 발전했으므로 최근 실시간으로 움직이는 환경에 적용할 수 있겠냐는 질문이 다소 충격적인 니다. (애플 주식 40년 일간 데이터: 10,080개 = 252일 x 40년) 눈이 번쩍 뜨였습니다. 더 많은 수치 데이터 외에 뉴스와 같은 비구조적 데이터, 판매 데이터, 검색 트렌드, 인공위성 이미지 등과 같은 대안 데이터를 쓰자고 합니다. 그러면서 인기 있는 기존 금융 이론이 실패하는 사례를 코드와 수식을 써서 보입니다. 새롭게 느껴졌습니다. 금융공학 관련한 책은 몇 번 읽었는데, 리스크 관리로서 세심하게 다룬 책은 이 책 외에 딱히 기억이 나지 않습니다. 아마 저자들에게는 너무나 당연한 주제라 그런 게 아닐까 싶기도 합니다.


이후에는 머신러닝, 딥러닝, 강화학습을 금융 시계열 데이터를 써서 설명하고 본격적으로 트레이딩에 대해 다룹니다. 어차피 책으로 종목을 찍어주지는 못할 노릇이니, 자신만의 트레이딩 봇을 만드는 방법을 서술합니다. 배포하는 방법까지 다루고 나면, 주의할 사항과 금융 인공지능의 전망을 논합니다. 마무리가 잘 됐다 싶습니다.


혹시나 하여 부연하자면, 이 책은 종목을 집어주는 주제는 다루지 않습니다. 일단 선택한 종목에 대한 의사결정을 다룹니다. 종목을 보는 눈은 알아서들 키워야 합니다. 앞서 말했다시피 파이썬 개발을 할 줄 알면서 투자 경험이 있어 종목을 찾아보던 독자에게는 도움이 많이 되지 않을까 합니다. 경제적 자유에 대해 고심하다 이 책을 집어 든 여러분이 무난하게 성공하길 바랍니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo