실리콘밸리의 실험실 - 하버드 경영대학원 교수가 찾은 최고 기업들의 혁신 비결
스테판 H. 톰키 지음, 안진환 옮김 / 한국경제신문 / 2023년 1월
평점 :
장바구니담기


과학 분야의 실험 체계를 비즈니스에 적용하는 방법 및 그 중요성을 연구한 결과를 담은 책으로, AI 시대에 각 기업들이 반드시 갖춰야 할 이 시대 기업가들의 필독서라 생각한다.

과학과 연구분야에서 활용되던 실험이 비즈니스 분야에 얼마나 이식되었는지, 어느정도로 이식되었는지, 그 효과는 어떠한지를 연구한 결과를 담은 책이다.

즉, 저자는 전통적인 방식의 의사결정에 있어 직관과 감이 중요했다면 달라진 현재의 비즈니스 의사결정에서는 철저한 실험 및 검증을 통해 객관적인 의사결정을 하는 것이 중요한 시대가 되었음을 주장한다.

실험을 바탕으로 한 결과를 극단적으로 보여주는 결과는 아래 그림과 같이 S&P500 기업의 주가 대비 실험 조직들의 주가를 예시로 들고 있다.실험조직의주가

2008년도 기준지수 100을 기준으로 이후 실험문화를 정착시킨 조직의 기업가치가 얼마나 빠르게 급상승했는지를 보여주는 자료이다.

책의 구성을 요약하여 설명하자면 실험하는 조직이 왜 중요한지가 궁금하다면 책의 초반부를 읽으면 되고, 도대체 실험하는 조직이 무엇인지 궁금하고 그 사례를 살펴보고 싶다면 중반부를 읽어보면 된다.

만약 이미 실험조직을 잘 알고 있어 이를 현재 근무중인 기업에 도입하고 싶다면 후반부를 읽으면 되며, 여전히 실험의 중요성에 의문이 든다면 가장 마지막 장을 읽을 것을 권하고 싶다. 저자는 저자의 주장에 반박하는 의견들에 대해 가장 마지막 장인 7장에 요목조목 반박하고 있다.

나의 경우는 실험 조직이라는 것이 도대체 무엇이며 구체적으로 어떻게 적용되고 있는지 그 자체에 대하여 잘 알지 못했기에 중반부를 가장 흥미진진하게 읽었다. 만약 나와 처한 상황이 같은 독자라면 프롤로그 및 3장을 가장 먼저 읽을 것을 추천하고 싶다.

이 책에 실험조직의 여러 사례가 등장하지만 - 심지어는 스포츠 팀의 예시까지 등장한다 - 가장 흔하게 등장하는 기업은 MS와 부킹닷컴이다. 참고로 부킹닷컴은 처음들어보는 독자가 있을 수 있을텐데 세계적인 숙박 예약 업체라고 알고 있으면 된다.

비즈니스 분야의 용어나 책에 상당부분을 차지하는 통계 용어는 관련 사전 지식이 없다면 조금 이해하기 어려울 수 있기에 이 책에 등장한 가장 쉬운 예제를 소개해보며 어떻게 비즈니스에 실험을 적용하는지 소개해 보겠다.

MS에는 구글과 같이 Bing이라는 검색 서비스가 존재한다. 국내에는 주로 구글이나 네이버를 사용하지만 최근 미국 시장 내에서는 Bing의 사용 점유율이 상당히 높아졌다.

여담이지만 최근 ChatGPT까지 등장하였고 개발 주체가 OpenAI이고 이는 테슬라의 자회사이기에 MS와 거리가 멀다 생각할 수 있겠지만 사실 이 기관은 MS가 독점 투자하고 있는 것으로 알고 있다.

만약 ChatGPT의 기능이 상용화되어 Bing에 탑재되고 MS의 혁신이 지금이상으로 이어진다면 검색엔진 시장의 지각변동이 찾아와 Bing이 구글의 위상을 뛰어넘을 가능성이 크다고 생각한다.

아마 그런날이 온다면 이 책에서 소개되는 실험이 무수히 가동될 것임은 자명하다. 지금 소개할 실험의 한 예시는 MS의 Bing 검색엔진 서비스의 사소한 변화를 실험한 것이다.

아래 그림을 보면 알 수 있듯 상단의 그림은 대조군으로 현재 상태를 의미하며, 하단의 그림은 실험군으로 광고 업체의 우측에 설명이 추가되어 제목이 길어진 형태로 실험한 예시화면이다.Bing

즉, 이는 널리 알려진 A/B테스트이다. 어떤 통찰에 기인한 가설을 세우고 그 가설의 결과 사실인지 실험하고 검증하여 사실인 경우 실험군으로 의사결정하는 방식이다.A/B테스트

다만 이 예시는 독자의 이해를 돕기 위한 가장 쉬운 예시일 뿐 MS에서는 이미 1만 건도 넘는 이러한 실험이 진행되었고 이에 따라 최적화된 객관적인 결과가 의사결정으로 도입되었다는 것이 주목할 부분이다.MS실험

참고로 위 Bing 실험의 아이디어는 수백가지 제안 중 하나였기에 엔지니어가 바로 반영하지 않았고, 다른 엔지니어가 6개월이 지나서야 반영하였는데 시스템의 경고가 울릴 정도로 급격한 매출의 상승을 유도한 혁신적인 아이디어였음을 나중에야 알게 된다.

이처럼 실험은 매우 중요하다. 이 아이디어가 중요한지의 여부는 인간의 직관으로는 정확하게 판단을 내릴 수 없기 때문이다. 만약 이 아이디어를 무시했던 엔지니어와 같은 판단을 하는 기업의 운명은 비즈니스 경쟁 사회에서 도태될 수 밖에 없게된다.

이것이 바로 저자가 강조하는 실험의 중요성이다. 그리고 어쩌면 이는 AI를 필두로 변화하는 세상에 각 기업에 요구되는 가장 기본적인 소양일지도 모르겠다.

AI역시 실험에서 비롯된 통계와 머신러닝 진영에 크게 영향을 받았다. 이 책에는 실험과 관련하여 통계와 관련된 설명이 책의 상당 부분을 차지한다. 즉, 아래와 같은 용어들이다.통계용어

이 도표에 등장하는 P값은 귀무가설을 검증하는데 필수적인 개념인데 이 책에 역시 이를 명확히 이해하지 못해 의사결정에 실수를 저지르는 조직의 대표가 예시로 등장한다.

책을 번외로 ChatGPT의 등장으로 요즘 주변 일반인들 사이에서도 이제 앞으로 AI를 얼마나 잘 활용하는지가 관련 직무에 대한 지식이나 노하우보다 중요시되는 시대가 다가온다고 농담처럼 주고 받는다. 즉, 직무적합성의 판도가 뒤집히는 시대가 멀지 않은 듯 하다.

같은 맥락으로 AI의 근간은 상당부분 통계로 이루어져 있고 실험 조직이 가능해지기 위해서는 AI의 기본 소양이 매우 중요한 시대가 될 것 같다는 생각이 든다. 주변의 일상 시그널들도 그렇고 이 책의 저자도 그렇게 말하고 있기 때문이다.

또 하나의 사례로 자주 언급되는 기업은 부킹 닷컴으로 이들은 10여년에 걸쳐 실험 중심의 의사결정과 문화를 회사 전직원이 갖춰오게 되었다. 실험 중심의 문화와 구성원의 가치관 반영에 관심이 있다면 5장을 정독할 것을 권한다.

더불어 비즈니스 실험을 위해 반드시 던져야 할 질문 7가지는 2장에 담겨있다. 각 질문이 차지하는 위상이 크나 일일이 언급하기엔 리뷰가 너무 길어지니 본 표를 참고하기 바란다.실험전질문

흔히 S/W 분야를 필두로 강조되어왔던 애자일 문화나 MVP 기법 등이 역시 이 책에서도 강조된다. 팀뉴질랜드의 요트 경기라는 재미있는 사례로 이들은 민첩한 대응으로 24시간마다 실험하고 이를 의사결정으로 피드백한다.팀뉴질랜드

이는 실험을 올바르게 적용하는 방법 중 하나인데 이에 대해 관심이 있다면 후반부를 정독할 것을 권하고 싶다.

개인적으로는 내가 몸담은 조직에 회의적이고 내게 이런 프로세스를 적용할 수 있는 권한도 없기에 후반부는 좀 설렁설렁 읽었지만 조직 혁신을 위한 구체적이고 엄격한 검증들로 채워져있으니 변화를 원하는 리더들에게는 큰 도움이 될 것이라 생각한다.변화

AI 도래에 따른 시대의 변화는 물론 이미 실험조직들이 달성한 비즈니스의 성과와 가치를 돌이켜보더라도 실험의 중요성은 더할나위 없이 중요하다 생각한다. 어쩌면 앞으로의 조직의 미래는 실험을 도입하는지 여부에 달려있다고 해도 과언이 아니라 생각한다.

이 책에는 실험 체계의 도입에 있어 철저한 검증을 바탕으로 한 저자의 연구결과와 인사이트가 담겨있기에 이 주제에 관심이 있거나 조직의 혁신에 활용하고 싶은 독자에게 강력히 추천하는 바이다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
비됴클래스의 유튜브 영상 편집 with 프리미어 프로 - NO.1 영상 편집 유튜버
하지원(비됴클래스) 지음 / 한빛미디어 / 2023년 1월
평점 :
장바구니담기


어도비 프리미어 프로를 활용하여 유튜브 영상 제작을 안내하는 책으로 그 외 영상 촬영을 위한 장비 및 경험을 바탕으로 한 팁들이 담겨 있어 많은 도움이 되었다.

어도비 프리미어 프로 프로그램을 활용하여 유튜브 영상을 편집하는 방법을 다루는 책이다.

프리미어 프로의 기초 기능 및 자주 활용하는 기능 그리고 고급 효과까지의 내용이 담겨있으며 그대로 따라하기만하면 무리없이 유튜브 영상을 제작할 수 있게 짜임새 있게 구성되어있다.

본격적으로 프리미어 프로를 다루기에 앞서 유튜브 영상을 제작하는 일이 과연 레드오션은 아닐지 그리고 프리미어 프로를 다루기 전 영상은 어떻게 찍어야 할지에 대해 사전작업을 프롤로그 편에서 다루고 있어 많은 도움이 되었다.

과거 유튜브 영상을 만들고 싶어 다른 도서를 참조한 적이 있는데 한 번 읽어보기만 했을 뿐 다루는 내용을 실습으로 이어가진 못했다. 가장 큰 이유가 이미 제작한 내 영상이 있어야 흥미를 갖고 그 영상을 편집해 볼 텐데 내가 찍은 영상이 없었기 때문이었다.

영상을 준비하자니 당장 무엇으로 영상을 찍어야 할지도 판단이 들지 않았고 여차저차 연습용으로 영상을 찍어보고자 시도하였으나 정작 녹음에 잡음이 섞여 있고 녹음으로 듣는 내 목소리가 너무 어색하여 초반에 의지가 꺾여 영상 편집은 시도도 하지 못했던 기억이 난다.

그런 경험 때문인지 이런 유형의 책은 실전에서 그럴사한 영상 하나를 만드는데 무리가 없게 해줘야 할 의무가 있다고 생각했는데 저자가 확실히 실제 강의를 진행하고 전문가여서 그런지 독자가 바로 실습하는데 방해 요소가 없도록 안배한 의도가 느껴져 이 책은 꽤 좋은 책이라는 생각이 들었다.

실제로 영상 하나를 내 손으로 적어도 내 눈에는 그럴싸하게 보이는 영상을 만들 수 있었기 때문이다. 그렇기에 개인적으로는 이런 사전 작업을 위한 안배가 마음에 들었다.

영상을 하나하나 찍어가며 보다 품질 높은 사운드나 영상을 만들기 위해 어떤 준비가 필요한지 일일이 알아보려면 그것도 엄청난 부담인데 한 눈에 알기 쉽게 관련 장비나 기술들을 설명하고 있어 큰 도움이 되었다.

예를 들면 삼각대에는 어떤 종류가 있는지, 또 카메라는 어떤 종류가 있으며 각각의 가격대는 어느 정도 수준이고 어떤 기능을 담고 있으며 유지보수 및 관리하는데 있어 얼마나 품을 들여야 하는지 장단점은 무엇인지 저자가 경험한 노하우가 잘 정리되어있어 이 책만 읽어도 영상 촬영에 있어 큰 문제가 없도록 구성된 점이 마음에 든다.

삼각대

카메라

더불어 장비 뿐만 아니라 그 장비를 활용하기 위한 기본 기술 지식 이를테면 아래 그림과 같이 메모리 카드에는 어떤 종류가 있는지, UHS 인터페이스 버전과 속도는 무슨 관련이 있는지 카드 겉면에 붙어있는 로마자 숫자 I, II, III 등이 의미하는 것은 무엇인지를 알려주고 있어 별다른 검색없이 책의 내용만 섭렵하면 큰 그림을 잡는데 도움이 된다.메모리카드

유튜브 계정 하나 만드는 것까지도 친절하게 안내하고 있고 그림에는 독자가 따라해야 할 순서가 1,2,3 번의 번호로 매겨져 있어 그대로 따라하기 쉽게 구성된 점에서 친절한 느낌이 들었다.

유튜브 계정을 만들줄만 알았지 채널을 관리하는 전용 브랜드 계정이라는게 있다는 사실도 몰랐는데 초보자가 놓치기 쉬운 부분들을 잘 짚어주고 있다.브랜드계정

계정 같이 첫단추에 해당하는 것들은 초반에 실수하면 나중에 후회하고 많은 시간과 노동력을 낭비해야 하는 경우가 많은데 사소해도 이런 점들을 잡아주는 책에는 항상 고마움을 느낀다. 나중에 브랜드 계정을 새로 만들어 영상을 옮긴다면? 생각만 해도 아찔하다.

특히 책의 구성이 너무 깔끔하다. 완전 컬러판이라 가독성이 좋고 프리미어 프로의 다양한 기능들을 예제를 하나씩 따라해보며 쉽게 그림만 봐도 지식의 흐름이 자연스럽게 전개되는 느낌이다.

종이의 질도 마음에 들고 세련된 이미지에 모든 그림에는 실습할 수 있는 순번이 매겨져 있고 사소한 것 하나까지 그림에 강조되어 있어 설명되지 않는 부분이 없었다.

일전에 읽었던 유사 도서와 비교하면 퀄리티가 천지차이다. 예전 책은 그림을 그대로 따라해도 스킵된 과정이 많아 구글 검색 없이는 실습을 따라하기 어려웠는데 이 책을 보면서 검색은 거의 할 일이 없었기에 매우 구성이 뛰어난 책이라는 생각이 들었다.

아래 사진은 똑같은 사람이 동시에 등장하는 장면을 만드는 과정이다.

보다시피 따라하는 순서가 안내되어있어 그대로 진행하기만 하면 되고 클릭같이 기본적인 부분까지 강조되어있어 따라하기가 정말 쉬웠다. 중간중간 단축키로 설명이 되어있어 추후 빠르게 편집할 수 있도록 미래를 안배한 설명도 마음에 드는 부분이다.프리미어프로

사실 유튜브를 보면서 똑같은 사람이 등장할 때마다 저런 영상은 어떻게 만드는 것인지 매우 궁금했었는데 직접 만들어 보고나니 생각보다 쉬웠고 이런 것을 직접 내 손으로 만들 수 있다는 것에 묘한 성취감이 느껴졌다.

키프레임과 시퀀스라는 영상 제작에 필요한 기본 개념을 초반부에 쉽게 설명하고 있어 원리를 파악하는데 도움이 되었고 다양한 기법들을 체험하고 나니 영상을 다루는 스킬보다는 내 안의 상상력을 어떻게 표현해야 할지에 대한 자신감도 얻을 수 있었다.

동영상 회전, 영상에 이미지 파일을 삽입, 자막의 동적 모션 처리, 영상 분할, 장면 전환 효과, 자막 및 텍스트 디자인, Lumetri 색상, 속도조절, 모자이크 효과 등 일반적으로 유튜브 영상을 보며 궁금했던 부분들을 어떻게 처리하는지 하나하나 친절한 실습으로 안내되어 있다.

그 외에도 구간 렌더링 기능이라던가 유료 플러그인에 어떤 것이 있고 이를 어떻게 사용해야 하는지 등 영상을 더 풍부하게 제작할 수 있는 팁도 담겨있어 한 권 만으로도 제법 자신있게 영상을 제작할 수 있다는 자신감을 심어주는 책이라는 생각이 들었다.

유튜브 관련 도서를 전부 읽은 것은 아니지만 이 책 한 권이면 영상제작에 있어 큰 어려움이 없는 것은 사실이기에 나처럼 유튜브 영상 제작에 관심이 있는 분들은 이 책이 분명 도움이 될거라 알리고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
핸즈온 데이터 시각화 - 효과적인 데이터 시각화 전략부터 20가지 시각화 도구 사용법까지
잭 도허티.일리야 일라얀코우 지음, 김태헌 옮김 / 한빛미디어 / 2022년 7월
평점 :
장바구니담기


20여종의 다양한 도구를 통해 시각화 자료를 생성할 수 있게 구성된 점이 장점인 책으로 프로그래밍이나 시각화의 기본을 몰라도 퀄리티 있는 시각화 업무를 수행할 수 있게 도와주는 책이다.

훌륭한 데이터 시각화 책이 많은데 이 책도 충분히 훌륭한 책이라는 생각이 든다. 다만 독자의 책을 선택하는 목적과 수준 상태에 따라 때로는 양서가 혹평을 받기도 하고 때로는 대부분의 베스트셀러 책이 그렇듯 기본만 충실한 책이 각광받기도 한다.

이 책의 특징은 프로그래밍 스킬이 거의 등장하지 않는다. 프로그래밍 언어 처럼 생겨먹은 것은 오직 구글 시트에 활용되는 짧막한 수식, 임베딩 코드를 활용하여 시각화 자료를 웹으로 배포하기 위한 HTML, 가장 어려운 프로그래밍은 chart.js 코딩 정도가 등장한다.

chart.js는 자바스크립트를 기본적으로 알고 있다면 이해하는데 큰 무리가 없지만 굳이 자바스크립트를 모른다고 할지라도 데이터를 기반으로 시각화하는 것이기에 이 책 혹은 튜토리얼 사이트의 예제만 따라할 줄 알아도 충분히 훌륭한 시각화 자료를 생성할 수 있다.버블차트
버블차트코드

즉, 프로그래밍 스킬이 부족하지만 데이터 분석 업무에 종사하거나 일반 사무직 종사자가 퀄리티 있는 시각화 자료를 생성하고 싶을 때 이 책은 좋은 선택이 될 것 같다.

물론 프로그래머 역시 코드에는 능할지 몰라도 시각화 표현 능력은 별도의 문제이기 때문에 이 책을 통해 데이터 스토리 텔링을 작성하는 방법이나 시각화 표현의 기본기를 습득하고 소개되는 다양한 도구에서 프로그래밍의 유연성을 어떤 방향으로 이끌어 나갈지 정하는데 도움이 될 것이다.

이 책의 가장 큰 특징은 다양한 시각화 도구들이 등장한다는 것이다.도구

위 도표가 이를 잘 정리하고 있는데 흔히 알려진 구글 시트를 비롯해서 앞서 언급한 chart.js 그 외에도 유명 시각화 도구인 태블로나 데이터 래퍼 등의 다양한 도구를 사용할 수 있는 기회가 제공된다는 점이 책의 또 하나의 장점이다.

프로그래머 입장에서는 되려 프로그래밍으로 표현할 수 있는 폭넓은 유연성이 되려 장벽이 되기도 한다. 이럴 때 이 책에 소개되는 도구들을 활용해보고 방향성을 잡을 수 있을 듯 하다. 좋은 예제를 따라해보며 일종의 시각화를 위한 좋은 선입견이 자리잡을 수 있을 것이다.

실제로 예제를 하나씩 따라해보며 시각화 세계에 이렇게 많은 오픈 소스들이 존재한다는 것에 놀라지 않을 수 없었다. 생각 이상으로 다양하고 편리한 기능들이 제공되며 생성된 시각화 자료들의 퀄리티는 말 할것 없이 뛰어나다.

예를 들어 태블로 퍼블릭이 그러한 도구 중 하나인데 지원하는 기능이 너무 다양하여 이를 한번씩 활용하는 것도 며칠의 시간이 필요할 만큼 기능적으로 확장성과 유연성이 뛰어나다는 생각이 들었다.태블로퍼블릭

데이터래퍼 역시 지도 기반의 시각화 및 데이터를 가공하는데 많은 도움을 주는 도구이다.데이터래퍼

특히 이 책에서 소개되는 도구 중 가장 많이 소개되는 툴은 구글 스프레드 시트이다. 평소 클라우드의 장점 덕분에 많이 활용하고는 있었지만 그저 엑셀의 클라우드 버전이라고만 생각했지 이렇게 다양한 기능이 숨겨져 있는지 몰랐다.구글시트

마치 Python으로 전처리하는 수준으로 데이터를 클렌징, 클리닝, 대체 하는 기능들이 모두 활용 가능하며 마치 RDBMS와 유사한 데이터 저장 기능으로도 활용할 수 있다는 것이 놀라웠다.

또한 책에서 소개되는 것처럼 이를 차트, 도표 등의 시각화 자료로 생성하는데 있어서도 뛰어난 기능을 제공한다는 사실을 이번에 이 책을 통해 처음으로 알게 되었다. 프로그램을 활용할 수 없는 환경이나 상황에 처한다면 꽤 요긴하게 사용할 수 있을 듯 하다.

또 하나의 특징은 시각화 입문서 답게 각 시각화 단위 유닛을 생성하는 예제가 꼼꼼히 정리되어있다는 점이다. 히스토그램이나 원형 차트 등 흔히 쓰이는 시각화 단위 유닛을 하나하나 실습해 볼 수 있다.유닛

시각화 자료를 생성하면서 유닛 별로 주의해야 할 사항들이 아래와 같은 예제로 유형별로 하나씩 꼼꼼하게 소개된 점도 마음에 들었다.유의사항

그 외에 데이터를 구할 수 있는 사이트가 잘 정리되어있는 등 전반적으로 시각화 업무를 수행하는데 있어 독자가 매우 편리하게 이 책만 잘 따라하면 다양한 팁을 얻을 수 있게 구성된 점이 인상적이었다.출처

기본적인 시각화 보고서를 통한 스토리 텔링 부분도 짧막하게 정리되어있는데 개인적으로는 이 부분의 분량이 더 많았다면 좋겠다는 생각이 들었다. 기본적인 연필과 종이만으로도 좋은 결과물을 작성하기 위한 방법이 잘 소개되어있어 개인적으로 많은 도움을 받았다.스토리텔링

전반적으로 시각화 생태계를 한 눈에 조망할 수 있게 해주고, 기본적인 시각화 데이터 생성 역량을 키워주며, 다양한 툴들을 활용하여 표현력과 업무 유연성을 발휘할 수 있게 해준다는 점이 인상적인 책이었다.

앞서 언급한대로 전문적인 퀄리티를 표현하고 싶은 비 프로그래머 분들, 다양한 표현방식의 경험을 쌓고 싶은 프로그래머 분들께 추천하고 싶은 책이다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
장바구니담기


텍스트 분석에 필요한 거의 모든 기술과 라이브러리를 핵심만 쉽고 간결하게 전달하고 있어 놀랍다.

이 책의 가장 큰 장점은 생산성에 있는 것 같다. 독자로 하여금 빠른 시간 내 텍스트 분석 실무에 적응할 수 있고 한 권의 책으로 제품화까지 구상하는 데 큰 무리가 없게 구성하고 있기 때문이다.

책의 원서 제목이 “Blueprints for Text Analytics using Python”인데 가히 Blueprints라는 용어를 쓸 수 있을만큼 텍스트 분석 생태계에 필요한 전반을 한 권의 책으로 통일성있고 유기성있게 엮어냈다는 것이 신기하다.

이러한 실용적인 생산성을 높여주는 근거는 크게 두 부분으로 나눌 수 있겠다.

하나는 텍스트 생태계의 Python 라이브러리를 일목요연하게 훑어보고 바로 실전에 적용할 수 있도록 구성되었다는 점을 들 수 있고, 다른 하나로 텍스트 분석 전반에 필요한 기술을 대부분 아우르고 있다는 점을 들 수 있겠다.

먼저 텍스트 데이터를 둘러싼 Python 진영의 Pandas와 같은 기본 라이브러리에서 부터 Gensim과 같은 비교적 최신의 임베딩 라이브러리에 이르기까지 왠만한 현업 종사자도 전부 다 활용해 보진 못했을거라 추측될 정도로 방대한 라이브러리를 예제에 담아냈다.

아울러 기본적인 통계지식을 활용하여 빠르게 EDA로 데이터에 친숙해지며 감을 잡는 것을 시작으로 API나 크롤링을 통해 외부 데이터 세계를 가져와 전처리 하는 방법, 또 이를 전처리하여 활용할 수 있는 형태로 가공하는 방법, 준비된 데이터를 머신러닝에 적용해보며 토픽 모델링이나 분류 작업을 학습할 수 있음은 물론 책의 뒷부분으로 갈수록 지식그래프와 같은 시멘틱 기술을 활용하여 머신러닝의 단점을 보완할 수 있게 해주고 도커나 콘다를 이용한 배포 및 제품화까지 고려하고 있다.

조금 더 자세히 살펴보겠다. 1장에서는 주어진 데이터에 친숙해지는데 있어 가장 효율적이고 빠른 방법을 소개하고 있다.

그동안 실무에서 텍스트 분석에 임하다보면 꼬리에 꼬리를 무는 생각 때문에 시간을 많이 소요하는 일이 잦았다. 가능할지 불가능할지 혹은 주어진 데이터로 할 수 있는 일인지 조차 생각하지 못한채 거창한 아이디어를 꿈꾸다가 시간을 낭비하는 일이 종종 있는데 언제나 돌이켜보면 어느 데이터에나 적용할 수 있는 심플하고 빠른 방법을 먼저 수행하는 편이 좋았다는 생각이 들었고 나름의 정형화된 방법을 정리해 적용해오고 있었는데 1장에 제시된 방법들은 적어도 몇년 간 내가 정리한 방법보다 깔끔하고 빠르게 분석할 수 있었기에 느낀 바가 컸다.

아울러 1장에서는 데이터에 친숙해지기 위한 EDA 과정외에도 불용화나 토큰화와 같은 기본적인 전처리 방법도 배운다.

2장 ~ 3장은 API나 크롤링을 활용하여 데이터를 수집하는 노하우를 담은 장이다. 역시 짧은 지면에 데이터 수집과 관련된 시행착오를 쉽게 해결할 수 있는 방법을 잘 요약하고 있다. 의외로 데이터 분석가 중에 REST API를 호출하며 HTTP의 기본 Response Code를 해석하지 못해 쩔쩔매는 경우를 흔히 봐왔는데 친절히 코드별 대응책을 알려주고 있어 인상적이었다.

깃허브의 API, 트위피, 스크래핑 등의 예제를 따라할 수 있는 것 자체로도 좋은 예제 구성이지만 robot.txt를 시작으로 과부하로 부터 서버를 보호하기 위해 서버측에서 행하는 제약들을 유연성있게 피하며 데이터를 수집할 수 있는 좋은 팁들이 더 값지다는 생각이 든다.트위피

4장은 앞서 수집한 데이터를 가공하는데 초점을 맞춘다. 표준화 작업을 시작으로 팀 내부 간 쉽고 빠른 공유를 위해 SQLite를 활용하여 데이터를 축적하는 방법을 다루고 있으며 노이즈 제거, 토큰화, 원형추출 등 보다 심화된 전처리 방법을 다루고 있는데 이 역시 현업에서 가장 중요한 부분의 핵심만 담아내고 있어 빠른 시간 내 실무 능력을 키우는데 큰 도움이 되리라 생각한다.

5장 ~ 8장은 본격적인 머신러닝 알고리즘을 적용하는 장이다. 5장에서 머신러닝에 필요한 기본 개념들 즉, 벡터화, TF-IDF, 차원축소, 구문유사성과 관련된 기본기를 다진 후 6장에서 SVM 분류 알고리즘을 적용하며 기본적인 머신러닝 활용법을 정리해 볼 수 있다.

다른 책들과 차별화 된 부분이 주로 7장 ~ 8장에서 많이 실려있는데 기본기를 익히는 데 한 걸음 더 나아가서 피처 엔지니어링이나 XAI 측면에 집중하며 분석가로 하여금 더 나은 아이디어를 떠올리게 함은 물론 뒤에 이어질 고차원 NLP처리를 위한 탄탄한 기본기를 잡는데 도움을 준다.

예를 들면 7장에는 해석을 위한 여러 시각화 도구를 활용하는데 LIME과 같이 전통적으로 자주 활용하는 라이브러리도 등장하지만 개인적으로 ELI5나 앵커와 같이 자주 사용해보지 않은 라이브러리가 자세히 소개되고 있어 많은 도움을 받을 수 있었다.ELI5

특히 pyLDAvis와 같이 한 번도 활용해보지 못한 라이브러리도 다수 만날 수 있었는데 빠른 시간 내에 활용할 수 있게 구성되어있어 인상적이었다. 뭐든 있는지, 없는지 자체라도 알면 쉽게 학습할 수 있는데 있는지, 없는지 자체를 모르면 빙빙 돌아가고 시간을 크게 낭비하게되니 말이다.pyLDAvis

아무튼 7장 ~ 8장을 거치며 feature importance를 중심으로 데이터 모델에 대한 해석력을 확보할 수 있는 과정은 매우 유익했고, 이를 통해 토픽모델링을 실습하며 뒤에 이어질 고급 기술들의 이해력을 높이는 구성이 매우 마음에 들었다.

더불어 NMF, LDA 등의 알고리즘을 실습해보며 선형대수 등의 기초 학문 지식이 어떻게 기술에 응용되는지 볼 기회도 제공되고 있어 학문과 산업 간 연계 이해 측면에도 도움이 될 것 같다.

9장 이후에는 보다 실용적인 관점으로 책의 집필 방향이 변하는 것 같다. 사실 텍스트 요약과 같은 주제는 능히 책 한 권을 할당하고도 모자를 만큼 방대한 주제이기에 이에 대한 밑바닥을 살피는 것은 쉽지 않으므로 라이브러리를 활용하여 빠르게 원하는 답을 찾는 수준으로만 소개되어있다.

임베딩이나 의미론적 유사성을 찾는 과정 역시 Gensim과 같은 라이브러리 활용에만 초점을 맞추고 있다. 실무에서 그 내부를 들여다 볼 필요는 크게 없기에 이 자체로도 유용하다고 생각하며 앞서 언급했듯 7 ~ 8장에서 얻은 지식으로 내부를 충분히 상상하고 이해하는데 무리가 없을 것이다.

번외로 R에 비해 Python이 마음에 안 드는 대표적인 이유를 꼽자면 시각화 정도를 들 수 있겠는데 특히 Matplotlib이 개인적으로 가장 마음에 들지 않았다. 이 역시 Matplotlib만 고집하지 않고 Plotly와 같은 훨씬 좋은 라이브러리 등 예제마다 적재적소에 필요한 라이브러리를 잘 선택하며 예제를 구성하고 있어 마음에 들었다.Plotly

아무튼 앞서 배웠던 지식들을 토대로 11장에서는 감성 분석 예제로 그간의 지식을 잘 정리할 수 있게 도와준다.

12장이나 13장은 약간 부록의 성격에 가깝다. 12장은 지식그래프 구축 주제를 다루는 데 이는 시멘틱 기술 진영의 이야기이다. 자동화된 머신러닝 진영에 비해 아래 그림과 같이 사람이 지정하는 규칙에 큰 영향을 받는다.지식그래프

양 진영의 정반합이 텍스트 분석 생태계의 발전에 큰 역할을 하고 있으므로 비교 우위를 논하는 것은 별 의미가 없으며 시멘틱 기술에 관심이 있다면 최근에 작성한 관련 책 리뷰를 참고하기 바란다. 리뷰 - 시맨틱 데이터 모형화

13장은 콘다와 YAML로 개발 환경을 구성하는 방법이나 도커 환경을 구성하는 방법, 심지어 WSGI서버를 활용하여 API 서버를 구축하고 빌드 및 배포를 자동화하는 방법을 다루고 있다. 제품화와 관련된 핵심 기술을 단 하나의 챕터로 핵심만 간결하게 전달하고 있다는 점이 매우 놀라웠다.

이 부분에서 큰 그림을 잡지 못하면 좋은 모델을 갖고도 제품이나 서비스는 산으로 가는 경우가 많은데 경험이 풍부한 전문가의 전달력으로 짧은 지면에 핵심을 담아내는 능력에 감탄했다.

전반적으로 텍스트 분석에 있어 필요한 A to Z를 매우 빠르게 습득할 수 있는 책이다. 그렇기에 생산성 측면 즉, 공부한 시간 대비 가장 많은 기술과 지식을 익힐 수 있는 책이라 생각하며 빠르게 현업 및 실무에 배운 기술을 써먹을 수 있도록 안배된 책이라 생각한다.

아마도 BERT나 GPT-3와 같은 딥러닝 모델을 제외하고는 적어도 내가 아는 모든 기술이 콤팩트하게 담겨있다고 본다.

다만, 모든 책에는 독자의 수준이 중요한 것 같다. 너무 좋은 책인데도 독자가 극도로 초보자이거나 전문가여서 비판 받는 경우를 많이 봐왔다. 그렇기에 이 책 역시 독자 스스로의 수준 파악이 중요할 것 같다.

Python의 기본 문법은 물론 기본 생태계 정도는 충분히 활용해보고, 분석 계열이 아닌 IT 분야에서라도 문자열 처리 (특히, 정규표현식) 정도는 무수히 다뤄봤으며, 기본적인 머신러닝 알고리즘 혹은 통계 지식 및 선형대수 정도의 지식을 갖추고 있다면 2, 3, 13장을 제외하고는 무난한 이해가 가능하리라 생각한다.

다만 2, 3, 13장은 기본적인 IT 지식이 필요한 장이고 특히 13장은 하나하나의 주제별로 책 한 권씩 낼 수 있는 부분이라 각 챕터를 지도삼아 다른 자료를 많이 참조하면 좋을 듯 하다.

텍스트 분석에 입문한다면 가장 처음으로 볼만한 책으로 추천하고 싶다. 이 책이 기준점이 된다면 보다 고차원 적인 기술이나 모델을 익히는데 넘어야 할 장애물을 최소화할 수 있을 것 같다는 생각이 들며 이 분야의 전체 지도를 머릿속에 그리고 출발할 수 있다는 것이 전문가로 성장하는데 큰 도움을 줄 수 있을거라 생각한다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
시맨틱 데이터 모형화 - 데이터의 유용성과 가치를 높이는 방법
파노스 알렉소풀로스 지음, 박해선 옮김 / 한빛미디어 / 2022년 3월
평점 :
장바구니담기


함정, 딜레마를 중심으로 시맨틱 모델링을 학습하는 접근법은 일반적인 학습 방법 대비 재미와 능률에 있어 큰 도움이 되는 구성이라 생각한다. 시맨틱과 관련된 조각과 파편을 한 군데 모은 가치도 크다.

시맨틱 모델링이 그러하듯 구현된 시스템이 담고 있는 기본 속성이 그러하듯 시맨틱은 정의부터도 까다롭다.

굳이 정의하자면 의미론이라는 거창한 뜻을 니면서도 사람들이 세상이라는 환경에서 상호작용하는 데 있어 사용하는 기호, 단어, 부호 등(책에서는 기표라고 표현한다)과 존재, 컨셉, 아이디어(책에서는 사물이라 표현한다)등 과의 관계나 의미를 연구하는 분야이다.

너무 추상적인 설명이기에 시맨틱 모델링이 활용되는 분야의 한 예를 책을 빌려 설명하자면 저자가 몸담고 있는 회사에서 만든 ESCO 시스템을 예로 들 수 있을듯 하다.

인사담당자가 데이터과학자를 채용하고자 하는데 해당 직군에 필요한 스킬이 무엇인지 파악하고 싶을 때 시맨틱 모델링이 좋은 해결책이 될 수 있다.ESCO

사전에 일자리 컬럼에 해당하는 의미들이 필수 기술이라는 컬럼과 관계를 맺는 그래프를 모델링 해왔다면 쉽게 인사담당자의 질의에 도움을 줄 수 있는 시스템으로 활용할 수 있을 것이다.

시맨틱은 언어, IT, 나아가 철학을 연구하는 사람들은 좋든 싫든 간에 한번은 숙명적으로 접해온 지식 분야이기도 하다. 나 같은 경우에는 NLP, 검색엔진, 분류 시스템 등에 관심이 많고 그 분야를 다루면서 늘 꼬리표처럼 따라 다니던 연구 분야이자 주제이기도 하다.

이런 점을 토대로 책의 첫번째 장점을 추릴 수 있는데 시맨틱에 관련된 조각난 파편들을 한 번에 모아볼 수 있다는 점이 바로 그러한 장점이라 표현할 수 있겠다.

여기서 찔끔 저기서 찔끔 나타나 도대체 뭐지 하고 제대로 공부하려들면 쉬운 레퍼런스 하나 찾기가 어렵고 정의부터 애매성이 가득한 이 분야를 언젠가 기회가 되면 제대로 정리해보고 싶은 욕구가 들곤 하였는데 마침 적절한 시기에 그런 책이 등장한 셈이다.

또한 시맨틱과 관련된 책은 별로 흔하지 않을 뿐더러 대부분 원론적 개념의 수준이 언어학이나 철학을 전공해야 이해가능할 정도로 그 깊이에 끝이 없고 그 이해의 과정에서 지루함과 반복됨 그리고 방향을 잃은 듯 학습과정에 지쳐 나가떨어지기 일쑤이다.

또한 학습에 투자한 시간 대비 얻는 것이 매우 미약할 뿐만 아니라 그마저도 IT 수단으로 가시화된 구현에 이르기는 또 다른 상당량의 지식을 요하기에 거의 불가능에 가깝다. 그렇게 세월이 흐르며 애쓴 과정은 다시 물거품처럼 사라진다.

이런 측면에서 책의 두번째 장점을 찾을 수 있었다. 굳이 표현하자면 블랙리스트적 접근방식이라고 해야할까?

확실히 이 분야는 화이트리스트 정공법식 학습보다는 블랙리스트 성격의 접근방식으로 학습하는 것이 유리한 분야이다.

“어떻게 해야해?”라는 주제로 나아가기 보다는 “이렇게 하면 왜 안돼?”, “애써봤는데 이건 왜 안되는거야?” 등 거꾸로 접근하는 방식이 이 분야의 주제를 빠르게 이해하고 습득하는데 의미있는 이정표 역할을 하는 듯 하다.

영화속의 주인공처럼 스승의 어깨너머로 지루한 인내와 맹목적인 신념을 가지고 이유도 모르고 배우고 익히고 따라하다 영화 끝날 때 즈음 내가 하던 일이 우주에서나 보일듯한 거대한 코끼리 석상을 조각하는 일이었다는 것을 깨닫게 되는 것도 의미있겠지만 처음부터 방향과 목표를 분명히 알고 출발했다면 주인공의 따분함과 괴로움을 해소하는데 큰 도움이 되지 않을까?

물론 이러한 방식의 구성은 스승, 즉, 경험이 풍부한 마스터만이 시전할 수 있는 구성법이다. 덕분에 이 책은 활용할 수 없는 좋은 예제로만 구성된 시맨틱 모델링 책과는 다른 차별점이 있으며 목표를 향해 나아가는데 덜 지치게 만들고 덜 심심하게 만들어주는 효과가 있는 듯 하다.

시맨틱 분야를 알면 알수록 인간의 사고는 확실히 언어적인 요소에 상당부분 지배된다는 것을 깨닫게 된다. 보다 철학적인 분야로 올라가면 플라톤의 이데아나 아리스토텔레스의 에이도스라는 개념에 이르를 것이다.

이 책은 이러한 시맨틱현상, 언어적 현상으로도 불리는 모델링을 어렵게 만드는 요소를 단계적으로 살펴본다. 1부에서는 일반적인 언어적 현상을 2부에서는 그로인해 발생하는 함정을 3부에서는 선택의 단계에 맞닥드리게 되는 딜레마를 다룬다.

앞서 시맨틱의 정의를 내리기가 쉽지 않음을 언급했는데 모델링을 위한 시작부터 이미 순조롭지 않다. 유사 분야의 온톨로지, 지식 그래프 등의 용어와 혼용되어 사용되는 것을 시작으로 데이터베이스 개발자, 온톨로지 공학자, 언어학 전공자가 바다로 향해 나아가는 삼각주에서 만난다.

같은 주제나 현상을 두고 데이터베이스 진영은 테이블, 필드, 기본키, 외래키 등의 용어로 표현하고, 온톨로지 진영은 객체, 클래스, 데이터 형식 속성 등의 단어를, 언어학 전공자는 유의어, 표제어, 동의어, 하위어라는 표현을 사용할 것이다.

시작부터 쉽지 않은 항해이다. 앞서 이데아, 에이도스에 비유하던 개념은 아래 그림처럼 구상, 추상 엔터티로 나뉠 수 있다. 사람이라는 추상은 홍길동, 김개똥,..등의 구상으로 변할 수 있다.추상

어떤 두 엔터티가 같은 것인지 판단하는 절차조차 쉽지 않다. 수학적 연산에 있어 가장 쉽다고 말할 수 있는 비교연산자조차 이 세계에서 활용되기는 쉽지 않다.동의어

N원 관게 패턴의 복잡함은 각 엔터티가 가질 수 있는 함정과 딜레마의 첫 출발선이기도 하다.N원 관게 패턴

시맨틱 현상으로는 대표적으로 모호성, 불확실성, 애매성 등을 들 수 있다.

모호성은 두가지 이상의 그럴듯한 해석이 가능한 상황이다. 예를 들어 “내가 트리폴리에서 태어났다”고 할 때 그 지역이 리비아, 레바논, 그리스 아르카디아 지방을 말하는 것으로 각기 해석될 수 있다.

불확실성은 진실을 결정할 수 없는 상태이다. 예를 들어 “지금 비가 올 것 같다.”는 잘 모르겠다는 의미를 내포한다.

애매성은 애매한 경계사례가 대표적인 예이다. “큰 키만 입장 가능”이라는 표지판에서 그 큰 키가 180cm를 말하는 것인지 200cm를 말하는 것인지 등의 문제이다.

나아가 잘못 정의되거나 잘못된 의미를 부여한 일의 여파, 규격이나 지식 측면에서 잘못된 모형을 구축하는 일 등의 함정 등을 고려해야 하고, 0 ~ 1사이의 실수로 피지화할지 하위 클래스로 보낼지의 여부, 세분화와 일반화의 정도 등 시맨틱 모델링이 가지는 딜레마에 이르기까지 저자의 경험을 기반으로 한 뛰어난 모델링을 위한 저자의 경험이 아낌없이 전개된다.

이 책은 또 하나의 이슈에서도 흥미로운 주제이기도 하다. 페드로 도밍고스가 저술한 “마스터 알고리즘”의 책에 등장하는 머신러닝의 다섯 종족 기호주의자, 연결주의자, 진화주의자, 베이즈주의자, 유추주의자에 관한 이야기의 연속이다.

시맨틱 진영만 놓고 본다면 기호주의자 대 나머지 머신러닝 진영의 대립으로 보여지기도 한다. 기호주의자의 의미론, 분류, 추론, 의미 연결 등의 아이디어는 시맨틱 진영에 고스란히 녹아있다.

반면 다른 머신러닝 진영은 알파고가 보여준 무한에 가까운 표현력에 가능성을 건다. 확실한 것은 무엇이 더 뛰어난가의 질문은 우매한 질문이다.

개인적으로는 시맨틱 진영의 해석가능함과 머신러닝 진영의 무한의 표현력이 만나게 되는 날이 인간이 진정으로 원하는 AI를 얻게 되는 날이 아닐까 싶다.

추가로 시맨틱의 전반적인 시스템 인프라 구축과 관련된 지식을 얻길 원하는 독자라면 이 책에서 관련 지식을 얻기는 힘들다. 대신 저자가 본문에서 추천하는 책을 참고하면 된다.

시맨틱 모델링의 전반적인 구성과정과 일반적 지식 역시 방대하게 다루진 않는다. 다만, 5장이 전체 설계에 있어 큰 그림을 그릴 수 있는 수준의 도움은 준다.DOLCE
BFO

끝으로 이 책의 내용은 가벼운 언어학적 상식으로 접근하자면 어렵지 않고 흥미롭게 읽을 수 있는가 하면 반대로 시맨틱 모델링에 대한 본격적인 접근을 위해서는 다소 난이도가 있는 책이기도 하디.

후자라면 NLP, 언어학에 어느 정도의 경험고 지식이 있는 독자여야 내용을 무리없이 파악하는데 도움이 될 것이다. 물론 시맨틱 진영이나 NLP 머신러닝 진영의 꿈을 가진 일반 독자라 할지라도 언어의 특성 등을 개념적으로 파악하고 나아갈 긴 여정의 지도를 그리는데 큰 도움이 될 수 있을듯하다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo