비됴클래스의 유튜브 영상 편집 with 프리미어 프로 - NO.1 영상 편집 유튜버
하지원(비됴클래스) 지음 / 한빛미디어 / 2023년 1월
평점 :
장바구니담기


어도비 프리미어 프로를 활용하여 유튜브 영상 제작을 안내하는 책으로 그 외 영상 촬영을 위한 장비 및 경험을 바탕으로 한 팁들이 담겨 있어 많은 도움이 되었다.

어도비 프리미어 프로 프로그램을 활용하여 유튜브 영상을 편집하는 방법을 다루는 책이다.

프리미어 프로의 기초 기능 및 자주 활용하는 기능 그리고 고급 효과까지의 내용이 담겨있으며 그대로 따라하기만하면 무리없이 유튜브 영상을 제작할 수 있게 짜임새 있게 구성되어있다.

본격적으로 프리미어 프로를 다루기에 앞서 유튜브 영상을 제작하는 일이 과연 레드오션은 아닐지 그리고 프리미어 프로를 다루기 전 영상은 어떻게 찍어야 할지에 대해 사전작업을 프롤로그 편에서 다루고 있어 많은 도움이 되었다.

과거 유튜브 영상을 만들고 싶어 다른 도서를 참조한 적이 있는데 한 번 읽어보기만 했을 뿐 다루는 내용을 실습으로 이어가진 못했다. 가장 큰 이유가 이미 제작한 내 영상이 있어야 흥미를 갖고 그 영상을 편집해 볼 텐데 내가 찍은 영상이 없었기 때문이었다.

영상을 준비하자니 당장 무엇으로 영상을 찍어야 할지도 판단이 들지 않았고 여차저차 연습용으로 영상을 찍어보고자 시도하였으나 정작 녹음에 잡음이 섞여 있고 녹음으로 듣는 내 목소리가 너무 어색하여 초반에 의지가 꺾여 영상 편집은 시도도 하지 못했던 기억이 난다.

그런 경험 때문인지 이런 유형의 책은 실전에서 그럴사한 영상 하나를 만드는데 무리가 없게 해줘야 할 의무가 있다고 생각했는데 저자가 확실히 실제 강의를 진행하고 전문가여서 그런지 독자가 바로 실습하는데 방해 요소가 없도록 안배한 의도가 느껴져 이 책은 꽤 좋은 책이라는 생각이 들었다.

실제로 영상 하나를 내 손으로 적어도 내 눈에는 그럴싸하게 보이는 영상을 만들 수 있었기 때문이다. 그렇기에 개인적으로는 이런 사전 작업을 위한 안배가 마음에 들었다.

영상을 하나하나 찍어가며 보다 품질 높은 사운드나 영상을 만들기 위해 어떤 준비가 필요한지 일일이 알아보려면 그것도 엄청난 부담인데 한 눈에 알기 쉽게 관련 장비나 기술들을 설명하고 있어 큰 도움이 되었다.

예를 들면 삼각대에는 어떤 종류가 있는지, 또 카메라는 어떤 종류가 있으며 각각의 가격대는 어느 정도 수준이고 어떤 기능을 담고 있으며 유지보수 및 관리하는데 있어 얼마나 품을 들여야 하는지 장단점은 무엇인지 저자가 경험한 노하우가 잘 정리되어있어 이 책만 읽어도 영상 촬영에 있어 큰 문제가 없도록 구성된 점이 마음에 든다.

삼각대

카메라

더불어 장비 뿐만 아니라 그 장비를 활용하기 위한 기본 기술 지식 이를테면 아래 그림과 같이 메모리 카드에는 어떤 종류가 있는지, UHS 인터페이스 버전과 속도는 무슨 관련이 있는지 카드 겉면에 붙어있는 로마자 숫자 I, II, III 등이 의미하는 것은 무엇인지를 알려주고 있어 별다른 검색없이 책의 내용만 섭렵하면 큰 그림을 잡는데 도움이 된다.메모리카드

유튜브 계정 하나 만드는 것까지도 친절하게 안내하고 있고 그림에는 독자가 따라해야 할 순서가 1,2,3 번의 번호로 매겨져 있어 그대로 따라하기 쉽게 구성된 점에서 친절한 느낌이 들었다.

유튜브 계정을 만들줄만 알았지 채널을 관리하는 전용 브랜드 계정이라는게 있다는 사실도 몰랐는데 초보자가 놓치기 쉬운 부분들을 잘 짚어주고 있다.브랜드계정

계정 같이 첫단추에 해당하는 것들은 초반에 실수하면 나중에 후회하고 많은 시간과 노동력을 낭비해야 하는 경우가 많은데 사소해도 이런 점들을 잡아주는 책에는 항상 고마움을 느낀다. 나중에 브랜드 계정을 새로 만들어 영상을 옮긴다면? 생각만 해도 아찔하다.

특히 책의 구성이 너무 깔끔하다. 완전 컬러판이라 가독성이 좋고 프리미어 프로의 다양한 기능들을 예제를 하나씩 따라해보며 쉽게 그림만 봐도 지식의 흐름이 자연스럽게 전개되는 느낌이다.

종이의 질도 마음에 들고 세련된 이미지에 모든 그림에는 실습할 수 있는 순번이 매겨져 있고 사소한 것 하나까지 그림에 강조되어 있어 설명되지 않는 부분이 없었다.

일전에 읽었던 유사 도서와 비교하면 퀄리티가 천지차이다. 예전 책은 그림을 그대로 따라해도 스킵된 과정이 많아 구글 검색 없이는 실습을 따라하기 어려웠는데 이 책을 보면서 검색은 거의 할 일이 없었기에 매우 구성이 뛰어난 책이라는 생각이 들었다.

아래 사진은 똑같은 사람이 동시에 등장하는 장면을 만드는 과정이다.

보다시피 따라하는 순서가 안내되어있어 그대로 진행하기만 하면 되고 클릭같이 기본적인 부분까지 강조되어있어 따라하기가 정말 쉬웠다. 중간중간 단축키로 설명이 되어있어 추후 빠르게 편집할 수 있도록 미래를 안배한 설명도 마음에 드는 부분이다.프리미어프로

사실 유튜브를 보면서 똑같은 사람이 등장할 때마다 저런 영상은 어떻게 만드는 것인지 매우 궁금했었는데 직접 만들어 보고나니 생각보다 쉬웠고 이런 것을 직접 내 손으로 만들 수 있다는 것에 묘한 성취감이 느껴졌다.

키프레임과 시퀀스라는 영상 제작에 필요한 기본 개념을 초반부에 쉽게 설명하고 있어 원리를 파악하는데 도움이 되었고 다양한 기법들을 체험하고 나니 영상을 다루는 스킬보다는 내 안의 상상력을 어떻게 표현해야 할지에 대한 자신감도 얻을 수 있었다.

동영상 회전, 영상에 이미지 파일을 삽입, 자막의 동적 모션 처리, 영상 분할, 장면 전환 효과, 자막 및 텍스트 디자인, Lumetri 색상, 속도조절, 모자이크 효과 등 일반적으로 유튜브 영상을 보며 궁금했던 부분들을 어떻게 처리하는지 하나하나 친절한 실습으로 안내되어 있다.

그 외에도 구간 렌더링 기능이라던가 유료 플러그인에 어떤 것이 있고 이를 어떻게 사용해야 하는지 등 영상을 더 풍부하게 제작할 수 있는 팁도 담겨있어 한 권 만으로도 제법 자신있게 영상을 제작할 수 있다는 자신감을 심어주는 책이라는 생각이 들었다.

유튜브 관련 도서를 전부 읽은 것은 아니지만 이 책 한 권이면 영상제작에 있어 큰 어려움이 없는 것은 사실이기에 나처럼 유튜브 영상 제작에 관심이 있는 분들은 이 책이 분명 도움이 될거라 알리고 싶다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
핸즈온 데이터 시각화 - 효과적인 데이터 시각화 전략부터 20가지 시각화 도구 사용법까지
잭 도허티.일리야 일라얀코우 지음, 김태헌 옮김 / 한빛미디어 / 2022년 7월
평점 :
장바구니담기


20여종의 다양한 도구를 통해 시각화 자료를 생성할 수 있게 구성된 점이 장점인 책으로 프로그래밍이나 시각화의 기본을 몰라도 퀄리티 있는 시각화 업무를 수행할 수 있게 도와주는 책이다.

훌륭한 데이터 시각화 책이 많은데 이 책도 충분히 훌륭한 책이라는 생각이 든다. 다만 독자의 책을 선택하는 목적과 수준 상태에 따라 때로는 양서가 혹평을 받기도 하고 때로는 대부분의 베스트셀러 책이 그렇듯 기본만 충실한 책이 각광받기도 한다.

이 책의 특징은 프로그래밍 스킬이 거의 등장하지 않는다. 프로그래밍 언어 처럼 생겨먹은 것은 오직 구글 시트에 활용되는 짧막한 수식, 임베딩 코드를 활용하여 시각화 자료를 웹으로 배포하기 위한 HTML, 가장 어려운 프로그래밍은 chart.js 코딩 정도가 등장한다.

chart.js는 자바스크립트를 기본적으로 알고 있다면 이해하는데 큰 무리가 없지만 굳이 자바스크립트를 모른다고 할지라도 데이터를 기반으로 시각화하는 것이기에 이 책 혹은 튜토리얼 사이트의 예제만 따라할 줄 알아도 충분히 훌륭한 시각화 자료를 생성할 수 있다.버블차트
버블차트코드

즉, 프로그래밍 스킬이 부족하지만 데이터 분석 업무에 종사하거나 일반 사무직 종사자가 퀄리티 있는 시각화 자료를 생성하고 싶을 때 이 책은 좋은 선택이 될 것 같다.

물론 프로그래머 역시 코드에는 능할지 몰라도 시각화 표현 능력은 별도의 문제이기 때문에 이 책을 통해 데이터 스토리 텔링을 작성하는 방법이나 시각화 표현의 기본기를 습득하고 소개되는 다양한 도구에서 프로그래밍의 유연성을 어떤 방향으로 이끌어 나갈지 정하는데 도움이 될 것이다.

이 책의 가장 큰 특징은 다양한 시각화 도구들이 등장한다는 것이다.도구

위 도표가 이를 잘 정리하고 있는데 흔히 알려진 구글 시트를 비롯해서 앞서 언급한 chart.js 그 외에도 유명 시각화 도구인 태블로나 데이터 래퍼 등의 다양한 도구를 사용할 수 있는 기회가 제공된다는 점이 책의 또 하나의 장점이다.

프로그래머 입장에서는 되려 프로그래밍으로 표현할 수 있는 폭넓은 유연성이 되려 장벽이 되기도 한다. 이럴 때 이 책에 소개되는 도구들을 활용해보고 방향성을 잡을 수 있을 듯 하다. 좋은 예제를 따라해보며 일종의 시각화를 위한 좋은 선입견이 자리잡을 수 있을 것이다.

실제로 예제를 하나씩 따라해보며 시각화 세계에 이렇게 많은 오픈 소스들이 존재한다는 것에 놀라지 않을 수 없었다. 생각 이상으로 다양하고 편리한 기능들이 제공되며 생성된 시각화 자료들의 퀄리티는 말 할것 없이 뛰어나다.

예를 들어 태블로 퍼블릭이 그러한 도구 중 하나인데 지원하는 기능이 너무 다양하여 이를 한번씩 활용하는 것도 며칠의 시간이 필요할 만큼 기능적으로 확장성과 유연성이 뛰어나다는 생각이 들었다.태블로퍼블릭

데이터래퍼 역시 지도 기반의 시각화 및 데이터를 가공하는데 많은 도움을 주는 도구이다.데이터래퍼

특히 이 책에서 소개되는 도구 중 가장 많이 소개되는 툴은 구글 스프레드 시트이다. 평소 클라우드의 장점 덕분에 많이 활용하고는 있었지만 그저 엑셀의 클라우드 버전이라고만 생각했지 이렇게 다양한 기능이 숨겨져 있는지 몰랐다.구글시트

마치 Python으로 전처리하는 수준으로 데이터를 클렌징, 클리닝, 대체 하는 기능들이 모두 활용 가능하며 마치 RDBMS와 유사한 데이터 저장 기능으로도 활용할 수 있다는 것이 놀라웠다.

또한 책에서 소개되는 것처럼 이를 차트, 도표 등의 시각화 자료로 생성하는데 있어서도 뛰어난 기능을 제공한다는 사실을 이번에 이 책을 통해 처음으로 알게 되었다. 프로그램을 활용할 수 없는 환경이나 상황에 처한다면 꽤 요긴하게 사용할 수 있을 듯 하다.

또 하나의 특징은 시각화 입문서 답게 각 시각화 단위 유닛을 생성하는 예제가 꼼꼼히 정리되어있다는 점이다. 히스토그램이나 원형 차트 등 흔히 쓰이는 시각화 단위 유닛을 하나하나 실습해 볼 수 있다.유닛

시각화 자료를 생성하면서 유닛 별로 주의해야 할 사항들이 아래와 같은 예제로 유형별로 하나씩 꼼꼼하게 소개된 점도 마음에 들었다.유의사항

그 외에 데이터를 구할 수 있는 사이트가 잘 정리되어있는 등 전반적으로 시각화 업무를 수행하는데 있어 독자가 매우 편리하게 이 책만 잘 따라하면 다양한 팁을 얻을 수 있게 구성된 점이 인상적이었다.출처

기본적인 시각화 보고서를 통한 스토리 텔링 부분도 짧막하게 정리되어있는데 개인적으로는 이 부분의 분량이 더 많았다면 좋겠다는 생각이 들었다. 기본적인 연필과 종이만으로도 좋은 결과물을 작성하기 위한 방법이 잘 소개되어있어 개인적으로 많은 도움을 받았다.스토리텔링

전반적으로 시각화 생태계를 한 눈에 조망할 수 있게 해주고, 기본적인 시각화 데이터 생성 역량을 키워주며, 다양한 툴들을 활용하여 표현력과 업무 유연성을 발휘할 수 있게 해준다는 점이 인상적인 책이었다.

앞서 언급한대로 전문적인 퀄리티를 표현하고 싶은 비 프로그래머 분들, 다양한 표현방식의 경험을 쌓고 싶은 프로그래머 분들께 추천하고 싶은 책이다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
장바구니담기


텍스트 분석에 필요한 거의 모든 기술과 라이브러리를 핵심만 쉽고 간결하게 전달하고 있어 놀랍다.

이 책의 가장 큰 장점은 생산성에 있는 것 같다. 독자로 하여금 빠른 시간 내 텍스트 분석 실무에 적응할 수 있고 한 권의 책으로 제품화까지 구상하는 데 큰 무리가 없게 구성하고 있기 때문이다.

책의 원서 제목이 “Blueprints for Text Analytics using Python”인데 가히 Blueprints라는 용어를 쓸 수 있을만큼 텍스트 분석 생태계에 필요한 전반을 한 권의 책으로 통일성있고 유기성있게 엮어냈다는 것이 신기하다.

이러한 실용적인 생산성을 높여주는 근거는 크게 두 부분으로 나눌 수 있겠다.

하나는 텍스트 생태계의 Python 라이브러리를 일목요연하게 훑어보고 바로 실전에 적용할 수 있도록 구성되었다는 점을 들 수 있고, 다른 하나로 텍스트 분석 전반에 필요한 기술을 대부분 아우르고 있다는 점을 들 수 있겠다.

먼저 텍스트 데이터를 둘러싼 Python 진영의 Pandas와 같은 기본 라이브러리에서 부터 Gensim과 같은 비교적 최신의 임베딩 라이브러리에 이르기까지 왠만한 현업 종사자도 전부 다 활용해 보진 못했을거라 추측될 정도로 방대한 라이브러리를 예제에 담아냈다.

아울러 기본적인 통계지식을 활용하여 빠르게 EDA로 데이터에 친숙해지며 감을 잡는 것을 시작으로 API나 크롤링을 통해 외부 데이터 세계를 가져와 전처리 하는 방법, 또 이를 전처리하여 활용할 수 있는 형태로 가공하는 방법, 준비된 데이터를 머신러닝에 적용해보며 토픽 모델링이나 분류 작업을 학습할 수 있음은 물론 책의 뒷부분으로 갈수록 지식그래프와 같은 시멘틱 기술을 활용하여 머신러닝의 단점을 보완할 수 있게 해주고 도커나 콘다를 이용한 배포 및 제품화까지 고려하고 있다.

조금 더 자세히 살펴보겠다. 1장에서는 주어진 데이터에 친숙해지는데 있어 가장 효율적이고 빠른 방법을 소개하고 있다.

그동안 실무에서 텍스트 분석에 임하다보면 꼬리에 꼬리를 무는 생각 때문에 시간을 많이 소요하는 일이 잦았다. 가능할지 불가능할지 혹은 주어진 데이터로 할 수 있는 일인지 조차 생각하지 못한채 거창한 아이디어를 꿈꾸다가 시간을 낭비하는 일이 종종 있는데 언제나 돌이켜보면 어느 데이터에나 적용할 수 있는 심플하고 빠른 방법을 먼저 수행하는 편이 좋았다는 생각이 들었고 나름의 정형화된 방법을 정리해 적용해오고 있었는데 1장에 제시된 방법들은 적어도 몇년 간 내가 정리한 방법보다 깔끔하고 빠르게 분석할 수 있었기에 느낀 바가 컸다.

아울러 1장에서는 데이터에 친숙해지기 위한 EDA 과정외에도 불용화나 토큰화와 같은 기본적인 전처리 방법도 배운다.

2장 ~ 3장은 API나 크롤링을 활용하여 데이터를 수집하는 노하우를 담은 장이다. 역시 짧은 지면에 데이터 수집과 관련된 시행착오를 쉽게 해결할 수 있는 방법을 잘 요약하고 있다. 의외로 데이터 분석가 중에 REST API를 호출하며 HTTP의 기본 Response Code를 해석하지 못해 쩔쩔매는 경우를 흔히 봐왔는데 친절히 코드별 대응책을 알려주고 있어 인상적이었다.

깃허브의 API, 트위피, 스크래핑 등의 예제를 따라할 수 있는 것 자체로도 좋은 예제 구성이지만 robot.txt를 시작으로 과부하로 부터 서버를 보호하기 위해 서버측에서 행하는 제약들을 유연성있게 피하며 데이터를 수집할 수 있는 좋은 팁들이 더 값지다는 생각이 든다.트위피

4장은 앞서 수집한 데이터를 가공하는데 초점을 맞춘다. 표준화 작업을 시작으로 팀 내부 간 쉽고 빠른 공유를 위해 SQLite를 활용하여 데이터를 축적하는 방법을 다루고 있으며 노이즈 제거, 토큰화, 원형추출 등 보다 심화된 전처리 방법을 다루고 있는데 이 역시 현업에서 가장 중요한 부분의 핵심만 담아내고 있어 빠른 시간 내 실무 능력을 키우는데 큰 도움이 되리라 생각한다.

5장 ~ 8장은 본격적인 머신러닝 알고리즘을 적용하는 장이다. 5장에서 머신러닝에 필요한 기본 개념들 즉, 벡터화, TF-IDF, 차원축소, 구문유사성과 관련된 기본기를 다진 후 6장에서 SVM 분류 알고리즘을 적용하며 기본적인 머신러닝 활용법을 정리해 볼 수 있다.

다른 책들과 차별화 된 부분이 주로 7장 ~ 8장에서 많이 실려있는데 기본기를 익히는 데 한 걸음 더 나아가서 피처 엔지니어링이나 XAI 측면에 집중하며 분석가로 하여금 더 나은 아이디어를 떠올리게 함은 물론 뒤에 이어질 고차원 NLP처리를 위한 탄탄한 기본기를 잡는데 도움을 준다.

예를 들면 7장에는 해석을 위한 여러 시각화 도구를 활용하는데 LIME과 같이 전통적으로 자주 활용하는 라이브러리도 등장하지만 개인적으로 ELI5나 앵커와 같이 자주 사용해보지 않은 라이브러리가 자세히 소개되고 있어 많은 도움을 받을 수 있었다.ELI5

특히 pyLDAvis와 같이 한 번도 활용해보지 못한 라이브러리도 다수 만날 수 있었는데 빠른 시간 내에 활용할 수 있게 구성되어있어 인상적이었다. 뭐든 있는지, 없는지 자체라도 알면 쉽게 학습할 수 있는데 있는지, 없는지 자체를 모르면 빙빙 돌아가고 시간을 크게 낭비하게되니 말이다.pyLDAvis

아무튼 7장 ~ 8장을 거치며 feature importance를 중심으로 데이터 모델에 대한 해석력을 확보할 수 있는 과정은 매우 유익했고, 이를 통해 토픽모델링을 실습하며 뒤에 이어질 고급 기술들의 이해력을 높이는 구성이 매우 마음에 들었다.

더불어 NMF, LDA 등의 알고리즘을 실습해보며 선형대수 등의 기초 학문 지식이 어떻게 기술에 응용되는지 볼 기회도 제공되고 있어 학문과 산업 간 연계 이해 측면에도 도움이 될 것 같다.

9장 이후에는 보다 실용적인 관점으로 책의 집필 방향이 변하는 것 같다. 사실 텍스트 요약과 같은 주제는 능히 책 한 권을 할당하고도 모자를 만큼 방대한 주제이기에 이에 대한 밑바닥을 살피는 것은 쉽지 않으므로 라이브러리를 활용하여 빠르게 원하는 답을 찾는 수준으로만 소개되어있다.

임베딩이나 의미론적 유사성을 찾는 과정 역시 Gensim과 같은 라이브러리 활용에만 초점을 맞추고 있다. 실무에서 그 내부를 들여다 볼 필요는 크게 없기에 이 자체로도 유용하다고 생각하며 앞서 언급했듯 7 ~ 8장에서 얻은 지식으로 내부를 충분히 상상하고 이해하는데 무리가 없을 것이다.

번외로 R에 비해 Python이 마음에 안 드는 대표적인 이유를 꼽자면 시각화 정도를 들 수 있겠는데 특히 Matplotlib이 개인적으로 가장 마음에 들지 않았다. 이 역시 Matplotlib만 고집하지 않고 Plotly와 같은 훨씬 좋은 라이브러리 등 예제마다 적재적소에 필요한 라이브러리를 잘 선택하며 예제를 구성하고 있어 마음에 들었다.Plotly

아무튼 앞서 배웠던 지식들을 토대로 11장에서는 감성 분석 예제로 그간의 지식을 잘 정리할 수 있게 도와준다.

12장이나 13장은 약간 부록의 성격에 가깝다. 12장은 지식그래프 구축 주제를 다루는 데 이는 시멘틱 기술 진영의 이야기이다. 자동화된 머신러닝 진영에 비해 아래 그림과 같이 사람이 지정하는 규칙에 큰 영향을 받는다.지식그래프

양 진영의 정반합이 텍스트 분석 생태계의 발전에 큰 역할을 하고 있으므로 비교 우위를 논하는 것은 별 의미가 없으며 시멘틱 기술에 관심이 있다면 최근에 작성한 관련 책 리뷰를 참고하기 바란다. 리뷰 - 시맨틱 데이터 모형화

13장은 콘다와 YAML로 개발 환경을 구성하는 방법이나 도커 환경을 구성하는 방법, 심지어 WSGI서버를 활용하여 API 서버를 구축하고 빌드 및 배포를 자동화하는 방법을 다루고 있다. 제품화와 관련된 핵심 기술을 단 하나의 챕터로 핵심만 간결하게 전달하고 있다는 점이 매우 놀라웠다.

이 부분에서 큰 그림을 잡지 못하면 좋은 모델을 갖고도 제품이나 서비스는 산으로 가는 경우가 많은데 경험이 풍부한 전문가의 전달력으로 짧은 지면에 핵심을 담아내는 능력에 감탄했다.

전반적으로 텍스트 분석에 있어 필요한 A to Z를 매우 빠르게 습득할 수 있는 책이다. 그렇기에 생산성 측면 즉, 공부한 시간 대비 가장 많은 기술과 지식을 익힐 수 있는 책이라 생각하며 빠르게 현업 및 실무에 배운 기술을 써먹을 수 있도록 안배된 책이라 생각한다.

아마도 BERT나 GPT-3와 같은 딥러닝 모델을 제외하고는 적어도 내가 아는 모든 기술이 콤팩트하게 담겨있다고 본다.

다만, 모든 책에는 독자의 수준이 중요한 것 같다. 너무 좋은 책인데도 독자가 극도로 초보자이거나 전문가여서 비판 받는 경우를 많이 봐왔다. 그렇기에 이 책 역시 독자 스스로의 수준 파악이 중요할 것 같다.

Python의 기본 문법은 물론 기본 생태계 정도는 충분히 활용해보고, 분석 계열이 아닌 IT 분야에서라도 문자열 처리 (특히, 정규표현식) 정도는 무수히 다뤄봤으며, 기본적인 머신러닝 알고리즘 혹은 통계 지식 및 선형대수 정도의 지식을 갖추고 있다면 2, 3, 13장을 제외하고는 무난한 이해가 가능하리라 생각한다.

다만 2, 3, 13장은 기본적인 IT 지식이 필요한 장이고 특히 13장은 하나하나의 주제별로 책 한 권씩 낼 수 있는 부분이라 각 챕터를 지도삼아 다른 자료를 많이 참조하면 좋을 듯 하다.

텍스트 분석에 입문한다면 가장 처음으로 볼만한 책으로 추천하고 싶다. 이 책이 기준점이 된다면 보다 고차원 적인 기술이나 모델을 익히는데 넘어야 할 장애물을 최소화할 수 있을 것 같다는 생각이 들며 이 분야의 전체 지도를 머릿속에 그리고 출발할 수 있다는 것이 전문가로 성장하는데 큰 도움을 줄 수 있을거라 생각한다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
시맨틱 데이터 모형화 - 데이터의 유용성과 가치를 높이는 방법
파노스 알렉소풀로스 지음, 박해선 옮김 / 한빛미디어 / 2022년 3월
평점 :
장바구니담기


함정, 딜레마를 중심으로 시맨틱 모델링을 학습하는 접근법은 일반적인 학습 방법 대비 재미와 능률에 있어 큰 도움이 되는 구성이라 생각한다. 시맨틱과 관련된 조각과 파편을 한 군데 모은 가치도 크다.

시맨틱 모델링이 그러하듯 구현된 시스템이 담고 있는 기본 속성이 그러하듯 시맨틱은 정의부터도 까다롭다.

굳이 정의하자면 의미론이라는 거창한 뜻을 니면서도 사람들이 세상이라는 환경에서 상호작용하는 데 있어 사용하는 기호, 단어, 부호 등(책에서는 기표라고 표현한다)과 존재, 컨셉, 아이디어(책에서는 사물이라 표현한다)등 과의 관계나 의미를 연구하는 분야이다.

너무 추상적인 설명이기에 시맨틱 모델링이 활용되는 분야의 한 예를 책을 빌려 설명하자면 저자가 몸담고 있는 회사에서 만든 ESCO 시스템을 예로 들 수 있을듯 하다.

인사담당자가 데이터과학자를 채용하고자 하는데 해당 직군에 필요한 스킬이 무엇인지 파악하고 싶을 때 시맨틱 모델링이 좋은 해결책이 될 수 있다.ESCO

사전에 일자리 컬럼에 해당하는 의미들이 필수 기술이라는 컬럼과 관계를 맺는 그래프를 모델링 해왔다면 쉽게 인사담당자의 질의에 도움을 줄 수 있는 시스템으로 활용할 수 있을 것이다.

시맨틱은 언어, IT, 나아가 철학을 연구하는 사람들은 좋든 싫든 간에 한번은 숙명적으로 접해온 지식 분야이기도 하다. 나 같은 경우에는 NLP, 검색엔진, 분류 시스템 등에 관심이 많고 그 분야를 다루면서 늘 꼬리표처럼 따라 다니던 연구 분야이자 주제이기도 하다.

이런 점을 토대로 책의 첫번째 장점을 추릴 수 있는데 시맨틱에 관련된 조각난 파편들을 한 번에 모아볼 수 있다는 점이 바로 그러한 장점이라 표현할 수 있겠다.

여기서 찔끔 저기서 찔끔 나타나 도대체 뭐지 하고 제대로 공부하려들면 쉬운 레퍼런스 하나 찾기가 어렵고 정의부터 애매성이 가득한 이 분야를 언젠가 기회가 되면 제대로 정리해보고 싶은 욕구가 들곤 하였는데 마침 적절한 시기에 그런 책이 등장한 셈이다.

또한 시맨틱과 관련된 책은 별로 흔하지 않을 뿐더러 대부분 원론적 개념의 수준이 언어학이나 철학을 전공해야 이해가능할 정도로 그 깊이에 끝이 없고 그 이해의 과정에서 지루함과 반복됨 그리고 방향을 잃은 듯 학습과정에 지쳐 나가떨어지기 일쑤이다.

또한 학습에 투자한 시간 대비 얻는 것이 매우 미약할 뿐만 아니라 그마저도 IT 수단으로 가시화된 구현에 이르기는 또 다른 상당량의 지식을 요하기에 거의 불가능에 가깝다. 그렇게 세월이 흐르며 애쓴 과정은 다시 물거품처럼 사라진다.

이런 측면에서 책의 두번째 장점을 찾을 수 있었다. 굳이 표현하자면 블랙리스트적 접근방식이라고 해야할까?

확실히 이 분야는 화이트리스트 정공법식 학습보다는 블랙리스트 성격의 접근방식으로 학습하는 것이 유리한 분야이다.

“어떻게 해야해?”라는 주제로 나아가기 보다는 “이렇게 하면 왜 안돼?”, “애써봤는데 이건 왜 안되는거야?” 등 거꾸로 접근하는 방식이 이 분야의 주제를 빠르게 이해하고 습득하는데 의미있는 이정표 역할을 하는 듯 하다.

영화속의 주인공처럼 스승의 어깨너머로 지루한 인내와 맹목적인 신념을 가지고 이유도 모르고 배우고 익히고 따라하다 영화 끝날 때 즈음 내가 하던 일이 우주에서나 보일듯한 거대한 코끼리 석상을 조각하는 일이었다는 것을 깨닫게 되는 것도 의미있겠지만 처음부터 방향과 목표를 분명히 알고 출발했다면 주인공의 따분함과 괴로움을 해소하는데 큰 도움이 되지 않을까?

물론 이러한 방식의 구성은 스승, 즉, 경험이 풍부한 마스터만이 시전할 수 있는 구성법이다. 덕분에 이 책은 활용할 수 없는 좋은 예제로만 구성된 시맨틱 모델링 책과는 다른 차별점이 있으며 목표를 향해 나아가는데 덜 지치게 만들고 덜 심심하게 만들어주는 효과가 있는 듯 하다.

시맨틱 분야를 알면 알수록 인간의 사고는 확실히 언어적인 요소에 상당부분 지배된다는 것을 깨닫게 된다. 보다 철학적인 분야로 올라가면 플라톤의 이데아나 아리스토텔레스의 에이도스라는 개념에 이르를 것이다.

이 책은 이러한 시맨틱현상, 언어적 현상으로도 불리는 모델링을 어렵게 만드는 요소를 단계적으로 살펴본다. 1부에서는 일반적인 언어적 현상을 2부에서는 그로인해 발생하는 함정을 3부에서는 선택의 단계에 맞닥드리게 되는 딜레마를 다룬다.

앞서 시맨틱의 정의를 내리기가 쉽지 않음을 언급했는데 모델링을 위한 시작부터 이미 순조롭지 않다. 유사 분야의 온톨로지, 지식 그래프 등의 용어와 혼용되어 사용되는 것을 시작으로 데이터베이스 개발자, 온톨로지 공학자, 언어학 전공자가 바다로 향해 나아가는 삼각주에서 만난다.

같은 주제나 현상을 두고 데이터베이스 진영은 테이블, 필드, 기본키, 외래키 등의 용어로 표현하고, 온톨로지 진영은 객체, 클래스, 데이터 형식 속성 등의 단어를, 언어학 전공자는 유의어, 표제어, 동의어, 하위어라는 표현을 사용할 것이다.

시작부터 쉽지 않은 항해이다. 앞서 이데아, 에이도스에 비유하던 개념은 아래 그림처럼 구상, 추상 엔터티로 나뉠 수 있다. 사람이라는 추상은 홍길동, 김개똥,..등의 구상으로 변할 수 있다.추상

어떤 두 엔터티가 같은 것인지 판단하는 절차조차 쉽지 않다. 수학적 연산에 있어 가장 쉽다고 말할 수 있는 비교연산자조차 이 세계에서 활용되기는 쉽지 않다.동의어

N원 관게 패턴의 복잡함은 각 엔터티가 가질 수 있는 함정과 딜레마의 첫 출발선이기도 하다.N원 관게 패턴

시맨틱 현상으로는 대표적으로 모호성, 불확실성, 애매성 등을 들 수 있다.

모호성은 두가지 이상의 그럴듯한 해석이 가능한 상황이다. 예를 들어 “내가 트리폴리에서 태어났다”고 할 때 그 지역이 리비아, 레바논, 그리스 아르카디아 지방을 말하는 것으로 각기 해석될 수 있다.

불확실성은 진실을 결정할 수 없는 상태이다. 예를 들어 “지금 비가 올 것 같다.”는 잘 모르겠다는 의미를 내포한다.

애매성은 애매한 경계사례가 대표적인 예이다. “큰 키만 입장 가능”이라는 표지판에서 그 큰 키가 180cm를 말하는 것인지 200cm를 말하는 것인지 등의 문제이다.

나아가 잘못 정의되거나 잘못된 의미를 부여한 일의 여파, 규격이나 지식 측면에서 잘못된 모형을 구축하는 일 등의 함정 등을 고려해야 하고, 0 ~ 1사이의 실수로 피지화할지 하위 클래스로 보낼지의 여부, 세분화와 일반화의 정도 등 시맨틱 모델링이 가지는 딜레마에 이르기까지 저자의 경험을 기반으로 한 뛰어난 모델링을 위한 저자의 경험이 아낌없이 전개된다.

이 책은 또 하나의 이슈에서도 흥미로운 주제이기도 하다. 페드로 도밍고스가 저술한 “마스터 알고리즘”의 책에 등장하는 머신러닝의 다섯 종족 기호주의자, 연결주의자, 진화주의자, 베이즈주의자, 유추주의자에 관한 이야기의 연속이다.

시맨틱 진영만 놓고 본다면 기호주의자 대 나머지 머신러닝 진영의 대립으로 보여지기도 한다. 기호주의자의 의미론, 분류, 추론, 의미 연결 등의 아이디어는 시맨틱 진영에 고스란히 녹아있다.

반면 다른 머신러닝 진영은 알파고가 보여준 무한에 가까운 표현력에 가능성을 건다. 확실한 것은 무엇이 더 뛰어난가의 질문은 우매한 질문이다.

개인적으로는 시맨틱 진영의 해석가능함과 머신러닝 진영의 무한의 표현력이 만나게 되는 날이 인간이 진정으로 원하는 AI를 얻게 되는 날이 아닐까 싶다.

추가로 시맨틱의 전반적인 시스템 인프라 구축과 관련된 지식을 얻길 원하는 독자라면 이 책에서 관련 지식을 얻기는 힘들다. 대신 저자가 본문에서 추천하는 책을 참고하면 된다.

시맨틱 모델링의 전반적인 구성과정과 일반적 지식 역시 방대하게 다루진 않는다. 다만, 5장이 전체 설계에 있어 큰 그림을 그릴 수 있는 수준의 도움은 준다.DOLCE
BFO

끝으로 이 책의 내용은 가벼운 언어학적 상식으로 접근하자면 어렵지 않고 흥미롭게 읽을 수 있는가 하면 반대로 시맨틱 모델링에 대한 본격적인 접근을 위해서는 다소 난이도가 있는 책이기도 하디.

후자라면 NLP, 언어학에 어느 정도의 경험고 지식이 있는 독자여야 내용을 무리없이 파악하는데 도움이 될 것이다. 물론 시맨틱 진영이나 NLP 머신러닝 진영의 꿈을 가진 일반 독자라 할지라도 언어의 특성 등을 개념적으로 파악하고 나아갈 긴 여정의 지도를 그리는데 큰 도움이 될 수 있을듯하다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터로 전문가처럼 말하기 - 효율적 의사 전달을 위한 데이터 시각화와 비즈니스 스토리텔링의 기술
칼 올친 지음, 이한호 옮김 / 한빛미디어 / 2022년 8월
평점 :
장바구니담기


시각화와 의사소통을 중심으로 데이터의 표현과 커뮤니케이션 방법을 다룬 책이다.

책은 크게 세부분으로 나뉜다. 파트1에서는 소통 자체와 그 주제가 되는 데이터의 특성에 관해 다룬다.

소통의 주체는 물론 주요 이슈가 될만한 시장의 기대치, 경쟁사, 평가 외에도 감각, 단기, 장기 기억에 이르기까지 다양한 요소가 고려되어야 성공적인 데이터 커뮤니케이션이 가능해질 것이다.

그 중에서도 특히 주목할 만한 것은 사전주의 속성이라는 개념이었다.

사전주의 속성이란 쉽게 말해 의식적 노력없이도 직관적으로 시각적 특징이나 패턴을 인식할 수 있는 능력을 도출시키는 속성이다. 아래 그림과 같이 길이, 너비, 크기와 같은 속성에서 방향이나 색상, 그룹화와 같은 요소들이 해당된다.사전주의속성

이 속성 덕분에 큰 노력을 들이지 않고도 복잡하고 거대한 데이터를 직관적으로 알아볼 수 있는 여지가 생긴 셈이며 이는 시각화가 데이터 소통에 있어 얼마나 중요한 요소인지를 설명하는 근거가 된다.

책에서는 데이터가 가진 속성에 대해서도 면밀히 뜯어본다. 제대로된 시각화를 위해서는 데이터가 가진 숨은 속성을 제대로 이해하려는 능력이 중요하다.

대부분 개념적으로 이해하는 데이터를 형상화하라면 도표를 떠올릴 것이다. 열, 행, 헤더, 속성이라는 표를 구성하는 기본적인 요소 외에도 데이터에는 고려해야 할 사항이 많다.

범주형이나 숫자형이라는 개념도 더 깊이 들어가면 명목, 서열, 등간, 비율 척도로 나뉠 수 있고 더 나아가면 각 척도별 적용할 수 있는 사칙연산의 종류도 다르다.

특히 척도로써의 개념을 가지지 않은 일반적 문자의 경우 대소문자, 문자열의 분리, 오타와 같은 변수가 있으며 그 외에도 날짜나 불리언과 같은 특성도 있다. 이러한 특성은 히스토그램, 히트맵 등 다양한 시각화 유형별로 표현하는데 한계를 갖게 만드는 요소이다.

그 외에도 데이터는 센서, 스마트기기, 운영 시스템 등 다양한 곳에서 생산되며 엑셀이나 DB와 같은 다양한 형태로 저장되고 조인과 같은 가공이나 전처리가 가능하다는 특성이 있다.

시각화는 이러한 데이터와 커뮤니케이션의 특성에 종속되기에 시각화나 표현에 앞서 기본기를 다지는 구성이 본 책이 가지는 장점 중 하나라는 생각이 들었다.

파트2는 본격적으로 데이터를 시각화하는 방법과 더불어 시각화를 완성시키는 맥락 그리고 나아가 최종 소통에 이르기까지 일련의 과정과 방법을 살펴본다.

눈으로 직접보며 고민해 볼 수 있어 가장 읽기에 흥미로운 파트이자 투자 시간대비 배울 것이 많은 부분이기도 하다.

인상적인 몇가지 조언들을 소개해보자면 여러 범주가 사용된 막대차트에서 범주의 순서를 변경하여 표현력을 높이는 예제가 좋은 예시가 될 것이다.범주순서

얼핏 데이터를 표현하는데 각 범주의 순서가 있다는 것은 알지만 나아가 순서가 중요하다는 것을 알지라도 막상 데이터를 기반으로 무에서 유로 시각화를 진행하다보면 생각의 프레임에 갇혀 더 좋은 형태의 표현 방법을 뚫고 나오지 못한 채 우물안에 갇혀 버리는 경우가 허다하다.

위의 예시가 그런 흔한 경우로 자전거의 종류가 앞으로 나왔을 뿐인데 확연히 직관적으로 빠르게 이해할 수 있게 되었음은 물론 런던과 요크 매장의 확연한 대비가 돋보인다.

프로그래밍이나 수학 계산과 같은 속성과는 달리 왕도가 정해져 있지 않고 수많은 경우의 수가 존재하는 표현의 바다에서 어떻게 나와 청중 사이에 가장 빠르고 직관적인 길을 뚫어낼 수 있을까? 이는 분명 쉽게 익히기 어려운 일이고 감과 창의성의 영역이라는 생각이 든다.

이 경우의 수라는 바다에서 모든 길을 완벽하게 찾아낼 순 없겠지만 그래도 그 경우의 수를 최대한 좁혀주는 몇가지 기술적인 힌트가 있는데 이 책에서 그런 부분이 상당량 소개되고 있어 만족스러웠다.

앞서 언급한 사전주의 속성에 기반하여 아래 그림과 같이 색상을 과도하게 사용하는 것이 얼마나 부질없는 짓인지 이해할 필요가 있다.과도한색상

흔히 화려해보이거나 있어보이는 효과 때문에 색상을 선택하는 경우가 적지 않은데 오히려 그림5-5와 같이 색이 제거된 막대 차트가 확연히 시각자료가 말하고자 하는 것이 무엇인지를 보여준다.

이렇듯 다양한 시각화 도구에 있어 데이터 특성과 더불어 어떤 부분을 유의해야 할지 이 책을 통해 쉽게 이해할 수 있다.

조금 더 나아가면 흔히 착안하기 어려운 고급 시각화 기법도 배울 수 있다. 아래의 예시가 그러한 경우일텐데 고정된 X, Y 축 외에도 시가별로 동적으로 움직이는 흐름을 느끼며 작성자가 말하고자하는 메시지를 분명히 느낄 수 있다.고급기법

숙련된 경험이 없는 이라면 분명 하나의 그림으로 이 모든 것을 표현하기는 어려울 것이다. 최소 2가지 이상의 표현이 존재할 것이다.

파트3에서는 그동안 배운 스킬들을 기반으로 실무에서의 소통 방법을 포괄적으로 다룬다. 각 시각화 요소를 결합하여 한 차원 높은 단계인 인포그래픽으로 표현하는 방법을 배울 수 있다.인포그래픽

특히 사내 각 부서 특성에 따른 커뮤니케이션 방법을 다룬 부분이 마음에 들었다. 대부분의 IT부서는 수익을 창출한다기보다는 비용을 소모하는 부서이기에 비즈니스와 관련된 성과를 표현하기 어려운데 아래 그림과 같이 지원 사례 분석을 훌륭히 표현함으로써 존재감을 드러낼 수 있겠다는 생각도 들었다.IT지원사례

더불어 책에 드러나지 않지만 숨은 또 하나의 특징이 있다. 저자가 태블로 엠버서더여서 인지 어떤 데이터가 주어져도 적용해 볼만한 시각화 자동화 아이디어가 군데군데 숨어있다.

각양각색의 데이터 입맛에 맞게 1:1 시각화를 입히는 것은 최고의 의사소통에 도움이 될진 모르겠지만 적어도 이를 위한 시간과 노력이 상당히 필요하다.

최소한의 시간과 노력을 투자하여 어떤 자료가 주어지더라도 일단 기본적인 시각화를 표현해 보는 것도 이 창의적인 세계에서는 의사 소통에 큰 도움을 준다 생각한다. 이 책에는 이런 공통으로 적용할 만한 기법에 대한 아이디어도 많이 등장한다.

아무튼 시각화와 표현에 문외한이었던 내게 이 책은 큰 힌트를 주었다. 화이트리스트 적인 접근법이 어려운 분야이지만 거꾸로 블랙리스트적으로 이런 데이터는 이런 시각화는 피해야 겠다는 정리도 가능했다.

별 것 아닌것 같아보이지만 이런 몇가지 힌트가 시각화에서 중대한 오류를 범할 수 있게 도와줌은 물론 망망대해 창의의 바다에서 어떻게 첫 단추를 꿰어야 할지 경우의 수를 상당히 줄여줘 표현의 첫 출발 마음가짐을 가볍게 해준다.

데이터 분석의 전문가라할지라도 표현은 또 다른 영역이다. 데이터 기반의 표현과 소통이 부족한 입문자라면 이 책이 큰 도움을 줄 수 있을거라 생각한다.




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo