-
-
파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
이런 와중 이 책을 받았다. 시의적절하다고 할 수 있다. 파이썬 라이브러리를 활용한 텍스트 분석이라는 책인데, 고난도 자연어처리까지는 아니지만 어떻게 텍스트 데이터를 컴퓨터를 활용하여 처리할 수 있는지 알려준다. 최신 머신 러닝 내용까지는 아니지만, LDA나 NMF와 같은 전통적인 분석 방식과 텍스트 임베딩 정도 수준까지 나온다. 사실 분석도 분석인데, 이 책 앞부분은 데이터를 어떻게 모을지, 어떤 식으로 다루는지에 대한 내용도 꽤 있다.
표지는 다음과 같고, 파이썬 라이브러리 기반 책이라 그런지 뱀이 그려져 있다.
옮긴이의 말이 인사이트가 좀 있었다. 컴퓨터는 여러 종류의 데이터 중 텍스트를 가장 이해하기 어려워한다 하였고, 컴퓨터가 데이터를 잘 이해할 수 있도록 만드는 것은 결국 우리의 몫이다.
5번 목차 (특성 엔지니어링 및 구문 유사성)와 10번 목차 (단어 임베딩으로 의미 관계 탐색)에는 꽤 유용하고 읽을만한 내용들이 수록되어 있다. 특히, 임베딩은 머신 러닝에서 정말 유용하고 넓게 사용되는 개념인데, 임베딩의 정의부터 프리트레인 모델에서 얻은 임베딩 벡터를 기반으로 분석하는 방법을 소개한다. 임베딩을 이용해 데이터를 처리하는 것은 꼭 자연어 처리가 아니더라도 넓게 사용되는 기법이라 유용할 것이다.
또, 이 책에는 이런 Warning 이 중간중간 나온다. 독자들이 따라 해 보다가 마주할 수 있는 문제들을 미리 예상해서 해결법을 적어놓은 것인데, 저자의 전문성과 센스를 엿볼 수 있었다.
이 3개의 사진은 책을 읽다 보며 내가 반가워서 찍은 부분들이다. 나는 자연어 처리를 다루지는 않지만, 행렬 기반으로 수학적으로 뭘 좀 진행하다 보니 이런 개념들을 자주 보게 된다. 비음수분해 (NMF; Non-negative matrix factorization)의 경우에도 자연어처리에서 사용이 된다는 것은 알고 있었는데, 여기서 다시 마주했다.
이 책은 ChatGPT가 엄청난 센세이션을 불러일으키고 있는 현재 참 시의적절한 책이다. 특히, 컴퓨터 비전이 압도적인 레드오션이라고 평가되고 있는 현재, 자연어처리의 경우는 비교적 괜찮은데, 이 책이 기초가 될 것이다