파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
장바구니담기


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


정확한 시점을 지정할 수는 없겠으나 SNS를 통한 트렌드 혹은 리뷰 분석 등으로 텍스트 데이터 분석이 주목을 받은 지도 이제는 거의 10년이 다 되어갑니다. 특히 자연어처리 기술의 급부상으로 인하여 텍스트 데이터에 대한 관심이 더욱 늘어났는데요. 2-3년 전만 하더라도 텍스트 데이터 처리에 대한 자료를 일목요연하게 정리해 놓은 텍스트북이 많지 않았습니다만, 이제는 시중에 많은 텍스트 데이터 처리 혹은 자연어처리 서적이 나와있습니다.


이번에 보게 된 책도 다른 서적과 마찬가지로 텍스트 데이터 처리를 위한 전반적인 내용을 다루고 있습니다. 해당 서적의 목차 대부분은 같은 출판사에서 나온 다른 텍스트 데이터 텍스트북에서도 확인할 수 있는데요. 그렇기에 책을 처음부터 끝까지 살펴보며 아주 특별한 점을 느끼지는 못했습니다만, 그래도 해당 서적을 골라야만 하는 이유를 말씀드려보고자 합니다.



- 다른 서적에서는 잘 다루지 않는 'XAI', '지식 그래프', '프로덕션'


1) 첫 번째로 책의 7장('텍스트 분류기')에서 다루고 있는 분류 결과 설명에 대한 내용입니다. 텍스트 데이터 역시 Tabular 데이터 만큼이나 설명 가능(eXplainable)성이 많이 요구된다고 생각합니다. 텍스트 데이터를 다루는 각종 경진대회 발표를 보면 다양한 알고리즘을 사용하여 자신의 알고리즘에 대해 설명하는 모습도 볼 수 있는데요. 본 책에서는 XAI를 다루는 책에서나 볼 수 있었던 LIME, ELI5 등의 알고리즘을 통해 텍스트 데이터 분류 결과를 설명하는 방법에 대해 소개하고 있습니다.


2) 두 번째는 12장에서 다루는 지식 그래프입니다. QA와 같은 분야에서 정확한 답변을 하는 인공지능 구현을 위해 지식 그래프 기술에 많이 기대고 있습니다. 아주 큰 라지 스케일 모델이라도 특정 도메인의 지식에 대해서 물어보면 잘못된 대답을 하는 경우가 많은데요. 도메인이 한정된 분야에서는 지식 그래프를 통해 이를 해결하고자 하는 경향을 보여주기도 합니다. 이런 분야에서 지식 그래프 구축과 활용은 중요할 수 밖에 없는데요. 그럼에도 많은 텍스트 데이터 관련 서적이 이에 대해서는 자세히 다루고 있지는 않았는데, 깊이는 얕지만 이런 부분까지 커버하고 있다는 점이 인상적으로 다가왔습니다.


3) 마지막은 책의 끝부분에서 다루고 있는 프로덕션입니다. 모델을 연구-개발 했다면 마지막으로 서빙하는 단계로 넘어가야 하는데요. 이 단계에서 효율적인 프로덕션 방법이 고려되지 않는다면 미쉐린 3성급 요리를 만들어 놓고도 주방 밖으로 내지 않는 것과 같다고 할 수 있겠습니다. 텍스트 데이터를 다루는 모델이 어떻게 프로덕션 단계로 이어져 사용자에게 닿을 수 있는지 알고 싶은 분은 마지막 챕터를 주목해주시면 좋겠습니다.



책 자체는 나쁘지 않으나 이미 비슷한 주제를 다룬 책이 많다는 점에서(=책의 질과는 상관없이 타이밍에서) 아쉽다는 생각이 드네요. 본 책의 원어 제목이 'Blueprints(청사진)'으로 시작하는 만큼 텍스트 데이터 분석에 대해 개괄적인 지식을 가지고 있거나 다른 텍스트북을 가지고 있다면 굳이 살 필요는 없다고 생각합니다.

하지만 위에 소개드린 내용에 관심이 있거나, 아직 텍스트 데이터에 대해 개괄하는 책을 마땅히 정하지 못한 분에게는 책을 강력히 추천드릴 수 있겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo