-
-
파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
파이썬을 바탕으로 AI개발은 이세돌과 알파고 대전 이후 많은 분야에서 투자도 하고 인력도 늘리는 추세이다.
비단 강화 학습뿐만 아니라 자연어 처리 등 다양한 분야에 기대가 큰 상황 속에 꾸준히 관심을 두는 분야는 텍스트 부분인데요.
텍스트 분석을 처음 접하는 분들에게 추천해 드릴만한 책이 있어서 소개해드리려고 합니다.
바로 ‘파이썬 라이브러리를 활용한 텍스트 분석’입니다.
이 책은 뉴스 등 텍스트 데이터 분석할 방법들이 상세히 서술돼 있어서 초보자분들도 쉽게 이해할 수 있습니다.
그럼 두 가지 정도로 요약해 보도록 하겠습니다.

1) 데이터 수집 > 데이터 전처리 > 데이터 분석 > 시각화
데이터 처리를 할 때 제일 어려운 부분은 분석할 데이터가 없는 것입니다.
그럴 때 다른 곳에서 몰래 가져와서 쓰면 저작권에 위배될 수도 있어서 꺼림직하죠.
데이터를 관리하는 분이나 분석할 때는 어떻게 수집할지 있는 데이터를 어떻게 가공할지 생각을 많이 하는 게 중요합니다.
어떻게 생각을 할 수 있을까요?
이 책을 통해서 보면 데이터를 추출하는 개념부터 API 등에서 가져오는 방법까지 상세히 설명해 줍니다.
전체 사이클 한번 보는 것과 안 보는 것은 개념을 잡는 데 있어서 큰 차이가 납니다.
전체적인 그림을 이 책을 통해서 분석이 처음인 분들에게 추천합니다.

2) 영어 참 좋지만, 여긴 ‘한국’
이 책에 아쉬운 점은 한국어에 대한 분석이 없는 점입니다.
세계 공용어라 영어로 된 분석 자료들은 즐비합니다.
논문들만 봐도 한국어로 된 좋은 논문을 찾기 어려운 것처럼 말이죠
하지만, 한국에서 비즈니스를 할 때 어순 문제, 말뭉치 문제 등 이슈가 크게 다가올 것입니다.
그러한 점들은 차차 영어로 된 베이스에서 텍스트 분석을 해보시면서 맥락을 이해하시고 다양한 데이터들을 수집한 후 도전해 보시면 쉽지는 않지만 노하우가 쌓이겠다고 생각합니다.

Ps
오랜만에 텍스트 분석에 관련된 책을 읽었는데요.
다양한 라이브러리를 쓰는 방법을 잘 설명해 주고 있어서 좋았고 코드 들도 쉽게 작성돼 있어서 실습하기 편했습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”