스파크를 이용한 자연어 처리 - 대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다
앨릭스 토머스 지음, 이창현 옮김 / 한빛미디어 / 2021년 8월
평점 :
장바구니담기




Spark NLP는 아피치 스파크 및 스파크 ML에 기반을 두고 구축된 오픈 소스 자연어 처리 라이브러리입니다. 자연어 처리는 텍스트를 이해하거나 추론해야 하는 많은 데이터 과학 시스템의 핵심 구성요소를 말하는데요. 이번 스파크를 이용한 자연어 처리 저서를 통해 기본 사항과 구성요소, 언어학 기반의 여러 개념과 용어들 그리고 NLP 라이브러리 기반의 애플리케이션 프로젝트에 관해 쉽게 이해할 수 있는 내용을 담고 있습니다.



스파크를 이용한 자연어 처리는 크게 4부로 나눠집니다.

1부에서는 아파치 스파크의 기본 환경 설정, 언어학, 문자 체계 및 Spark NLP 라이브러리를 설명하고 딥러닝 기초로서 신경망에 대해서 다룹니다.

 

2부에서는 자체 NLP 기술을 구축하는데 필요한 여러 가지 기술을 소개합니다. 이들의 기술의 종류와 작동 방법을 이해하면 자신의 애플리케이션에 적용할 수 있습니다.

 

3부에서는 이전 내용을 바탕으로 NLP 애플리케이션을 구축하는데요. 소프트웨어 공학, 데이터 과학 그리고 언어학이라는 세 가지 관점을 염두에 두어야 하는 점입니다.

 

4부에서는 NLP 시스템 기반에서 제품으로 만들 때 고려할 여러 사항을 다룹니다.



자연어 처리 애플리케이션을 개발하고 싶은데 어디부터 시작해야 할지, 어떤 도구를 사용해야 좋을지 고민하는 분들에게 Spark NLP는 답을 제시해줍니다. 스파크를 이용한 자연어 처리 저서는 친절하고 다양한 예시, 영화 리뷰 작성자의 감정 분석하기, 지식 베이스 구축하기 등 실용적인 예제 실습들이 있습니다. 이뿐만 아니라 응용력 강화를 위한 요소 제공을 해줍니다.



자연어 처리는 사람과 기계를 소통할 수 있게 만든 기술로 최근에는 의료 산업, 기계번역, 작문, 챗봇과 같이 데이터를 분석해 서비스를 제공하는 애플리케이션의 개발과 기술 도입이 활발하게 확대되고 있는데요. 스파크를 이용한 자연어 처리는 데이터를 잘 분석하고 처리하기 위해서 언어학, 데이터 과학, 소프트웨어 공학 측면에서 이를 살펴봐야 한다는 새로운 관점을 제시해줍니다. 이 책을 통해 Spark NLP 사용법과 NLP 애플리케이션을 현명하게 구현하는 방법을 배워 자연어 처리 전문가가 되어 보시길 바랍니다.

 

예제 코드는 깃허브 저장소에서 내려받을 수 있습니다.

github.com/jamsuham75/spark-nlp-book

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo