NLP(Natural Language Process) 분야는 또 하나의 머신러닝의 장이다. 하지만, 일반적인 시각적 이미지를 대상으로 하는 것과 언어를 대상으로 하는 것에는 많은 차이가 존재한다. 이미지는 직관적으로 어떻게 분류할지를 알 수 있는 경우가 빈번하지만, 언어가 대상인 경우는 그렇게 직관적이지 않다.
그리고 그런 어려움이 있기 때문인지, 계속 변화하면서 발전하기 때문인지, 적당한 책을 찾기가 힘든 것 같다. 최근 NLP Deep Learning 과는 관련이 많지 않지만, NLP 의 다양한 영역을 소개하는 책은 아래 책이다.
언어학 지식과 NLP 의 다양한 지식이 잘 소개되어있다.
정보검색에 관한 책은 한권이 번역되어 있었다. 구입해놓고 아직 배송되지 않아 정확하지는 않지만, VSM(vector space model)을 이용해 정보검색을 구축하는 방법이 설명되어 있다고 한다.
지금은 거의 자동으로 전처리 과정을 거치고, 언어의 의미에 관한 표현을 학습시키고 좋은 결과물을 내는 것이 현재의 NLP Deep Learning 이다. VSM은 시작점에 불과하고, 일반적인 다층 layer deep learning 과도 조금은 다른, 자연언어의 의미를 포착하려는 미묘한 노력들이 계속 진행되고 있다.