트랜스포머를 활용한 자연어 처리 - 허깅페이스 개발팀이 알려주는 자연어 애플리케이션 구축
루이스 턴스톨.레안드로 폰 베라.토마스 울프 지음, 박해선 옮김 / 한빛미디어 / 2022년 11월
평점 :
장바구니담기


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

허깅페이스(HuggingFace)는 자연어처리를 공부하다보면 만날 수 밖에 없는 라이브러리입니다. 2017년 "Attention Is All You Need" 논문을 통해 트랜스포머가 발표되고 이를 활용한 GPT, BERT가 발표된 이후 자연어처리는 완전히 트랜스포머의 세상이 되었습니다. 이러한 세상에서 다양한 트랜스포머 모델과 학습 스크립트를 제공하는 허깅페이스는 자연어처리 엔지니어에게 필수적인 라이브러리라고 할 수 밖에 없겠습니다. 본 책은 이런 허깅페이스를 껴안기(Hugging), 즉 이해하기에 도움을 주는 책이 아닌가 합니다.


4장부터 7장까지는 허깅페이스 라이브러리를 통해서 트랜스포머를 잘 이해할 수 있도록 도우면서도 다양한 자연어처리 태스크에 트랜스포머를 적용하는 방법을 잘 설명하고 있습니다. 책의 순서를 따라가는 것만으로도 개체명인식(NER), 텍스트 생성, 요약, QA 등 다양한 태스크에 트랜스포머를 적용하는 방법을 익힐 수 있습니다. 각 챕터별로 태스크에 사용할 수 있는 트랜스포머 모델을 설명하면서 (최신의 것과는 차이가 있을 수 밖에 없지만) 한 때 SOTA를 달성했던 모델에 대해 폭넓게 이해할 수 있었습니다. 특정한 태스크에 트랜스포머를 적용하기를 (특히, 허깅페이스 라이브러리를 사용기를) 원하는 독자분께서는 각 챕터를 발췌하여 읽는 것만으로도 큰 도움을 받으실 수 있을 것으로 생각합니다.


8장부터는 태스크에 국한되지 않고 개괄적인 내용을 설명하고 있는데요. 8장에서 트랜스포머를 효율적으로 사용하기 위한 방법으로 KD(Knowledge Distillation), 양자화(Quantization) 등을 소개하는 부분이 인상적이었습니다. 또 마지막 장에서 트랜스포머 모델의 한계점이나 향후에 발전해나가야 할 방향을 제시하면서 자연어처리를 연구하는 리서처에게 더 많은 연구거리를 제시한 점도 인상깊게 다가왔습니다.


트랜스포머를 사용하여 문제를 풀고 싶은 엔지니어 뿐만 아니라 향후 자연어처리를 연구하고자 하는 연구자 꿈나무라면 한 번 쯤 읽어봐야 할 책이라고 생각합니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬 라이브러리를 활용한 텍스트 분석 - 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략
젠스 알브레히트.싯다르트 라마찬드란.크리스티안 윙클러 지음, 심상진 옮김 / 한빛미디어 / 2022년 10월
평점 :
장바구니담기


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


정확한 시점을 지정할 수는 없겠으나 SNS를 통한 트렌드 혹은 리뷰 분석 등으로 텍스트 데이터 분석이 주목을 받은 지도 이제는 거의 10년이 다 되어갑니다. 특히 자연어처리 기술의 급부상으로 인하여 텍스트 데이터에 대한 관심이 더욱 늘어났는데요. 2-3년 전만 하더라도 텍스트 데이터 처리에 대한 자료를 일목요연하게 정리해 놓은 텍스트북이 많지 않았습니다만, 이제는 시중에 많은 텍스트 데이터 처리 혹은 자연어처리 서적이 나와있습니다.


이번에 보게 된 책도 다른 서적과 마찬가지로 텍스트 데이터 처리를 위한 전반적인 내용을 다루고 있습니다. 해당 서적의 목차 대부분은 같은 출판사에서 나온 다른 텍스트 데이터 텍스트북에서도 확인할 수 있는데요. 그렇기에 책을 처음부터 끝까지 살펴보며 아주 특별한 점을 느끼지는 못했습니다만, 그래도 해당 서적을 골라야만 하는 이유를 말씀드려보고자 합니다.



- 다른 서적에서는 잘 다루지 않는 'XAI', '지식 그래프', '프로덕션'


1) 첫 번째로 책의 7장('텍스트 분류기')에서 다루고 있는 분류 결과 설명에 대한 내용입니다. 텍스트 데이터 역시 Tabular 데이터 만큼이나 설명 가능(eXplainable)성이 많이 요구된다고 생각합니다. 텍스트 데이터를 다루는 각종 경진대회 발표를 보면 다양한 알고리즘을 사용하여 자신의 알고리즘에 대해 설명하는 모습도 볼 수 있는데요. 본 책에서는 XAI를 다루는 책에서나 볼 수 있었던 LIME, ELI5 등의 알고리즘을 통해 텍스트 데이터 분류 결과를 설명하는 방법에 대해 소개하고 있습니다.


2) 두 번째는 12장에서 다루는 지식 그래프입니다. QA와 같은 분야에서 정확한 답변을 하는 인공지능 구현을 위해 지식 그래프 기술에 많이 기대고 있습니다. 아주 큰 라지 스케일 모델이라도 특정 도메인의 지식에 대해서 물어보면 잘못된 대답을 하는 경우가 많은데요. 도메인이 한정된 분야에서는 지식 그래프를 통해 이를 해결하고자 하는 경향을 보여주기도 합니다. 이런 분야에서 지식 그래프 구축과 활용은 중요할 수 밖에 없는데요. 그럼에도 많은 텍스트 데이터 관련 서적이 이에 대해서는 자세히 다루고 있지는 않았는데, 깊이는 얕지만 이런 부분까지 커버하고 있다는 점이 인상적으로 다가왔습니다.


3) 마지막은 책의 끝부분에서 다루고 있는 프로덕션입니다. 모델을 연구-개발 했다면 마지막으로 서빙하는 단계로 넘어가야 하는데요. 이 단계에서 효율적인 프로덕션 방법이 고려되지 않는다면 미쉐린 3성급 요리를 만들어 놓고도 주방 밖으로 내지 않는 것과 같다고 할 수 있겠습니다. 텍스트 데이터를 다루는 모델이 어떻게 프로덕션 단계로 이어져 사용자에게 닿을 수 있는지 알고 싶은 분은 마지막 챕터를 주목해주시면 좋겠습니다.



책 자체는 나쁘지 않으나 이미 비슷한 주제를 다룬 책이 많다는 점에서(=책의 질과는 상관없이 타이밍에서) 아쉽다는 생각이 드네요. 본 책의 원어 제목이 'Blueprints(청사진)'으로 시작하는 만큼 텍스트 데이터 분석에 대해 개괄적인 지식을 가지고 있거나 다른 텍스트북을 가지고 있다면 굳이 살 필요는 없다고 생각합니다.

하지만 위에 소개드린 내용에 관심이 있거나, 아직 텍스트 데이터에 대해 개괄하는 책을 마땅히 정하지 못한 분에게는 책을 강력히 추천드릴 수 있겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
파이썬 기반 금융 인공지능 - 파이썬과 케라스를 활용한 금융 시계열 데이터 기반 알고리즘 트레이딩 전략
이브스 힐피쉬 지음, 김도형 옮김 / 한빛미디어 / 2022년 9월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


해외 선물 투자를 하는 주변 지인이 있다. 전업은 아니지만 승률이 나쁘지는 않은 것으로 알고 있다. 필자는 투자를 하지 않지만 그 지인분과 만날 때마다 투자기(?)를 전해듣는 편이다. 지인의 가장 큰 문제는 "(본인이 나름대로 정해둔) 규칙대로만 하면 따는데, 사람이라 그런지 돈을 잃는 순간 규칙대로 행동하기가 어렵다."이다. 사람인지라 실제 돈이 걸리면 편향이나 휴리스틱이 작동하게 되고 이 때문에 손실 시에 AI처럼 행동하기가 어렵다는 것이다.


이러한 사람의 편항을 극복하기 위해 수 년 전부터 인공지능 퀀트가 핫 키워드로 떠오르고 이를 주력으로 하는 스타트업도 많이 등장했다. 편향이나 휴리스틱이 없는 인공지능 퀀트가 인간보다 유리해 보이긴 하지만 아직 인공지능의 수준이 그 정도는 아닌 것 같다. 만약 그렇다면 인공지능 모델 기반의 펀드투자사가 떼돈을 벌었겠지만 그렇지 않은 걸 보면 말이다. 필자도 궁금해서 약 2년 전부터 모 인공지능 펀드를 운영하는 스타트업에 주기적으로 돈을 넣고 있지만 수익률이 엄청 높지는 않다. (물론 금액이 적기에 그럴 수도 있고, 하락장에서 원금 안까먹은거 보면 그것만으로도 대단하긴 하지만...)


아무튼 이제는 개인 투자자 단에서도 인간의 편향을 극복하기 위해서 (꼭, 딥러닝이 아닌 룰베이스 일지라도) 인공지능 모델을 구현하고 돌려보려는 사람이 많아지고 있다. 이 책은 인공지능을 투자에 도입해보려는 투자자에게 바이블로 적절한 책이라고 할 수 있다. 이전 책에서도 금융에 기술을 접목하는 주제로 집필했던 저자는 이번 책에서는 본격적으로 인공지능을 접목하고자 했다.


해당 책의 앞부분에서는 금융관련 지식을 간략하게 커버하고 있으며 관련된 인공지능 모델도 처음부터 끝까지 훑고 있다. 책에서 재밌었던 부분은 Part 4. 다. 모델링이 잘 되는 것은 차치하고서라도 어떤 모델이든 백테스팅 이후에 모델을 도입하고 배포하기 마련인데, 근래의 서적 내용은 모델링 쪽에 치우쳐있고 해당 부분은 짧게 다루는 부분이 많았다. 이번 책에서는 실전에 모델을 접목하는 것까지 다루고 있는 만큼 해당 부분이 생각보다 자세해서 마음에 들었다.


책이 넓은 부분을 다루고 있는 것은 사실이지만 결국은 알고리즘을 어떻게 짜고 어떤 데이터를 통과시키고 이를 얼마나 딜레이 없이 배포하느냐의 문제다. 즉, 책을 따라서 모델을 만든다고 돈을 벌지는 못한다. 따라서 인공지능을 통해서 투자에 입문하려고 하기 보다는, 투자에 대한 본인의 철학을 갖춘 후에 해당 책을 읽고 자신의 '그 철학'을 코드로 구현해내면 좋을 것이다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터로 전문가처럼 말하기 - 효율적 의사 전달을 위한 데이터 시각화와 비즈니스 스토리텔링의 기술
칼 올친 지음, 이한호 옮김 / 한빛미디어 / 2022년 8월
평점 :
장바구니담기



"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


많은 분이 아시는대로 "구슬이 서 말이라도 꿰어야 보배다"는 '아무리 좋은 것이라도 쓸모 있게 만들어 놓아야 값어치가 있음'(출처: 네이버 국어사전)을 이르는 속담인데요. 이 말은 최근 중요시되고 있는 '데이터 리터러시'와도 관련이 있는 듯합니다.

지난 8월 25일, 코엑스에서 있었던 Tableau Datafest 2022의 키노트 세션의 제목은 'Self-BI: 혁신으로 가는 큰 걸음' 이었는데요. 아모레퍼시픽의 홍성봉 상무님께서 '(데이터 스페셜리스트 뿐만 아니라) 현장에 계신 구성원이 스스로(Self) 데이터를 활용할 수 있는 환경을 갖추어야 한다'는 내용을 주제로 30여분 간의 세션을 채워주셨습니다. 개인적으로는 굉장히 인상적인 발표였는데요. 이외에도 마켓컬리, 삼성전자, 녹색기후기금에서 각 조직에 데이터 리터러시를 배양해온 과정에 대해서 발표해주셨습니다.


이 날 발표를 듣고 최근 몇 년간 강조되던 '빅데이터' 보다는 '사용할 수 있는, 즉 소통할 수 있는 데이터'라는 키워드에 대해 조금 더 주목하게 되었는데요. 마침 한빛미디어 신간으로 해당 주제에 맞는 책이 출간되어 신청하게 되었습니다. 그리고 공교롭게도 저자가 Tableau Zen Master 이자 Tableau 앰배서더를 여러 번 역임했다는 점이 인상 깊었습니다.


앞에 서론을 길게 깔았듯, 복잡한 분석 기법이나 통계적 지식을 기대하는 독자에게 적절한 책은 아닙니다. 원제인 'Communicating with Data' 처럼 데이터를 (분석의 대상이 아닌) 소통의 도구로 사용하는 직군의 독자에게 더욱 어울리는 책이라고 생각합니다.


책에서는 데이터에서 어떤 부분을 읽어내야 하며, 읽어낸 내용에 대해서 다른 사람에게 어떤 방법으로 설명하면 좋을지에 대해 다루고 있습니다. 개인적으로 책 내용 중에서 인상적인 것은 Part 3. 에 해당하는 '실무에서 데이터 커뮤니케이션의 활용'이었습니다. 같은 데이터를 설명하더라도 어떤 사람에게 설명해야 하는지에 따라 취해야하는 전략이 다를 텐데요. 책에서는 '표 vs 시각화 자료', '정적 vs 대화형' 등 다양한 케이스를 들어 설명하면서 그 사이의 균형점을 찾는 법에 대해서도 짧게 언급해주고 있습니다. 게다가 이를 바탕으로 각 부서에서는 데이터를 어떤 방향으로 활용하면 좋을 지에 대해서도 팀마다 짧게 언급해주고 있는데요. 사전에 제가 기대했던 방향인 '현장에서의 데이터 사용, 데이터 소통'과 일맥상통하는 부분이 많아 재미있고 몰입도 있게 읽을 수 있었습니다.


단순히 책의 내용뿐만 아니라 인포그래픽을 설명하기 위해 책을 풀 컬러로 구성해 주신 부분도 좋았습니다. 덕분에 저자의 설명을 더 쉽게 이해할 수 있었습니다. 현장에서의 데이터 사용이 궁금하고, 이에 대한 힌트를 얻고자 하시는 현업자라면 읽어볼 만한 책이라고 생각합니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
지금 당장 실천하는 서비스 디자인 씽킹 - 아이디어부터 프로젝트팀 운영까지 서비스 디자인 씽킹 실무 방법론 Must Have
배성환 지음 / 골든래빗(주) / 2022년 6월
평점 :
장바구니담기


"골든래빗 출판사로부터 책을 제공받아 작성했습니다."

<지금 당장 실천하는 서비스 디자인 씽킹> 서평


회사에서 필요로하거나 사이드로 진행하는 프로젝트의 아이디어를 구체화 할 때면, 첫 발을 떼기 막막한 경우가 많습니다. 실제로 처음 프로젝트를 할 때에는 어디서부터 어떻게 시작을 해야 하는지도 쉽지 않았는데요. 책에서 말하고 있는 '서비스 디자인 씽킹' 방법론, 즉 '고객 중심의 사고 방법'은 아이디어를 발견하고 이를 구체화해야 하는 상황에서 큰 효과를 발휘합니다.


더구나 고객이 다분화되고 서비스는 그에 맞추어 더욱 날카로워져야 하는 상황에서, 고객 중심의 사고는 어떤 쪽으로 가야 할 지를 결정하는 나침반의 역할을 해줍니다. 본 책에서는 고객 중심의 사고 방식이 익숙지 않은 사람에게 조금 더 쉽게 접근할 수 있는 사고 방식과 프레임워크를 자세하게 설명하고 있습니다.


1장 에서는 서비스 디자인 씽킹, 즉 고객 중심으로 사고하는 것이 지금 왜 필요한 지에 대해서 설명합니다. 그리고 2장과 3장에 걸쳐서는 서비스 디자인 씽킹을 적용하는 프로세스는 어떻게 되며, 현장에서는 이를 어떻게 적용할 수 있는 지를 알려줍니다. 방금 말씀드린대로 ‘현장에 맞게 설명해준다’는 점이 책에서 가장 인상 깊었는데요. 프로세스를 정해진대로 전부 적용하는 것이 아니라, K-스러움(?)에 맞게 어떤 부분은 빼도 되는지, 혹은 어떤 부분은 필수로 진행해야 하는지를 짚어준 점이 좋았습니다.


기존에 고객 중심의 방법론을 하지 않던 기업이, 고객 중심의 서비스 디자인 씽킹 방법론을 채택하는 것은 **‘코페르니쿠스적 전환(Copernican Revolution)’**이라 할 수 있습니다. 그만큼 현장에서 받아들이기 어렵고, 받아들인다고 하더라도 실천하기가 쉽지 않은데요. 그런 사람, 즉 말 그대로 ‘(현장에서) 지금 당장’ 이런 전환을 시도하는 사람과 조직이 이를 어떻게 실천해야 할 지 고민중이라면 해당 책이 좋은 안내서가 될 것입니다.


https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=296384130&start=slayer


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo