파이썬 라이브러리를 활용한 머신러닝 - 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서, 번역개정판
안드레아스 뮐러.세라 가이도 지음, 박해선 옮김 / 한빛미디어 / 2019년 3월
평점 :
구판절판


저는 정부 재정, 사용자 행동 분석 등 다양 데이터를 보면서 사람을 이해하고 해설해 주는 일을 합니다.

 

데이터를 볼 때마다 느끼는 점은 각양각색으로 데이터를 생산하는 사람마다 같은 일이지만 틀이 다르고 정리가 되지 않는 것을 봅니다.

 

그럼 하나부터 열까지 다 본 후 데이터를 제가 만든 틀로 정형화되게 만드는 작업을 합니다.

 

작업이 되면 데이터들이 무엇을 뜻하는지 지역별, 부처별 등 변숫값들을 확인 후 데이터를 비교 하게 돼죠.

 

그럼 의미 있는 스토리를 만들어서 기사로 작성하거나 웹, 모바일 등으로 제작을 할 때도 있습니다.

 

한발 더 나아가 머신러닝으로 비어 있는 값들을 채우거나(중간값 등) 분류 하는 일에 자주 사용합니다.

 

머신러닝 쪽 라이브러리에 관련해 주로 사용하는 것은 scikit-learn 라이브러리를 자주 사용하는데요.

 

이 라이브러리의 핵심 개발자인 안드레아스 뮐러가 쓴 책을 2년전에 보면서 감을 잡게 됐습니다.

 

최근에 개정판이 나온 소식을 듣고 복습 차 다시 읽게 돼 후기를 남겨 보려고 합니다.

 

1. 머신러닝은 무엇인가?

머신러닝은 데이터에서 지식을 추출하는 작업을 말하는데요. 통계학, 인공지능 등 컴퓨터 과학에 얽혀 있는 연구 분야이며 예측 분석이나 통계적 머신러닝으로 불립니다.

 

예를 들어 가장 많이 사용되는 곳은 넷플릭스입니다.

영화 추천을 해주는 일로써 사용자 층을 빠르게 넓혀 갔습니다.

 

또한 페이스북, 아마존 등 복잡한 웹사이트 들에서도 광고를 노출 할때에도 사용된다고 합니다.

 

2. 풀 수 있는 문제는 무엇인가?

대표적으로 머신러닝에서 자주 사용하는 방식은 바로 지도 학습입니다.

이 알고리즘은 사용자가 입력 값과 기대하는 값을 제공해서 학습을 하는 방식인데요.

주로 스팸 분류 문제에서 사용됩니다.

스팸메일을 보게 되면 이메일을 입력 값을 놓고 기대값을 스팸 메일로 제공 합니다.

 

그럼 머신 러닝 알고리즘이 앞으로 올 이메일을 스팸인지 아닌지 예측을 해서 분류해 줍니다.

 

Ps

이번 개정판은 컬러로 시각화에 공을 많이 들은 것으로 보입니다.

책의 코드들은 간결하고 깔끔하게 짤 수 있도록 팁이 많이 제공돼 머신러닝을 처음 익히는 분들과 복습하는 분들에게 추천해 드립니다!




댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo