-
-
머신러닝 엔지니어링 - 데이터 수집부터 특징 공학, 모델 평가, 배포, 유지보수까지, 2022년도 대한민국학술원 선정 교육부 우수학술도서 ㅣ 제이펍의 인공지능 시리즈 (I♥A.I.) 36
안드리 부르코프 지음, 구정회 옮김 / 제이펍 / 2021년 12월
평점 :
비즈니스에서 가장 중요한 것은 기획입니다.
기획이 잘 돼야 가설을 검증하며 방향성이 맞는지 확인할 수 있습니다.
머신러닝에서도 데이터를 수집하고 특징을 만드는 것이 중요합니다.
머신러닝에 관심 있는 분들에게 소개해드릴 책이 있습니다.
소개해 드릴 책은 ‘머신러닝 엔지니어링’입니다.
저자는 15년간 인공지능 관련 문제를 고민해왔습니다.
가트너의 머신러닝 개발팀의 리더이기도 했는데요.
리더의 시선으로 바라본 머신러닝에 대해 읽고 중요하다 느낀 부분을 말해보겠습니다.

◆ 특징 공학
머신러닝을 잘하려면 특징을 잘 찾아야 합니다.
데이터에서 의미 있는 값을 추출하는 건데요.
머신러닝 알고리즘과 라이브러리는 모든 특징이 수치형입니다.
범주형 특징을 숫자로 변환하는 과정이 있습니다.
변환을 할 땐 원-핫 인코딩과 평균 인코딩 기술을 사용합니다.
그러면 여기서 어떤 특징을 좋은 특징으로 볼 수 있을까요?
이해하기 쉽고 설명하기 쉬운 특징을 말합니다.
좋은 특징은 예측력이 높고 빠르게 계산이 가능합니다.
또한 신뢰할 수 있고 서로 상관관계가 없어야 합니다.

◆ 모델 훈련
모델 훈련을 하기 전에 해야 할게 있습니다.
스키마 적합성을 검증해야 하는데요.
검증하려면 먼저 달성 가능한 성능 수준부터 정의해야 합니다.
성능 수준을 잘 설정해야 모델의 성능을 측정할 수 있습니다.
모델 간 비교하려면 지표를 정하고 기준선을 설정하는 것이 중요합니다.
모델훈련은 머신러닝 프로젝트에서 과대평가 된 활동으로 볼 수 있습니다.
프로젝트의 수명 주기 중 모델훈련에 사용되는 시간은 5~10% 정도 밖에 사용하지 않습니다.
한마디로 모델 훈련보단 데이터 수집, 준비, 특징 공학이 더 중요하다고 볼 수 있습니다.

끝으로 이 책은 머신러닝을 알려주는 책으로 머신러닝에 대해 자세히 알려줍니다.
한 주제와 관련해 꼼꼼하게 서술되어 있고 끝부분에 한 번 더 요약 내용도 있습니다.
머신러닝의 전체적인 프로세스를 알아야 업무를 할 때 수월하게 할 수 있습니다.
머신러닝 전반적인 과정이 궁금하신 분들에게 이 책을 추천합니다.
