-
-
머신러닝을 위한 실전 데이터셋 - 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기
칼리드 엘 에맘 외 지음, 심상진 옮김 / 한빛미디어 / 2021년 1월
평점 :
[한줄평]
실전 데이터셋을 마스터 하고 싶다면 바로 이책이다.
[목차]
CHAPTER 1 합성 데이터 생성 소개
CHAPTER 2 데이터 합성
CHAPTER 3 시작: 분포 적합
CHAPTER 4 합성 데이터의 효용성 평가
CHAPTER 5 데이터 합성 방법
CHAPTER 6 합성 데이터의 신원 식별
CHAPTER 7 실제 데이터 합성
[이 책의 특징]
- 다변량 정규 분포를 사용해 합성 데이터 생성하기
- 다양한 적합도 메트릭을 분포 적합하기
- 원본 데이터 구조를 복제하기
- 관계가 복잡한 데이터를 모델링하기
- 데이터 효용성을 평가하는 방식과 측정 기준 정하기
- 실제 데이터를 분석해 합성 데이터를 복제하기
- 합성 데이터의 개인 정보와 신원 노출을 평가하기
[대상 독자]
- AIML 모델 개발과 응용의 실현을 책임지고 있는 분석 리더
- 데이터 합성을 업무에 유용하게 활용할 방법을 배우려는 데이터 과학자
[서평]
이 책은 머신러닝에서 데이터 셋을 만들 때 필요한 합성 데이터의 생성과 평가, 개인정보에 미치는 영향 등 합성 데이터를 조직 내에서 구현하는 방법을 자세히 소개 하고 있다.
1장: 합성 데이터와 그 이점이 무엇인지 설명한다. 인공지능과 머신러닝(AIML) 프로젝트는 다양한 산업에서 사용되고 있으며, 광범위한 활용 사례 중 맛보기로 몇 가지를 발췌해 수록했다.
2장: 데이터 합성의 목표를 설정하고 다른 방법들에 비해 비즈니스 우선순위에 적합한 시기를 결정하는 데 도움되는 의사결정 프레임워크를 제시한다.
3장: 데이터 합성 프로세스의 첫 번째 단계인 분포 모델링을 다룬다. 비정형 데이터 분포를 머신러닝 모델에 적합하는 방법을 개략적으로 설명한다.
4장: 합성 데이터에 사용할 수 있는 데이터 효용성 프레임워크를 설명한다. 데이터 합성기 최적화, 데이터 합성 접근법, 합성 데이터의 결과 파악 등을 살펴본다.
5장: 기본 개념을 이용해 합성 데이터를 생성해본다. 몇 가지 기본적인 접근법으로 시작해서 뒤로 갈수록 복잡한 접근법으로 발전하며 입문자용 기술부터 고급 기술까지 다룬다.
6장: 먼저 데이터 합성이 보호하려는 노출 유형을 정의한다. 미국과 유럽연합의 주요 프라이버시 규정이 합성 데이터를 어떻게 다루는지 검토하고, 프라이버시 보장 분석을 시작할 방법을 제시한다.
7장: 합성 데이터셋과 합성 데이터 생성 기술을 전수해온 경험을 바탕으로 실제 데이터를 처리할 때 도움될 실용적인 고려사항을 제시한다. 도전적인 과업을 강조할 뿐만 아니라 과업을 해결할 방안도 제시한다.
머신러닝을 하려면 먼저 데이터를 수집을 해야 한다. 한국에서는 다행이 데이터 레이크 사업을 하고 있어 조금이나마 도움이 되고 있다. 하지만 RAW의 데이터만으로는 부족 하기 때문에 데이터를 합성 하여 원하는 결과 물이 나오는 데이터를 만들어야 한다. 이책에서는 데이터를 합성할때 필요한 기법들 등 여러가지 노하우를 알려주고 있어 많은 도움이 될것이라 생각이 든다.