결측값은 자료를 수집하는데 실패했거나 정리하는 과정에서 누락되어 유효한 데이터가 없는 경우이다. 대부분의 머신러닝 알고리즘은 결측값이 있으면 오류가 발생하므로, 입력하기 전에 다른 유효한 값으로 대체하거나 결측값을 삭제하는 별도의 전처리가 필요하다.
corr 메소드는 변수 간의 상관 계수 행렬을 출력한다. 목표 레이블(Target)은 상관 계수가 -0.42인 꽃받침 폭(sepal_width)을 제외한 나머지 피처들과 상관 관계가 높다(상관 계수?:?0.78, 0.94, 0.95).
시본 heatmap 함수를 이용하여 상관 계수 행렬을 히트맵(heatmap)으로 나타낸다. 각 변수 간의 상관 계수를 다른 색으로 표현한다. annot 옵션은 상관 계수 숫자를 표시할지 여부를 지정한다.
시각화 패키지인 맷플롯립(matplolib)과 시본(seaborn)을 약칭을 사용하여 불러온다.
맷플롯립 hist 함수를 이용하여 sepal_length열의 데이터를 히스토그램으로 그린다.
이번에는 시본 displot 함수를 이용하여 sepal_width 데이터의 분포를 히스토그램으로 표현한다.
시본 displot 함수를 이용하여, 히스토그램이 아닌 KDE 밀도함수 그래프를 그릴 수 있다.
|