판다스는 1차원 배열 형태의 시리즈(Series) 자료구조와 2차원 배열 형태의 데이터프레임(DataFrame) 자료구조를 지원한다. 특히 데이터프레임은 엑셀의 테이블(표)과 비슷하게 행과 열로 만들어진다.

머신러닝에서 데이터셋을 다룰 때 판다스(pandas) 라이브러리를 주로 사용한다.

회귀 문제는 설명 변수(X)와 목표 변수(Y) 사이의 회귀관계식을 찾는다. 목표 변수는 연속적인 값을 갖는 숫자형 데이터이다. 과거의 주가 데이터를 가지고 미래 주가를 예측하거나, 자동차 배기량이나 연식 등 중고차 정보를 이용하여 가격을 예측하는 문제를 예로 들 수 있다.

예측할 새로운 X 데이터가 주어졌을 때 모델 학습을 통해 찾아낸 관계식에 X를 대입하면 목표 변수인 Y를 예측할 수 있다.

비지도학습은 모델 학습 단계에서 정답 Y가 주어지지 않고, X 데이터만 제공되는 머신러닝 유형이다. 따라서 정답 Y를 예측하는 것이 목표가 되는 것이 아니라, X 데이터 사이에 존재하는 패턴 또는 규칙을 찾는 것이 목표가 된다. 대표적으로 서로 비슷한 데이터끼리 묶어서 그룹을 나누는 군집(clustering) 분석을 예로 들 수 있다.

분류 문제는 설명 변수(X)와 목표 변수(Y) 사이의 관계를 찾지만, 예측하려는 목표 레이블이 연속적이지 않고 0, 1, 2와 같이 이산적인 값을 갖는 경우를 말한다. 클래스 0 또는 1 중에서 선택하는 이진 분류(binary classification) 문제가 대표적이다. 또는 3개 이상의 클래스 중에서 하나를 선택하는 다중 분류(multi classification) 문제를 포함한다.

회귀가 데이터의 분포를 가장 잘 설명할 수 있는 X, Y 사이의 함수식을 찾는 것이라면, 분류는 섞여 있는 데이터들 중에서 목표 레이블을 가장 잘 구분할 수 있는 경계를 나타내는 함수식을 찾는 것이라고 볼 수 있다.

예측 목표가 되는 Y 변수를 목표 변수(target?:?타깃)라고 하고, 목표 변수를 예측하는데 사용되는 X 변수를 설명 변수(feature?:?피처)라고 부르기도 한다.

지도학습은 학습 과정에서 정답 Y가 주어진다. 즉, 입력 데이터 X와 출력 데이터 Y를 모두 알고 있는 상태에서, Y=aX+b와 같이 X와 Y 사이의 관계식을 알아내는 머신러닝 알고리즘을 말한다.

데이터의 형태를 살펴보면서 데이터 특성을 파악하는 과정을 탐색적 데이터 분석(EDA, Exploratory Data Analysis)이라고 부른다.

, y 변수 사이의 관계식을 그래프로 그려본다. 맷플롯립(matplolib) 패키지를 활용한다

머신러닝 모델에 입력할 데이터를 정리하기 위해 판다스를 주로 사용한다.

head 메소드는 데이터프레임의 첫 5개의 행(인덱스 0~4)을 추출해서 표시한다.

LinearRegression 클래스 함수는 선형회귀 모델을 구현해 놓은 코드라고 보면 된다.


댓글(4) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
han22598 2021-05-11 10:04   좋아요 1 | 댓글달기 | URL
unsupervised learning을 비지도학습이라고 하나보네요..제 생각에는 말이 조금 이상한 것 같아요. 실제로 사용하는 용어도 아니고..의미도 전달이 되지 않고. (아 이럴때 언어적 능력이 뛰어났으면 하는...바램이 커집니다). 오히려 자발적인 모델 설계방법 또는 자기주도적 학습 방법 (자기주도적 학습에서 발상 ㅎㅎ)이 의미상으로 조금 명확해질 것 같습니다. 아니면 한 단어로 치환이 어렵다면 그냥 원어를 사용하고 설명을 잘 하는 것이 혼돈을 막을 수 있다는 생각도 드네요.

초딩 2021-05-11 09:27   좋아요 1 | URL
조은 말씀입니다!!!
사실, AI/ML에서는 지도학습/비지도학습이라는 말이 업계 표준으로 자리 잡고 있는데요, 논문에서도.
근데 말씀하신 것처럼 Supervised/Unsupervised에서 unsupervised를 비지도학습이라고 하면 미묘한 오해를 불러 일으킬 수도 있는 것 같아요. 그래서 말씀하신 것처럼 원문 그대로 사용하는게 더 좋다고 저도 생각합니다.
요즘 국내 개발서도 좋은 책이 많이 나오고 예전 보다 개발 번역서도 훌륭한데... 그래도 용어가 참 어려운 것 같아요. 원문을 그대로 읽을 때, 몹시 혼란스럽기도 합니다. ^^
좋은 의견 너무 감사합니다!

초딩 2021-05-11 09:28   좋아요 1 | URL
출판사 친구한테 들었는데, ㅜㅜ 개발서 전자책은 수요가 너무 적어 단가가 맞지 않아 epub으로는 절대 나올 수 없다고 하네요 ㅜㅜ
사실 그래서 아이패드 샀어요 ㅎㅎㅎ 폰에서 pdf 전자책 보는게 너무 힘들어서요 ^^
좋은 하루 되세요~

han22598 2021-05-11 11:50   좋아요 1 | URL
논문에서도 그렇게 쓴다면 왠지 표준화된 용어일 것 같긴한데, 좀 아쉽네요. 수요가 적으니...번역에 공을 많이 들일 만한 예산도 별로 없을 것 같다는 생각이 드네요. 이펍이 안나오는건 아쉽지만...그래도 아이패드 사신 초딩님이 부럽네요. 몇년째 아이패드 고민하고 있는 저로서는..ㅠㅠ 초딩님도 좋은 하루 되세요 ^^