사이킷런(sklearn) 패키지는 붓꽃 데이터셋을 내장하고 있다. load_iris( ) 함수로 붓꽃 데이터를 불러온다. 딕셔너리 형태로 제공되므로 keys( ) 메소드로 키 값을 추출할 수 있다.

x, y 변수 사이의 관계식을 그래프로 그려본다. 맷플롯립(matplolib) 패키지를 활용한다.

fit 메소드는 입력 데이터를 모델에 전달하여 학습시키는 함수 명령이다.

4개의 피처(설명 변수)에는 꽃받침(sepal)과 꽃잎(petal)에 대한 각각의 가로 길이, 세로 길이 값이 들어 있다. 분류 대상이 되는 목표 레이블은 3가지 범주(클래스)에 속하는 붓꽃 품종을 나타낸다. 3가지 품종 중에서 하나를 선택하는 다중 분류(multi classification) 문제이다.


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 

아름다운 세계의 3분의 2는 아직도 홍수에 뒤덮여 있다.


댓글(0) 먼댓글(0) 좋아요(2)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 

판다스는 1차원 배열 형태의 시리즈(Series) 자료구조와 2차원 배열 형태의 데이터프레임(DataFrame) 자료구조를 지원한다. 특히 데이터프레임은 엑셀의 테이블(표)과 비슷하게 행과 열로 만들어진다.

머신러닝에서 데이터셋을 다룰 때 판다스(pandas) 라이브러리를 주로 사용한다.

회귀 문제는 설명 변수(X)와 목표 변수(Y) 사이의 회귀관계식을 찾는다. 목표 변수는 연속적인 값을 갖는 숫자형 데이터이다. 과거의 주가 데이터를 가지고 미래 주가를 예측하거나, 자동차 배기량이나 연식 등 중고차 정보를 이용하여 가격을 예측하는 문제를 예로 들 수 있다.

예측할 새로운 X 데이터가 주어졌을 때 모델 학습을 통해 찾아낸 관계식에 X를 대입하면 목표 변수인 Y를 예측할 수 있다.

비지도학습은 모델 학습 단계에서 정답 Y가 주어지지 않고, X 데이터만 제공되는 머신러닝 유형이다. 따라서 정답 Y를 예측하는 것이 목표가 되는 것이 아니라, X 데이터 사이에 존재하는 패턴 또는 규칙을 찾는 것이 목표가 된다. 대표적으로 서로 비슷한 데이터끼리 묶어서 그룹을 나누는 군집(clustering) 분석을 예로 들 수 있다.

분류 문제는 설명 변수(X)와 목표 변수(Y) 사이의 관계를 찾지만, 예측하려는 목표 레이블이 연속적이지 않고 0, 1, 2와 같이 이산적인 값을 갖는 경우를 말한다. 클래스 0 또는 1 중에서 선택하는 이진 분류(binary classification) 문제가 대표적이다. 또는 3개 이상의 클래스 중에서 하나를 선택하는 다중 분류(multi classification) 문제를 포함한다.

회귀가 데이터의 분포를 가장 잘 설명할 수 있는 X, Y 사이의 함수식을 찾는 것이라면, 분류는 섞여 있는 데이터들 중에서 목표 레이블을 가장 잘 구분할 수 있는 경계를 나타내는 함수식을 찾는 것이라고 볼 수 있다.

예측 목표가 되는 Y 변수를 목표 변수(target?:?타깃)라고 하고, 목표 변수를 예측하는데 사용되는 X 변수를 설명 변수(feature?:?피처)라고 부르기도 한다.

지도학습은 학습 과정에서 정답 Y가 주어진다. 즉, 입력 데이터 X와 출력 데이터 Y를 모두 알고 있는 상태에서, Y=aX+b와 같이 X와 Y 사이의 관계식을 알아내는 머신러닝 알고리즘을 말한다.

데이터의 형태를 살펴보면서 데이터 특성을 파악하는 과정을 탐색적 데이터 분석(EDA, Exploratory Data Analysis)이라고 부른다.

, y 변수 사이의 관계식을 그래프로 그려본다. 맷플롯립(matplolib) 패키지를 활용한다

머신러닝 모델에 입력할 데이터를 정리하기 위해 판다스를 주로 사용한다.

head 메소드는 데이터프레임의 첫 5개의 행(인덱스 0~4)을 추출해서 표시한다.

LinearRegression 클래스 함수는 선형회귀 모델을 구현해 놓은 코드라고 보면 된다.


댓글(4) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
han22598 2021-05-11 10:04   좋아요 1 | 댓글달기 | URL
unsupervised learning을 비지도학습이라고 하나보네요..제 생각에는 말이 조금 이상한 것 같아요. 실제로 사용하는 용어도 아니고..의미도 전달이 되지 않고. (아 이럴때 언어적 능력이 뛰어났으면 하는...바램이 커집니다). 오히려 자발적인 모델 설계방법 또는 자기주도적 학습 방법 (자기주도적 학습에서 발상 ㅎㅎ)이 의미상으로 조금 명확해질 것 같습니다. 아니면 한 단어로 치환이 어렵다면 그냥 원어를 사용하고 설명을 잘 하는 것이 혼돈을 막을 수 있다는 생각도 드네요.

초딩 2021-05-11 09:27   좋아요 1 | URL
조은 말씀입니다!!!
사실, AI/ML에서는 지도학습/비지도학습이라는 말이 업계 표준으로 자리 잡고 있는데요, 논문에서도.
근데 말씀하신 것처럼 Supervised/Unsupervised에서 unsupervised를 비지도학습이라고 하면 미묘한 오해를 불러 일으킬 수도 있는 것 같아요. 그래서 말씀하신 것처럼 원문 그대로 사용하는게 더 좋다고 저도 생각합니다.
요즘 국내 개발서도 좋은 책이 많이 나오고 예전 보다 개발 번역서도 훌륭한데... 그래도 용어가 참 어려운 것 같아요. 원문을 그대로 읽을 때, 몹시 혼란스럽기도 합니다. ^^
좋은 의견 너무 감사합니다!

초딩 2021-05-11 09:28   좋아요 1 | URL
출판사 친구한테 들었는데, ㅜㅜ 개발서 전자책은 수요가 너무 적어 단가가 맞지 않아 epub으로는 절대 나올 수 없다고 하네요 ㅜㅜ
사실 그래서 아이패드 샀어요 ㅎㅎㅎ 폰에서 pdf 전자책 보는게 너무 힘들어서요 ^^
좋은 하루 되세요~

han22598 2021-05-11 11:50   좋아요 1 | URL
논문에서도 그렇게 쓴다면 왠지 표준화된 용어일 것 같긴한데, 좀 아쉽네요. 수요가 적으니...번역에 공을 많이 들일 만한 예산도 별로 없을 것 같다는 생각이 드네요. 이펍이 안나오는건 아쉽지만...그래도 아이패드 사신 초딩님이 부럽네요. 몇년째 아이패드 고민하고 있는 저로서는..ㅠㅠ 초딩님도 좋은 하루 되세요 ^^
 

<Jhumpa Lahiri Wikipedia>


오디오북의 단점은 이 책이 어떻게 구성되었는지 어느 정도 듣지 않으면 모른다는 것이다. 나는 '일시적인 문제'를 다 듣고 나서 '피르자다 씨가 식사하러 왔을 때'를 들을 때, 갑자기 다른 이야기가 들려서 맥락을 놓쳤나라고 생각하며 30초를 몇 번 뒤로 가서 또 듣고 또 들었다. 인물들이 바뀌었고, 배경이 모두 바뀌었다. 단편인가? 옴니버스식 구성인가?

그렇게 혼란을 느끼며 듣다가 '질병 통역사'를 들으니, '아하, 단편집이구나!'라는 것을 알게 되었다.

그녀는 인도인인가? 인도 출신의 이민자로 미국에 사는 걸까? 역시 오디오북은 받을 찾을 수 없다. 단편들은 미국에 있는 '인도'를 담고 있었다.

그래서 잠시 찾아봤다.

Her debut collection of short-stories Interpreter of Maladies (1999) won the Pulitzer Prize for Fiction and the PEN/Hemingway Award, (Jhumpa Lahiri)

축복받은 집은 Interpreter of Maladies 였고, 

Lahiri was born in London, the daughter of Indian immigrants from the Indian state of West Bengal

역시 인도 West Bengal에서 이민 온 가정의 딸로 런던에서 태어났다. 그리고 3살 때 미국으로 갔다.


나에게 인도는 빈부의 격차가 세상에서 가장 큰 것 같고, 무자비하고, 무섭고, 비정한 나라이다. 두 번의 인도 출장으로 총 한 달 정도 인도 노이다와 벵갈루루에 있었다. 노이다는 한국의 분당이고, 벵갈루루는 인도의 실리콘밸리라고 불렸다. 하지만, 한국의 타워팰리스 같은 곳에 부자들이 손자 돌잔치를 위해 하루에 1억 원을 쓸 때 (2010년 경이었다), 총을 든 군인들이 지키고 있는 철조망 건너편에는 그 부자들의 타운에서 흘러나오는 하수구로 가난한 사람들이 생활하고 있었다. 남부 출신들도 북부에서는 밤에 돌아다니지 않았다. 자국민도 혼자로 보이면 위험했다. 금요일 교통지옥인데도 여직원이 택시를 타고 귀가하면 너무 위험하기 때문에 노이다 (한국의 분당)에서 델리 (한국의 서울)로 모두 이동해서 저녁을 먹었다. 여직원 집이 델리였다. '밀리어네어 슬럼독'을 봤다고 노이다에서 현채인에게 이야기했더니, 그는 더는 말을 하지 않았다. 부끄럽기도 하고 자신들이 그렇게 그려져서 세상에 표출되는 게 싫었던 것 같다. 인도는 그런 나라이다. 빈부 격차가 비정하게 크고, 무섭고, 무자비하고 이해할 수 없는 나라.


그런데 그들의 자부심은 대단했다. 쉬는 시간에 그들과 이야기하면 항상 전 세계에서 인도인들의 비중이 얼마나 큰지를 자랑스럽게 말한다. 전 세계 기업에서 의사결정권자 중 인도인이 가장 많다. 유럽의 의사 중에서 인도인이 가장 많다. 이런 이야기들이었다. 그리고 영어 농담을 항상 메일로 공유했다.

그들을 똑똑하다. 좋은 대학을 나왔으면 기본 5개 국어는 한다. 힌두어, 고향어, 고향 근처 지역 언어, 영어, 그리고 외국어 하나. 인도의 언어들은 우리나라의 사투리 같지 않고 전혀 다른 언어이다. 19단도 잘한다. 그런데 좋은 대학을 나오지 않으면 사람들은 모두 거짓말을 밥 먹듯이 하고 비굴하고 비열하다.


그런데, 인도가 그래도 부럽다. 인구가 많고 각 나라로 이민간 사람들이 많아서 그런지, 인도인들은 인도를 알리는데 항상 열심히 인 것 같다. 자신들의 부끄러움도 이해시키려고 노력하고 자신들의 자랑스러운 것도 뽐내려고 한다. 무엇보다도 자신들이 인도인이라고 말한다.

인도 카슈미르 분쟁은 대학살 수준에 가깝다. 아니 대학살이다. 하지만 지복의 성자를 써냈다.


동파키스탄의 독립 전쟁은 '축복받은 집' 중에 '피르자다 씨가 식사하러 왔을 때'로 나온다.

비단 문학만은 아닐 것이다. 인도 홀리 축제 때 사람들이 색색의 가루를 뿌리는 것에 매료되어 그것을 너무너무 카메라에 담고 싶었다. 홀리 축제는 세계적으로도 유명하다. 이런 세계적으로 알려진 인도의 것들이 많다.

Holi 2021: When is Holi and why do Indians celebrate the festival of colours?


고대부터 대국이고 세계사에서 좋은 쪽이든 나쁜 쪽이든 큰 자리매김을 해서 그럴 수도 있지만, 인도인들은 자부심을 가지고 자기들을 알리려고 노력한다. 그들이 영국의 지배를 받아서 영어를 공용어처럼 써서 그런지 몰라도 인도 출신의 유명한 작가도 많다.

생각해보면, 남미와 유럽의 잔혹하고 아픈 역사를 제재로 하는 작품과 작가도 많다. 미국은 미국 나름대로 자신들을 정당화하는 작품이 많고, 러시아는. 러시아는 그 자체가 대문호의 나라이고, 일본은 일본 특유의 작품들이 많이 알려진 것 같다.

지금의 한국은 분명 경제 대국의 대열에 있고, 세계사에서도 비극을 많이 겪은 나라 중 하나일 것인데, 다른 문화권에 비하면 우리의 작가와 작품은 아주 아주 적은 것 같다.


그런데, 또 그렇다고 한국 문학의 세계화를 정부에서 우둔하게 밀어붙이니 이승우 작가님은 소설가의 귓속말로 울분을 토하신 것 같다.


며칠 전 행복한 책읽기님의 서재에서 반갑고 고마운 포스팅을 봤다.

강추보다 필독! 해방 직후 해외 조선인들의 필사적인 귀환과 식민지 시대 예술혼을 불태운 두 예인의 명창이 실려 있다. 여기에 해방의 감격은 없다. 살아남기 위한 몸부림만 지속될 뿐. 어쩌면 더 처절하게. 아릿아릿 아프고 저릿저릿 찡하다. 배삼식을 더 읽고 싶어졌다. 훌륭한 스토리텔러다.

  행복한 책읽기님의 1945 포스트 에서.


큰 제목만을 언급하는 역사 다루기와 규격화 획일화한 역사 속 인물에 익숙한 나에게, 그래서 인도인들의 역사를 문학으로 끌어내는 것이 부러운 나에게 1945는 참 고맙고 갈증을 해소해주는 책이 될 것 같다.


댓글(2) 먼댓글(0) 좋아요(59)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
행복한책읽기 2021-05-10 12:01   좋아요 3 | 댓글달기 | URL
초딩님 이 글 읽으니 <팩트풀니스> 에서 지적한 우리가 가진 편견 편향 오류들 떠오릅니다.^^;;
<1945>는 보석이라 저는 생각해요^^

초딩 2021-05-10 13:47   좋아요 1 | URL
편견 편향, 바이어스!
그러지 않기 위해 우리는 책을 읽고 생각하고 말하고 행동해야하는 것 같습니다. :-)
소프트해지기 위해서요.
1945 짝짝짝
아 ㅜㅜ 갑자기 숫자로 된 오락실 게임도 생각하고 ㅎㅎㅎ
암튼 보석입니다!
 

톨스토이가 일흔이 넘어 완성한 대작 『부활』은 『전쟁과 평화』, 『안나 카레니나』와 함께 그의 3대 작품으로 꼽힌다.

카추샤는 먼 유형지로 떠나고, 네흘류도프는 카추샤가 찾은 사랑을 인정하고 스스로 괴로운 사람을 위해 일생을 바치기로 결심한다.

누구나 지난 삶을 되돌아보면 지우개로 지워버리고 싶은 순간이 있다. 그러나 부패한 껍질을 벗고 새로운 삶으로 부활하는 일, 더럽혀진 나를 버리고 새로운 나로 태어나는 일은 참 힘들고 긴 여정이다. 그럼에도 자신의 인생을 새롭게 써나가는 네흘류도프는 우리를 향해 전해준다.
더럽게 부패한 껍질을 깨고 새로운 삶으로 부활하는 일은 다른 누구도 아닌 나 스스로 해야 하는 삶의 의무이며 존재의 의미라고. 나의 껍질과 부딪쳐 깨지 못하면, 개인에게도 신에게도 희망은 없는 것이라고. 어떤 인생이든, 가장 큰 목표가 되어야 하는 것은 ‘선善’이라고. 선을 향해 나아가는 것이 인생이어야 한다고.

오 헨리O.Henry,1862~1910는 모파상, 체호프와 더불어 세계 3대 단편 작가 중 한 사람이다.

알렉상드르 뒤마AlexandreDumas,1802~1870는 프랑스 귀족인 아버지와 아이티 출신의 흑인 어머니 사이에서 사생아로 태어났다. 『여왕 마고』 등 소설과 희곡 250여 편을 남겼으며, 『삼총사』와 『몬테크리스토 백작』은 이후 300여 편의 영화로도 만들어졌다.

이 소설은 잔인하고 퇴폐적인 서구 문명의 이면을 담아냈는데, "인간의 본질은 죄를 싫어한다. 그러나 문명은 우리들에게 욕망을 갖게 하며, 우리의 선량한 본질을 깔아뭉개고 우리를 나쁜 쪽으로 인도한다"라는 주제를 담고 있다.

"문명은 인간에게 욕망을 주고, 죄악을 주고, 욕심을 주며, 악의 길로 이끌어가곤 하지. ‘범인을 찾으려거든 우선 그 범죄로 이득을 볼 사람을 찾으라’는 격언이 거기서 나온 말이야. 자네가 없으면 이득을 볼 사람은 누구지?"

또한 그에게는 아름답고 상냥한 약혼녀 메르세데스가 있어 한없이 행복했다

인간의 모든 지혜는 단 두 마디 말에 있다는 것을 잊지 말길! 기다리라, 그리고 희망을 가지라!"

어느 날 톨스토이는 농부들에게 부탁을 받는다. 자신들은 어려운 글을 잘 읽지 못하니 이해하기 쉬운 책을 써달라는 것이었다. 「사람은 무엇으로 사는가」는 톨스토이가 농부들을 위해 집필한 쉬운 작품 중 하나다.


댓글(0) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo