[읽고보고듣고쓰고] : 알라딘

[100자평] 드립백 과테말라 안티구아 파노라마ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-02 13:33

https://blog.aladin.co.kr/765045244/15584909

드립백 과테말라 안티구아 파노라마 - 12g, 5개입 알라딘 커피 팩토리 / 2024년 5월 평점 :

호두 먹고난 뒤에 살짝 느껴지는 쌉쌀한 맛과 초콜릿의 쓰디쓴 달콤함, 카라멜의 은은한 단 맛이 어우러져 있는 묘한 매력을 가지고 있는 드립백 커피입니다. 이러한 맛을 제대로 느끼기 위해서는 차갑게 마시는 것보다 뜨겁게 마시는 게 개인적으로 좀 더 나았습니다. 적정량의 물 조절도 중요합니다.

댓글(0) 먼댓글(0) 좋아요(16)

ｌ

찜하기 ｌ

얼마전《최재천의 곤충사회》라는 책을 읽으면서 과학 관...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 20:18

https://blog.aladin.co.kr/765045244/15583579

얼마전《최재천의 곤충사회》라는 책을 읽으면서 과학 관련 분야에 조금씩 관심이 생기기 시작했는데 때마침 기회가 되어 이 책을 읽어볼 수 있게 되었다. 그동안 인문학 분야에 집중해왔던 문과 출신 저자의 시각에서 과학을 어떻게 느꼈는지를 살펴보면서 공감대를 느낄 수 있기를 바래본다.
.
.
.
읽으면서 저자의 깨달음 같은 게 느껴졌다. 독자인 내가 느끼기에 저자는 지난 세월동안 자신이 꾸준히 공부해온 인문학이라는 것의 토대가 과학이 되어야 한다는 신념을 갖게 된 듯 하다. 물질로 존재하는 ‘나‘와 철학적인 생각을 하는 ‘나‘ , 이렇게 두 가지로 자아를 분리해서 생각하는 것처럼 느껴졌다. 저자는 이러한 생각에 기반하여 철학적인 생각을 하는 ‘나‘에 대해 생각하기에 앞서 물질로 존재하는 ‘나‘ 가 무엇으로 이루어져 있는지를 아는 것이 필요하다고 보는 것 같았다. 물질로 이루어진 외형이 없는 상태에서 생각이라는 것이 툭 튀어나올 수 없기 때문이라고 보는 건지도 모르겠다.

일개 독자인 내 나름대로 저자의 글을 읽고 거기에 대한 생각을 주저리주저리 끄적여봤는데, 이것이 맞고 틀리고를 떠나서 이러한 것에 대해 생각한다는 거 자체가 굉장히 심오한 영역을 다루는 것처럼 느껴진다. 머리가 지끈지끈 해지는 느낌이다. 그래도 이 와중에 의미를 찾자면 이 책을 읽기 전에는 전혀 생각해보지 못했던 것들에 대해 생각해볼 수 있게 되었다는 것이다. 아예 이런 생각조차 해보지 못하는 사람들도 부지기수일텐데, 생각의 폭을 조금이라도 확장시켜보는 시도를 해봤다는 것에 의미를 두고 싶다.

공부는 인생에 의미를 부여하기 위해 인간과 사회와 생명과 우주를 이해하는 일이다. 공부를 온전하게 하려면 당연히 과학을 알아야 한다. - P8

먹는 것은 몸이 되고 읽는 것은 생각이 된다. - P8

과학은 지식의 집합이 아니라 인간과 생명과 자연과 우주를 대하는 태도 - P11

토론회에는 거만한 바보가 많았고, 그들이 나를 궁지에 몰았다. 바보는 나쁘지 않다. 대화할 수 있고 도울 수도 있다. 하지만 자신이 얼마나 대단한지 자랑하는 거만한 바보는 어떻게 할 수가 없다. 정직한 바보는 아무 문제가 없지만 정직하지 않은 바보는 골칫거리다! 나는 토론회에서 거만한 바보를 무더기로 만났고 아주 낭패했다. - P16

파인만은 1970년대에 과학자들이 잘 하지 않는 활동을 했다. 인문학에 관심을 가지고 과학과 종교의 관계라든가 핵폭탄의 윤리적 쟁점 같은 문제를 연구하면서 강연회와 토론회에서 자신의 견해를 공개한 것이다. - P17

‘학제적‘이란 평소 만날 일이 거의 없는 인문학자와 과학자들이 같은 시간 같은 공간에서 같은 주제로 이야기를 나누었다는 뜻이다. - P18

파인만은 솔직하게 의견을 말했다. ‘평등의 윤리‘라고 생각하는 것에 대해 토론하는 동안 자신을 포함해 모두가 자기 관점에만 집착했고 다른 사람의 관점에는 관심을 기울이지 않았기 때문에 대화를 한 게 아니라 혼돈을 만들었다고 했다. - P18

"그들은 세계를 있는 그대로 이해하지 못하면서도 스스로는 지혜롭다고 믿는 거만한 바보였다." - P18

내가 바로 ‘거만한 바보‘였다. 나는 물질세계에 대해 거의 전적으로 무지했다. 우주 · 은하 · 별 · 행성 · 물질 · 생명 · 진화 같은 것을 이해하지 못하고 살았다. 그래도 괜찮았다. 문과니까. - P19

과학자는 수학으로 우주를 이해하고 수학으로 대화한다. - P21

수학을 ‘우주의 언어‘라고 한 갈릴레이 Galileo Galilei (1564~1642) - P21

과학자가 되려면 물질 현상에 대한 호기심뿐만 아니라 우주의 언어인 수학을 익힐 재능도 있어야 한다. - P22

인문학은 자기 자신을 이해하려는 욕망의 산물이다. 그 욕망을 충족하려면 누구나 무에서 시작해야 한다. 단 하나의 인문학 지식도 유전으로 물려받을 수 없기 때문이다. 호모 사피엔스의 뇌가 생물학적으로 진화해 자신을 이해하려는 욕망을 버리지 않는 한, 인문학이 사라지는 일은 없을 것이다. - P27

인문학이 진짜 위기에 빠지는 경우는 단 하나뿐이다. 우리 자신을 이해하는 데 아무 도움이 되지 않는 때다. 나는 지금이 바로 그런 시기가 아닌지 의심한다. - P27

과학자는 아는 것과 모르는 것을 분명하게 나눈다. 모르는 것은 모른다 말하고 실체를 알아내기 위해 연구한다. - P28

인문학에는 진리와 진리 아닌 것을 가르는 분명하고 객관적인 기준이 없다. 매우 그럴법하거나 그럴 것 같기도 한 주장과, 별로 그럴듯하지 않거나 아주 말이 안 되는 주장이 있을 뿐이다. 그럴법한 견해끼리 충돌하면 승패를 가리지 못한다. 어느 쪽도 사실이라는 증거가 없기 때문이다. - P28

인문학에는 과학과 달리 영원한 진리가 없다. 한때 진리로 통하는 이론도 100년을 견디지 못한다. 스미스 Adam Smith(1723~1790)의 ‘보이지 않는 손‘, 스펜서Herbert Spencer(1820-1903)의 ‘사회다윈주의‘social Darwinism, 마르크스Karl Marx(1818~1883)의 역사이론이 다 그랬다. - P28

성벽을 쌓고 안주하는 학문은 뒤처질 수밖에 없다. 인문학도 예외가 아니다. 오래된 울타리 안에 머물면서 오래된 것에 집착하면, 과학이 새로 찾아낸 사실을 이해하고 받아들이지 않으면, 과학과 소통하고 교류하기를 거부하면, 대학의 인문학은 존재의 근거를 잃을 것이다. - P29

‘나는 무엇인가?‘ 이 질문은 전통적인 문학과 맞지 않는 형식이다. 인문학의 익숙한 질문 형식은 ‘나는 누구인가?‘다. 인문학의 위기는 질문을 제때 수정하지 못한 데서 싹텄는지도 모른다. 내가 무엇인지 모르는데 누구인지 어찌 알겠는가? 우리가 무엇인지 모르는데 어디에서 왔는지 어떻게 알아낼 것인가? 인간이 무엇인지 모르는데 본성을 무슨 수로 밝히겠는가? 인간이 무엇인지 탐구하지 않으면서 사회를 있는 그대로 이해할 수 있겠는가? - P30

파인만은 인문학자를 비난하지 않았다. 과학을 알려고하지 않는, 과학의 연구 방법을 거부하는, 과학을 배척하는,
그러면서도 스스로 많이 안다고 착각하는 사람들을 비판했을 뿐이다. 직업이 인문학자든 아니든 상관없다. - P30

‘거만한 바보‘는 단순한 바보가 아니다. 권력을 장악하면 상상하기 어려운 악행을 저지른다. 문명의 역사는 세속권력이나 종교권력을 거머쥔 ‘거만한 바보‘들이 자연과 인간에 관한 사실을 탐구하고 밝혀낸 과학자를 가두고 고문하고 죽이고 책을 불태운 사건으로 얼룩졌다. 과학자는 ‘거만한 바보‘들에게 화를 낼 권리가 있다. - P30

과학자는 인간의 언어와 우주의 언어 둘 모두를 쓴다. 큰 어려움 없이 과학과 인문학의 경계를 넘나든다. 인문학의 질문에 자기네 방식으로 응답한다. 그러나 인간의 언어만 아는 나는 방정식으로 가득한 물리학 논문을 읽지 못한다. 과학커뮤니케이터의 도움을 받아 까치발을 해야 담장 너머 과학의 세계를 구경이라도 할 수 있다. - P31

"과학은 단순히 사실의 집합이 아니다. 과학은 마음의 상태이다. 세상을 바라보는 방법이며 본질을 드러내지 않는 실체를 마주하는 방법이다." - P31

문과라도, 나이를 먹었어도, 과학을 할 수 있다 - P31

‘내 몸과 똑같은 배열을 가진 원자의 집합은 우주 어디에도 없다.‘ - P32

‘정신은 물질이 아니지만 물질이 없으면 정신도 존재하지 않는다.‘ - P32

‘자아는 뇌세포에 깃든 인지 제어 시스템이다.‘ - P32

‘내 몸을 이루는 물질은 별과 행성을 이루는 물질과 같다.‘ - P32

‘지구 생물의 유전자는 모두 동일한 생물학 언어로 씌어 있다. - P32

‘태양이 별의 생애를 마칠 때 지구 행성의 모든 생명은 사라진다.‘ - P32

‘모든 천체는 점점 더 빠른 속도로 서로 멀어지고 있으며 언젠가는 우주 전체가 종말을 맞는다.‘ - P32

과학은 인문학보다 힘이 세다. 누구도 부정할 수 없는 물질의 증거를 찾아내기 때문이다. 그 덕분에 우리는 우리 자신과 세계를 있는 그대로 볼 수 있게 되었다. - P32

둘 이상의 세대가 집단을 이루어 살면서 분업의 일환으로 이타 행동을 하는 동물을 진사회성眞社會性(eusociality) 동물이라고 한다. 개미, 꿀벌, 말벌 같은 ‘막시류‘ 곤충과 호모 사피엔스가 여기에 들어간다. - P35

특정한 질서를 가진 사회를 형성하고 존엄 · 인권·정의·평등과 같은 가치를 추구하지만 유전자에 새겨진 생물학적 본능을 바꾸거나 없애지는 못한다. - P36

과학혁명은 생산기술을 혁신함으로써 생산조직의 형태와 운영방식, 대중의 생활방식, 정치제도와 법률, 사회적 계급의 성격, 국가의 기능, 가족제도와 문화양식까지 세상 모든 것을 바꾸었다. 그런 변화의 원인을 찾고 양상을 분석하며 미래를 전망하는 것이 인문학의 과제다. - P36

모든 변화의 추동력을 제공하는 과학에 관심이 없다면, 과학자들이 인간에 대해서 발견한 중대한 사실을 외면한다면, 과학의 사실과 이론을 연구에 반영하지 않는다면, 인문학은 현실에서 멀어질 수밖에 없다. 어떤 분야든 적응에 실패하면 위기에 봉착한다. 인문학이라고 예외겠는가? - P36

과학자는 물리법칙에 입각해 생명 현상을 이해하고 진화의 관점에서 인간과 사회를 설명한다. 인간의 몸은 입자의 집합이니 당연히 물리법칙을 따른다. 모든 생명체가 그렇듯 인간도 진화의 산물이다. - P36

과학으로 인간과 사회를 다 설명할 수 있는 건 아니다. 원자는 생각하지 않지만 원자의 집합인 인간은 생각한다. 사람은 유전자가 만든 생존기계인데도 때로 본능을 거스른다. 본성을 알고 욕망을 제어하며 스스로 삶의 방식을 결정한다. 인간을 이해하려면 과학뿐만 아니라 인문학도 필요하다. 과학이 더 발전해도 인문학은 인문학의 길을 갈 것이다. 하지만 지금의 형식과 내용 그대로는 아니다. - P37

인문학은 생존의 도구가 아니라 우리 자신을 이해하려고 만든 학문이다. 생산력 발전을 도모하거나 경쟁에서 승리하는 것은 인문학과 관계가 없다. - P38

진화와 정신에 관한 과학자들의 연구에 따르면 인간의 뇌는 유전자가 생존을 위해 만든 기계다. 그런데 그 기계가 자신은 무엇인지, 왜 존재하는지, 자신의 삶에 어떤 의미를 부여할지 생각하고 고민한다. 인문학의 어려움은 여기에서 비롯했다. 생존을 위해 만든 기계가 자기 자신을 이해하려고 하니 잘되기가 어렵다. - P38

우리의 뇌는 생존에 필요한 것은 밝게 비춰 보지만 그렇지 않은 것에는 관심이 없다. 그래서 객관적 진리보다는 신화와 자기기만과 부족의 정체성처럼 ‘적응의 이익‘이있는 것을 열광적으로 받아들였다. 자신이 어떻게 작동하는지 모른 채 수천 세대를 이어가며 번식했다. 과학이 제공하는 사실을 모르면 우리의 마음은 세계를 일부밖에 보지 못한다. (에드워드 윌슨) - P38

윌슨의 말은 과학의 토대 위에 서야 인문학이 온전해진다는 것이다. 그렇다. 과학의 사실을 받아들이고 과학의 이론을 활용하면 인간과 사회를 더 정확하게 이해할 수 있다. - P39

사람은 자신이 어떤 존재인지 알고 싶어 한다. - P43

사람이 남을 모르는 거야 당연하다. 문제는 자기도 자신을 모르면서 남이 알아주기를 바란다는 데 있다. 그래서 인간관계가 어려워진다. - P43

‘나는 물리적 실체로 존재한다. 그런데 그 사실을 아는 나는 물리적 실체인 내가 아니다. 그 둘이 같지 않다는 것을 아는, 또 다른 내가 있다.‘ - P44

나를 온전히 알려면 인간의 본성을 알아야 한다. 그래야 내가 왜 그런지 알 수 있다. 우리가 발 딛고 선 물질세계를 이해해야 한다. 우주는 언제 어떻게 탄생했고 어떤 원리로 움직이는가? 세계는 무엇으로 이루어져 있는가. 입자가 어떻게 생명과 의식을 만들어내는가? 나는 왜 존재하는가? 왜 이런 방식으로 사는가? 우리는 어디로 가는가? 이런 질문에도 대답할 수 있어야 한다. 그래야 ‘나를 안다‘고 할 수 있다. - P46

‘너 자신을 알라‘는 말을 질문으로 바꾸면 이렇게 된다. ‘나는 누구인가?‘ 이것은 인문학의 표준 질문이다. 그러나 인문학 지식만으로 대답하기는 어렵다. 먼저 살펴야 할 다른 질문이 있다. ‘나는 무엇인가?‘ 이것은 과학의 질문이다. - P47

묻고 대답하는 사유의 주체를 ‘철학적 자아‘라고 하자. 철학적 자아는 물질이 아니다. 그러나 물질인 몸에 깃들어 있다. 나를 알려면 몸을 알아야 한다. 이것을 일반 명제로 확장하면 이렇게 말할 수 있다. ‘과학의 질문은 인문학의 질문에 선행한다. 인문학은 과학의 토대를 갖추어야 온전해진다.‘ - P47

물질인 내 몸을 지휘하는 제어 센터는 단단한 머리뼈 안에 들어 있는 주름진 회백색 세포 덩어리다. 나를 나로 알고 내 삶에 의미를 부여하는 철학적 자아는 우리가 뇌라고 하는 세포 덩어리에 깃들어 있다. - P47

옳다고 여기던 것이 그렇지 않음을 알아내는 데 과학의 매력이 있다 - P47

댓글(0) 먼댓글(0) 좋아요(5)

ｌ

찜하기 ｌ

[100자평] 데이터를 부탁해ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 19:43

https://blog.aladin.co.kr/765045244/15583517

데이터를 부탁해 - 세상을 움직이는 데이터의 힘 ㅣ 한빛 리얼타임 Hanbit Realtime 149 전익진 지음 / 한빛미디어 / 2019년 4월 평점 :

데이터 분석에 필요한 통계와 관련된 기본 개념들부터 최근 급속도로 발전하고 있는 AI와 관련된 빅데이터, 자연어 처리, 데이터 마이닝 등의 기본적인 원리들을 알기 쉽게 이해하는데 도움이 됩니다. 전공자분들께는 좀 쉽게 느껴질수도 있겠지만 데이터에 관심있는 비전공자분들께 유익할 듯 합니다.

댓글(0) 먼댓글(0) 좋아요(10)

ｌ

찜하기 ｌ

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 13:27

https://blog.aladin.co.kr/765045244/15583017

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었는데, 이로부터 파생된 것이 요즘 AI(인공지능)와 관련하여 한 번 쯤 들어봤음직한 용어인 머신러닝과 딥러닝이다. 이 러닝learning들은 ‘텍스트 마이닝‘ 작업을 통해 획득된 다양한 정보들을 반복적으로 학습하는 것인데, 이를 통해 특정 상황에서 학습된 대로 행동하여 문제를 해결하는 것을 목표로 한다.

이와 관련하여 좀 더 세부적인 핵심 내용을 간단히 정리해보자면 먼저 머신러닝이 다양한 경험을 실제로 하면서 배우는 컨셉이라면, 딥러닝은 기계가 실제로 경험하지 못한 것을 추론을 통해 학습하는 컨셉이다.

책에 직접적으로 나온 표현은 아니지만, 머신러닝과 딥러닝을 독자인 나만의 말로 풀어 설명해보자면 머신러닝은 학교나 학원에서 선생님의 수업을 통해 학습내용을 배우는 것이고, 딥러닝은 머신러닝을 통해 배운 학습내용을 기반으로 하여 어떤 새로운 지식을 스스로 추론해가면서 배우는 것으로 생각하면 될 듯 하다.
.
.
.
뒤이어지는 내용에서는 이 책의 앞부분에서 언급되었던 ‘유사도‘라는 개념과 관련하여 ‘연관규칙 분석‘이라는 개념이 등장한다. 이는 우리가 일상생활에 종종 쓰는 말 중 하나인 패턴pattern 이라는 것과 관련이 있다. 이를 분석하는 것과 관련하여 ‘지지도‘, ‘신뢰도‘, ‘향상도‘ 라는 개념이 함께 등장하는데 좀 더 자세한 내용은 밑줄친 부분을 참조해보시면 될 듯 하다.

이 책의 마지막 부분에는 네트워크 분석과 관련된 내용들이 나온다. 노드node, 링크link 같은 기초적인 개념을 바탕으로 ‘중앙성centrality‘ 이라는 개념을 3가지 분류로 나누어서 각각의 데이터들 간의 상관관계를 분석하고 그 속에서 어떤 의미를 찾아보는 과정들이 본문에 간단한 사례와 함께 제시되어 있다.

데이터 분석과 관련한 다양한 사례들을 통해 세상에 여기저기 산재해있는 데이터들을 어떻게 가공하고 분석하느냐에 따라 가치있는 정보들을 얼마든지 도출해낼 수 있다는 것을 확인할 수 있었고, 저자께서 마지막에 말씀해주신 것처럼 어떤 최신 트렌드 같은 것에 이리저리 휩쓸리기 보다는 일단 데이터 분석의 근본부터 잘 알아두는 것, 즉 기본에 충실하는 것이 중요하다는 것을 다시금 느낄 수 있는 시간이었다.

입력된 대상에 대해 판단할 만한 경험이 없으면 아이는 질문을 통해 답을 찾거나 새로운 경험으로 받아들이고 문제를 해결한다. 이것이 일반적인 데이터 분석이다. 즉, 전혀 경험하지 않았던 질문의 해답을 찾는 경우다. - P189

입력된 대상이 과거 경험을 바탕으로 충분히 해석 가능하면 그 경험에서 나왔던 결과를 기반으로 판단을 한다. 이때 경험은 깊이의 차이를 보인다. 단 한 번의 경험한 것과 오랜 경험에 의한 판단에는 분명 차이가 있다. - P189

경험이라는 ‘스냅샷snapshot‘은 단편적으로 이루어진다. 반복된 경험이 누적될수록 판단은 빨라지며, 다양한 경험을 할수록 판단할 수 있는 가치가 많아진다. 이것이 머신러닝이다. 알고리즘을 통해 이후 발생되는 사건과 신호를 인간의 개입 없이 스스로 판단해 결론을 도출한다. - P190

경험하지 못한 것을 판단해 결론을 찾아야 하는 순간도 있다. 옳고 그름을 떠나서 반드시 결론을 도출해야 하는데 이것이 바로 딥러닝이다. 알고리즘이 사람이라면 이 순간 어떤 결론을 도출할 것인가? 딥러닝은 이 해답을 사람의 개입 없이 오로지 방대한 양의 데이터를 통한 학습으로 찾아낸다. - P190

손을 댄 적이 있어서 불에 손을 대지 않는 건 ‘불이 뜨겁다‘라는 사실적 경험에 나오는 것이다. 이것이 머신러닝이다. ‘저 붉게 타오르는 것에 사람들이 손을 대지 않는 것을 보니 아무래도 좋지 않는 물질인 것 같아. 난 손을 대지 않겠어.‘ 이것은 딥러닝이다. - P190

중복된 비율에 따라 유사도를 측정하는 자카드 유사도jaccard similarity - P194

자카드 유사도 공식은 간단하다. 교집합의 크기를 구하고 이를 합집합의 크기로 나누는 것이다. - P194

유사도를 측정하는 데는 거리 계산을 이용할 수도 있지만, 이처럼 중첩비율을 이용해 유사도를 구할 수도 있다. - P196

자카드 유사도 공식은 전체 대비 중첩 비율만을 고려한다는 문제점이 있다. 데이터가 2개 이상 묶여도 그 묶음 자체를 또 다른 하나의 데이터로 보고 유사도를 측정하는 셈이다. 데이터를 사건으로 본다면 특정 사건이 발생할 때 동시에 발생할 수 있는 사건을 확인하는 상대성, 다시 말하면 조건부 확률값을 취할 수는 없다. 즉, 사과가 출현할 때 딸기가 동시에 출현할 확률은 고려되지 않는다. - P197

집합은 (중략) 연관규칙 분석 association rule analysis 의 기초가 되는 개념이다. 그중 교집합은 집합 내 데이터가 얼마나 중복되는지를 판단하는 기준으로, 유사도를 측정하는 공식으로도 두루 사용된다. - P194

자카드 유사도보다 진일보한, 조금 더 복잡한 연관규칙 분석으로 상대성, 조건부 확률 - P197

현실 세계를 유심히 들여다보면 일정한 패턴에 따라 움직인다는 것을 알게 된다. - P198

반복적인 패턴을 찾아 특정 사건이 동시에 일어나는 규칙을 탐색하는 데이터 분석 방법이 연관규칙 분석association rule analysis이다. 다시 말해, 특정한 사건 A가 발생하는 동시에 사건 B가 발생하는 확률이 얼마나 되는지를 찾아내는 분석이다. 연관규칙 분석은 앞서 이야기한 집합 이론에 기초해 확률적인 값으로 표현하는 대표적인 분석 기법이다. - P198

소비자 구매 데이터를 분석해 함께 팔리는 품목을 상품 배치에 활용하는 것을 장바구니 분석 Market Basket Analysis, MBA이라고 한다. 이러한 연관규칙 분석은 마케팅 분야에서 널리 활용되고 있다. - P198

연관규칙 분석의 핵심은 특정 사건 시 동시에 발생하는 사건을 발견하는 것이다. - P199

전체 사건에서 특정 사건이 동시에 발생할 확률을 연관규칙 분석에서 지지도support라 한다. - P199

지지도는 동시 발생 비율을 전체 사건의 수로 나눈 값이라 방향성이 없다. 다시 말하면, 부품 A와 B는 어떤 부품이 먼저 투입되든 상관없이 두 부품이 동시에 활용되는 경우의 수다. - P200

A가 먼저 투입되고 난 뒤에 투입되는 부품이 어떤 것인지를 판별하는 조건부 확률을 구하면 좀 더 정확한 가치를 찾을 수 있다. 이를 연관규칙 분석에서는 신뢰도confidence라고 한다. - P200

도출된 신뢰도 결과가 과연 활용할 만한 가치가 있는 것일까? 이러한 연관규칙 분석 결과가 유의미한지를 판단하는 기준을 향상도lift라 부른다. 향상도는 결과가 과연 우연으로 발생한 것인지를 판단한다. - P201

향상도는 구한 신뢰도 값을 조건 A와 대칭이 되는 상대 값의 전체 대비 출현 비율로 나눈 값이다. - P201

향상도 (lift)=사건 A & 사건 B의 신뢰도 ÷ (사건 B ÷ 전체 발생 사건 수) = P(A|B) / S(B) - P201

신뢰도(confidence) = (사건 A & 사건 B) ÷ 사건 A = P(A교집합B) / P(A) = P(A|B) - P200

지지도(support) = 사건 A & 사건 B ÷ 전체 발생 사건 수 = P(A교집합B) - P200

향상도는 그 값이 정확히 1이 나오면 두 사건은 서로 완전히 독립적이라고 하고 1보다 작으면 음의 상관관계, 1보다 크면 양의 상관관계라고 한다. 따라서 향상도 값이 1보다 크면 그 값만큼 긍정적인 연관관계라고 본다. - P201

인간은 아주 오래전부터 네트워크를 형성한 구성원 간의 관계와 성향, 패턴 등의 특성을 파악하고자 사회학을 중심으로 꾸준하게 연구했다. 사회학적 관점에서 출발해 지금은 사회학뿐만 아니라 모든 분야에서 활발히 활용되는 네트워크를 이용한 데이터 분석 기법이 바로 사회 연결망분석 social network analysis, (이하 네트워크 분석)이다. - P208

네트워크 분석은 인간과 인간 사이의 관계 아니 이를 넘어 독립적인 사건의 관계 속에서 발생하는 현상을 찾는 분석 기법이다. - P208

네트워크는 분석 대상이 있고 대상 간의 관계를 형성하는 것에서 출발한다. 네트워크는 대상을 나타내는 노드node와 대상 간의 관계를 나타내는 링크link 또는 relationship로 구성된다. - P209

네트워크 분석의 핵심은 상호관계 설정이다. 상호관계를 연결 강도로 정의하려면 그 관계가 얼마나 강한지 약한지를 파악해야 한다. 한번 본 사람과 자주 만난 사람과의 관계는 연결 강도가 확연히 다르다. 그래서 대상 간의 링크를 구성할 때는 유사도, 상관계수 또는 연관규칙의 신뢰도 등과 같은 부수적인 관계 설정 값이 반드시 주어져야 한다. - P209

관계에는 방향성이 있다. 이것은 이성 간의 사랑을 생각하면 쉽게 알 수 있다. 내가 누군가를 짝사랑한다면 이는 한쪽 방향으로 흐르는 단방향성의 관계고 서로가 사랑하면 양쪽 모두로 방향이 형성되는 양방향성을 가지게 된다. - P209

네트워크 분석에서는 그림도 중요하지만, 분석으로 어떤 가치를 도출할 수 있는지 의미를 찾는 것이 더 중요하다. - P212

네트워크 분석에서는 노드, 즉 분석 대상이 얼마나 중심적인 위치를 차지하는가를 판단하는 관점인 중앙성 centrality (또는 중심성)이 있다. 중앙성은 독립성 independence, 자율성 autonomy, 지배력 dominance, 영향력 influence 등을 포괄해 설명한다. - P212

연결degree 중앙성은 특정 노드가 다른 노드들과 얼마나 직접 연결됐는지를 판단하는 값이다. 연결 중앙성은 네트워크에서 직접적인 관계의 깊고 낮음을 가늠한다. 연결 중앙성이 높을수록 네트워크에서 중요한 위치에 있다고 판단할 수 있으며, 전체 노드의 개수에서 해당 노드와 연결된 링크 개수의 비율로 측정한다. - P212

다음으로 인접 closeness (또는 근접) 중앙성이다. 이는 특정 노드와 직접 연결된 연결 중앙성과는 달리 간접적으로 연결된 관계를 고려하는 것이다. 인접 중앙성이 높으면 주변 노드와의 교류가 그만큼 활발하다는 것이며 반대로 낮으면 그만큼 독립적이거나 고립된 관계에 있다고 판단한다. - P212

중요한 노드일수록 다른 노드까지 도달하는 경로가 짧으므로 특정 노드에서 출발해 네트워크의 노드들이 얼마나 가까이 위치해 있는지를 확인한다. 인접 중앙성은 해당 노드와 다른 노드간의 거리의 역수*로 측정한다. - P213

*두 수를 곱해 1이 되는 수. 만약 x=1/2이라면 역수는 2가 된다. - P213

마지막으로 사이 betweenness (또는 매개) 중앙성이다. 사이 중앙성은 네트워크에서 특정 노드가 다른 노드 간의 중개자 역할을 수행하는 정도를 의미한다. - P213

인접 중앙성은 다른 노드와의 최단 거리로 계산되지만, 사이 중앙성은 네트워크에서 해당 노드가 최단 경로에 위치한 비율로 계산된다. 즉, 해당 노드가 다른 노드와 노드가 연결될 때 최단 경로에 포함되는 횟수를 측정한다. 따라서 네트워크의 영향력을 판단하는 기준으로 활용한다. - P214

최근 인기 있는 데이터 분석 기법으로 네트워크 분석이 있으며 이를 통해 도출되는 값으로 중앙성이 대표적으로 사용된다는 걸 아는 것이 중요하다. - P215

세상 모든 것이 데이터이듯이 세상의 모든 것은 분석 대상이 될 것이다. - P216

최신 트렌드를 따라 머신러닝이나 딥러닝 같은 복잡한 분석기법에 관심을 두기보다는 먼저 데이터와 친숙해지기를 부탁드린다. - P216

트렌드에 따라 움직이지 말라 - P216

세상은 빠르게 변한다. 하지만 데이터와 데이터 분석은 변함없이 필요할 것이다. - P216

댓글(0) 먼댓글(0) 좋아요(9)

ｌ

찜하기 ｌ

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-31 16:18

https://blog.aladin.co.kr/765045244/15578850

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항분포를 따른다는 얘기와 더불어 이항분포의 결과가 누적되어 수렴되는 값은 정규분포를 따른다는 내용도 있었다. 이에 따라 단순히 삼단논법으로 생각해보면 로지스틱 회귀분석은 정규분포를 따라야 하는 것이 맞을 것 같은데, 예상과는 달리 로지스틱 회귀분석은 정규분포가 아닌 이산확률분포를 따른다. 이러한 예외를 설명하기 위한 것이 바로 푸아송 분포인데, 오늘은 이에 대한 내용부터 시작한다.

과거에 푸아송 분포라는 말을 들어본 적은 있지만, 이 책의 본문에 나온 일종의 비하인드 스토리 같은 것은 오늘 독서를 통해 처음 알게 되었다. 여기 그 이야기를 일일이 쓸 순 없지만, 이 푸아송 분포라는 것이 나오게 된 게 푸아송이라는 사람이 헤어진 옛 연인에게서 30년만에 편지를 받게 된 것이 계기가 되었다는 사실에 참 신기하고 한편으로는 놀랍기도 했다. 이런 걸 보면 우연이라는 게 어떤 획기적인 일을 일으키는 계기가 될 수도 있다는 것을 다시금 느끼게 된다.
.
.
.
푸아송 분포에 대한 내용에 뒤이어 데이터 분석의 목적이 무엇이냐는 질문에 대한 저자의 답변이 나온다. 여기서 핵심은 예측prediction 인데, 이러한 예측을 잘 하기 위한 과정들로 앞선 포스팅에서 봤었던 군집clustering, 분류 classification 이 나온다. 또한 이에 더해 규칙pattern을 찾는 것이 추가로 언급된다. 마지막에는 앞서 언급한 세 가지를 잘 혼합하여 데이터 분석의 궁극적인 목적인 예측prediction 을 하는 것으로 데이터 분석의 모든 과정이 마무리 된다. 저자의 답변 코너를 통해 이제까지 배웠던 내용들의 큰 줄기들을 가볍게나마 정리할 수 있었다.

절을 바꿔서 이번에는 빅데이터에 대한 내용이 이어진다. 빅데이터의 정의와 함께 빅데이터를 잘 다루기 위해 필요한 역량, 그리고 통계 중심의 데이터 분석과 빅데이터 시대의 데이터 분석 간의 차이를 비교하는 내용까지 저자께서 아주 상세하게 알려주셔서 둘 간의 차이가 어떤 것인지를 명확히 구분할 수 있었다.
.
.
.
뒤이어 자연어 처리와 텍스트 마이닝에 대한 내용이 나온다. 이에 대한 본격적인 논의에 앞서 정형과 비정형이라는 것에 대해 간단히 논하는데, 이 둘을 구분하는 기준은 ‘속성‘이라는 것이다. 간략히 언급하자면 정형은 속성이 이미 정해져 있는 것이고, 비정형은 속성이 아직 정해져 있지 않은 것이다. 데이터 분석은 정형과 비정형 모두에 적용되는 개념인데, 아무래도 비정형인 경우에 좀 더 복잡해진다. 왜냐하면 속성이 아직 정해져 있지 않기 때문에 그것을 찾고 의미를 부여하는 과정이 정형에 비해 추가되기 때문이다.

이어서 자연어라는 것은 말 그대로 일상에서 사용하는 언어를 의미하는데, 이러한 자연어가 포함된 각종 문서같은 텍스트들을 데이터 분석에 적합하게 만들기 위해 그 안에 있는 속성들을 파악하는 기법을 자연어 처리라고 지칭한다.

이 부분을 읽으면서는 예전에 한 과학잡지에서 AI가 학습하는 과정을 설명하는 article을 본 적이 있는데, 거기에서 자연어라는 용어를 봤던 기억이 문득 떠올랐다.

다시 본론으로 돌아와서 자연어 처리가 중요한 이유를 간단히 언급하자면 본격적인 데이터 분석에 선행되는 작업이기 때문이라는 게 일단 가장 큰 이유다. 기타 다양한 이유들도 있지만 가장 핵심은 데이터 분석의 사전작업 성격 때문이라고 말할 수 있다.

이와 비슷한 개념으로 텍스트 마이닝이라는 것도 나오는데 이는 앞서 자연어 처리로 1차 가공된 데이터들을 다시 분석하여 그 안에 내재된 의미나 의도 등을 파악하는 거라고 보면 된다. 이 책이 데이터 관련 서적치고는 비교적 초심자들에게 맞춰서 핵심만 쓰다보니 구체적으로 들어가지는 않지만 일단 이 정도의 기본 개념만 알고 있어도 좀 더 심화된 다음 단계로 나아가는 데 도움이 될 듯 하다.

실험횟수가 많으면 대체로 정규분포를 따른다. 하지만 그중에서 정규분포를 따르지 않는 이산확률은 어떻게 설명할까? 그 해답은 푸아송 분포Poisson distribution에 있다. - P165

여기서 말하고자 하는 것은 바로 앞서 계속 이야기한 실험이나 관찰 횟수의 시간 간격이다. 옛 연인에게서 온 편지는 30년 만에 한 번이고 프랑스의 극악 범죄는 100년에 한 번이다. 이를 실험에 빗대자면 30년과 100년을 기다려야 두 번째 실험이 가능하다. 긴 시간을 기다린다면 실험 횟수는 꾸준히 증가하겠지만, 실험 횟수로 정규분포를 충족하기에는 시간이 너무 오래 걸린다. 그러므로 딱히 정규분포를 따른다고 이야기하기도 그렇다. 그래서 푸아송 분포가 필요하다. 푸아송 분포는 시간이 충분히 흘러 그 시행 횟수가 충분하다고 가정한다. - P167

푸아송 분포의 핵심은 사건이 발생한 시간 간격(람다)으로, 일정한 간격으로 발생하는 사건의 확률을 구한다. - P167

푸아송분포는 시행횟수가 충분히 많아도 그 확률이 매우 낮을 때 이용한다. - P167

인공지능을 간단하게 표현하면 스스로 판단하고 결정해서 행동하는 것을 의미한다. 이미 내가 할 일을 알고 행동한다는 것은 선행 예측이 이루어진다는 것이다. 그러므로 ‘데이터 분석의 최종 목적은 예측에 있다‘고도 볼 수 있다. - P168

하물며 우리가 점을 보는 것은 미래를 보기 위함이지 내 삶을 돌아보고자 하는 건 아니지 않은가. - P168

군집과 분류를 중요하게 생각하는 이유는 실무에서 공략 대상, 즉 분석 대상을 명확히 하는 데 군집과 분류가 매우 유용하기 때문이다. - P168

규칙이란 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악하는 작업을 의미한다. 규칙을 찾으면 바둑처럼 다음 수가 보인다. - P168

새로운 상황을 설계하고 해당 상황에 유연하게 대처할 수 있는 신의 한수를 찾는 일 (예측) - P169

원래 데이터란 현실 세계에 존재하는 모든 것이다. - P173

시장조사기관 가트너는 기존 데이터와 구별하는 빅데이터의 요소를 3V로 설명한다. 3V는 대용량 데이터 (volume, 크기)와 이를 빠르게 처리하는 기술(velocity, 속도), 다양한 종류의 데이터(variety, 다양성)를 의미한다. 적어도 이 세 가지 특성이 있어야 빅데이터라고 부를 수 있다. 최근에는 여기에 정확성 Veracity 또는 가변성 Variability을 추가해 4V로 설명하기도 한다. - P173

빅테이터를 포함한 모든 데이터는 분석 대상이라서 빅데이터에는 분석의 개념이 포함돼야 한다. 그리고 모든 데이터 분석 활동은 가치를 창출해야 한다. - P173

빅데이터는 빠른 속도로 데이터를 수집하고 발굴해 분석한 후 유용한 가치를 창출하는 다양한 형태의 거대한 정보 집합체를 의미한다. - P173

빅데이터 분석은 모든 유형의 데이터와 적절한 컴퓨터 기술, 그에 맞춤화된 알고리즘과 가치 창출을 위한 유용한 통계적 분석 기법의 결합이다 - P174

빅데이터의 성공적인 공략을 위해서는 대용량 데이터를 자원화하고 이를 가공, 분석, 처리하는 기술을 갖춰야 하며 도출된 결과와 의미를 통찰하는 인적 자원도 있어야 한다. - P175

고된 혁신으로 가는 길에 밑거름이 돼줄 훌륭한 도구가 바로 빅데이터 분석이다. 조직의 행동 패턴, 주변 혹은 시장의 변화와 변동 사항을 알면 바꾸고 도전해야 할 목표를 명확히 설정할 수 있다. - P176

빅데이터 분석은 우리가 가진 능력을 좀 더 효율적으로 분배하고 최대로 이끌어 내게 한다. 어디에서 병목현상이 발생하는지, 어느 부분을 혁신하면 새로운 도전이 가능한지를 분명하게 설명할 수 있다. - P176

빅데이터 역시 분석에 따른 가치가 충분히 창출돼야 의미가 있다 - P177

빅데이터 분석의 핵심은 가치가 있는 데이터를 모으는 것이다. 가치가 있는 데이터가 충분해야 분석을 통한 결과도 신뢰성이 확보된다. 즉, 데이터의 가치에 따라 빅데이터 분석의 성패가 결정된다. 이러한 가치 있는 데이터를 모으는 활동, 그것이 바로 데이터 마이닝 data mining이다. - P177

데이터 마이닝은 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정인 반면, 데이터 분석은 분석 대상이 명확 - P178

통계 분석에서는 대상이나 표본자료 간의 관계가 성립되거나 유사한 대상을 기준으로 하지만, 데이터 분석은 전혀 어울릴 것 같지 않는 대상 간에도 관계를 도출하고 연관성을 찾을 수 있다. - P178

통계 분석은 정교한 분석 기법을 실행해 그 가치의 정확성을 높이는 데 치중하지만, 빅데이터 분석은 정확성은 물론 다양한 기법을 결합해 전혀 예상치 못한 결과를 도출하는 것에도 큰 의미를 부여한다. - P178

빅데이터 분석은 단순히 통계적 분석 기법만을 요구하지 않는다. 다양한 분야의 지식과 컴퓨팅 기술, 여기에 적절한 알고리즘 능력과 인문학적 이해 같은 다양한 학문과 기술을 요구한다. - P179

이전의 통계 분석을 중심으로 한 데이터 분석은 분석 결과를 해석하고 도출된 가치를 판단해 의사결정을 수행하는 반면, 빅데이터 시대의 데이터 분석은 분석 자체가 곧 의사결정이 되고 실행된다. - P179

데이터 분석의 핵심 재료는 데이터다. 데이터가 있어야 분석도 하고 결과를 가치로 연결할 수 있다. 그것이 통계 분석이든 빅데이터 분석이든 재료가 있어야 한다. - P182

시대가 급변함에 따라 데이터도 함께 변하고 있다. 이제 데이터를 분류하는 척도뿐 아니라 그 생김새 (유형)까지도고려해야 하는 시기에 접어들었다. - P182

‘데이터는 현실 세계에 존재하는 모든 것‘ - P182

데이터 분석을 할 현실 세계의 모든 것은 머릿속, 데이터베이스, 엑셀 시트 등 어딘가에 저장돼 있다. - P182

개체, 속성, 값의 관계 - P183

현실 세계의 모든 것을 확인하고 그 특징인 속성을 구분해 해당 속성에 값을 정리한 것 (정형 데이터) - P183

사람, 상품, 생각 등 현실 세계의 모든 것은 그들이 가진 속성에 따라 정리할 수 있다. - P183

정형과 비정형 데이터의 구분 기준은 속성이다. 정형 데이터는 미리 정해진 속성에 따라 정제해 분류된 데이터를 말하고, 비정형 데이터는 데이터 안에서 속성을 찾아서 의미를 새롭게 부여해야 하는 데이터다. 따라서 정형과 비정형 데이터는 그것이 정해진 속성에 따라 구분되냐 아니냐의 차이가 있다. - P183

비정형 데이터 분석은 정제되지 않은 데이터를 통해 그 안에 품고 있는 속성을 탐사하고 의미를 부여해 가는 과정이다. 비정형 데이터는 날것 그대로다. - P183

비정형 데이터를 ‘아직 속성을 파악하지 못한 데이터‘ 라고 말하면 어떨까? - P183

인사말이 적힌 문서는 아직 그 안에 들어 있는 속성이 정리되지 않은 비정형 데이터였다. 따라서 문서 그대로를 하나의 데이터로 본다면 이제 그 안에 내포된 속성을 찾고 의미를 부여해야 했다. - P184

문서에 포함된 언어는 일반 사회 속에서 서로의 약속에 따라 사용된다. 이렇듯 일상에서 사용하는 언어를 자연어natural language라 하는데, 이러한 자연어의 속성을 파악하는 기법을 자연어 처리 natural language processing 라고 한다. - P184

인터넷의 보급과 IT 기기가 보편화되기 이전의 데이터 분석은 속성에 따라 구조화된 데이터의 표본을 다루는 데 더 많은 노력과 시간을 투자했다. 그러나 비정형 데이터가 급속도로 증가한 지금은 자연어 처리와 관련한 연구와 노력이 데이터 분석 분야에서도 매우 중요하게 인식되고 있다. - P184

자연어 처리의 범위는 음성과 문서를 모두 포괄하며, 이제 자연어 처리를 넘어 자연어 생성 분야까지 연구가 확대되고 있다. 오늘날 자연어 처리는 인공지능의 중요한 영역으로서 활발히 연구되고 있다. - P184

자연어 처리 기법은 가히 ‘신의 영역‘이라 할 정도로 아직은 어렵고 난해하다. 이런 이야기를 하는 건 단순히 언어적 기능과 문법의 의미, 패턴, 형태를 반영하는 것을 넘어 이제 언어에 내포된 감정 영역까지 다루기에 하는 얘기다. - P185

현재의 데이터 분석은 단순한 기법 하나로 가치에 도달하기가 쉽지 않다. 즉, 우리가 원하는 방향으로 데이터가 알아서 속성별로 정리된 구조화된 형태가 되지 않는다는 이야기다. 결국 자연어 처리 기법은 데이터 분석에 앞서는 전처리 과정으로서 매우 중요하다. - P185

자연어 처리 분야는 인공지능 분야와 연결된다. - P185

텍스트 마이닝은 글로 표현된 모든 것을 파악해 그 안에 내포된 의미와 의도, 성향 등을 구별하는 기법이다. - P186

텍스트 마이닝으로 도출된 모든 결과가 반드시 가치로 연결되는 건 아니라는 뜻이다. 텍스트 마이닝은 데이터 분석 기법이 아니기 때문이다. 물론 텍스트 마이닝의 결과는 충분히 유용하다. 그러나 여기에 그치지 않고 데이터 분석까지 이어서 하는, 즉 데이터 분석을 위한 전처리로 텍스트 마이닝을 하는 경우가 더 많다. - P186

텍스트 마이닝뿐 아니라 현재 모든 데이터 마이닝은 한 가지 기법만으로 충분히 설명되지 않는 경우가 많다. 여러 복합적인 분석 기법을 활용하는 능력이 데이터 분석가에게 중요하다. - P187

추가로 텍스트 마이닝이 중요한 이유는 일상에서 언어, 즉 자연어로 의사소통을 하기 때문이다. 여기서 언어는 음성과 문자 모두를 말한다. - P187

음성 인식이든 문자 인식이든 분명한 것은 상대방의 의도와 의미를 파악하는 것은 인공지능을 넘어 미래의 가치 창출에 핵심이 될 거란 점이다. - P187

데이터 마이닝을 넓은 의미로 보면 데이터 분석을 하기 위해 데이터를 구조화하는 작업이라고 할 수 있다. - P187

머신러닝 machine learning과 딥러닝 deep learning은 모두 데이터를 활용해 인간의 지시 없이 작동하는 알고리즘이라 보면 된다. 데이터를 재료로 활용하지만 진행 과정은 컴퓨터과학에 더 가깝다. 이 알고리즘은 새로운 신호 (데이터)가 들어오면 자동으로 계산하고 판단해 실행에 옮긴다. - P189

알아서 판단하고 알아서 결정하는 알고리즘. - P189

판단 방식은 크게 두 가지로 나뉜다. 입력된 대상을 이전에 경험한 적이 있는가와 없는가다. - P189

댓글(0) 먼댓글(0) 좋아요(8)

ｌ

찜하기 ｌ

읽고보고듣고쓰고

리스트

리뷰/페이퍼

방명록

[100자평] 드립백 과테말라 안티구아 파노라마ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-02 13:33

얼마전《최재천의 곤충사회》라는 책을 읽으면서 과학 관...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 20:18

[100자평] 데이터를 부탁해ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 19:43

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 13:27

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-31 16:18

서재지수 : 109145점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)