10대를 위한 데이터과학 with 파이썬 - 파이썬으로 열어보는 데이터 보물 창고 구구박사님의 10대를 위한 시리즈 3
구덕회 외 지음 / 잇플ITPLE / 2024년 7월
평점 :
장바구니담기


10대도 아닌 인간이 이 책을 잡은 이유는 10대도 읽을 수 있으니 50대중반이 읽으면 5.5배 더 빠른 습득을 할 수 있겠다고 생각했습니다. 나름 이까짓 데이터, 파이썬. 읽으면 알 수 있겠지 하면서 몰래 읽을 책들 사이에 숨겨놨습니다. 그런데 10대 아이가 봤는지 ˝아빠, 그거 읽으면 이해할 수 있어요?˝ 물어봅니다. 아니, 사람을 뭘로 보고, 읽고 나서 잘난척 하려고 했는데... 하. 어찌됐든 읽고 이해하면 좋겠습니다.

모두 네 단계 구성입니다.
1. 파이썬과 친해진다.
2. 파이썬으로 데이터 과학을 접한다.
3. 판다스를 활용하여 데이터 과학을 경험한다. (판다스? 웬지 주춤거리게 만드는 단어입니다)
4. 인공지능을 활용한 데이터 과학을 경험합니다.
머리말
별거 아닙니다. 어려운 파이썬 프로그램보다는 데이터 과학에 익숙해지는 과정입니다.

1장은 준비운동입니다. 파이썬을 구동하는 프로그램을 다운받는 겁니다. (파이썬은 받는 것이 아닌가? 왜 아나콘다를 받아야 하지? 의문은 커지지만 뭐 시킨대로 하면 되겠죠)
그냥 사이트가서 다운받으면 끝인줄 알았는데, 조금 바뀌었습니다. 이메일을 입력하면 메일로 다운받을 수 있는 링크를 보내줍니다. 메일함에 들어가보니 다운받을 수 있습니다. 무려 956메가의 용량입니다. 설치는 책에 나온 대로입니다.
책에는 쥬피터의 도스화면이 나오고 프로그램이 뜬다고 하는데... 안뜹니다. 유치원단계에서 막힙니다. 답답하네요. 도스화면이 열리고 html화일을 무엇으로 열거냐고 물어봅니다. ht뭐시기는 익스플로어로 여는거 아닌가?
어리둥절하다가 일단 이상한 도스화면을 놔두고 프로그램 열었던 아나콘다 네비게이터로 가봅니다. 뭔가 쥬피터랩이 나옵니다. 같은 쥬피터겠지. 열어봅니다. 화일 이름도 정하고 과감하게 print (5)를 입력했지만 아무 일도 없습니다.
뭔가 만화의 한장면이네요. 프로그램을 설치하고 멋지게 명령어를 입력했지만 아무 반응이 없습니다.
알고 보니 책에 나온 대로 파이썬 화일로 열어야 합니다.
print를 누르고 숫자 출력, 덧셈, 뺄셈, 곱셈, 나눗셈, 심지어 나머지까지 모두 됩니다. 나머지는 %를 쓰는 거네요. 이제는 print의 마법사입니다. 모든 계산식을 입력할 수 있습니다. 이렇게 2장은 데이터를 입력하면 출력이 된다는 것을 보여줍니다. 정수, 실수, 문자의 함수가 있습니다. int, float, str입니다.
3장은 리스트의 활용입니다. 인덱스, 슬라이싱, 데이터 추가까지 쉽습니다.
4장은 순차와 반복입니다. 왜 계산기를 쓰면 될 일을 명령어를 써서 할까 하는 의문이 있지만 이런 것들이 쌓여 커다란, 복잡한 프로그램으로 가는 것이 아닐까요.
5장은 본격 프로그램!의 세계입니다. 조건에 따라 결과가 달라집니다.
6장은 데이터 시각화로 그래프를 만들어볼 수 있습니다.
여기까지가 병아리반입니다. 이정도는 이해가 되고 따라할 수도 있습니다. 과연 다음은...

7장은 데이타의 기본입니다. 빅데이터라는 것이 양, 속도, 다양성, 정확성, 가치의 다섯 가지 V를 가지고 있습니다.
8장은 피자, 치킨의 데이터로 그래프를 만들어냅니다.
9장은 용돈을 올려야 하는 이유를 물가지수와 더불어 데이터로 도출해냅니다. 멋진 그래프가 완성되는데, 저거는 엑셀로도 가능한거 아닌가 하는 의문이 생깁니다.
10장은 롱패딩을 언제 팔아야 하는가의 질문입니다. 이거 괜찮네요. 기온 데이터, 롱패딩 검색 데이터를 모읍니다. 그럼 평범한 그래프가 완성됩니다. 여기서 데이타를 분석하는 과정이 들어갑니다. 변수를 잡아 최댓값을 찾는 겁니다. 상당히 논리적입니다.
11장은 우리 집에서 가장 가까운 학교를 찾는 문제입니다. 일단 데이터가 중요하죠. 공공데이터에서 ‘전국 초중등학교‘의 위치 데이터를 찾아 다듬어야 합니다. 위도, 경도로 표시되어 있습니다. 전국의 데이터가 모두 들어있습니다. 최단 거리는 피타고라스의 정리를 이용합니다.
12장은 언제 배달음식을 시켜야 빨리 올까 입니다. 질문들이 재미있습니다. 과연 어떤 데이터를 모아야 하고, 어떤 프로그램으로 해답이 나올지 기대됩니다. 카드회사에서 지역별 배달 소비 현황 데이터를 제공하는데 일단 가공된 데이터를 저가가 올린 곳에서 받습니다. 여기서 요일별로 정리합니다. for와 if 문장으로 값이 나옵니다.
13장은 놀이공원은 몇월에 가는 것이 좋을까 입니다. 상식적으로 여름방학을 피해야 할 것같은데, 데이터가 뭐가 있을지 궁금합니다. ‘주요관광지점 입장객 통계‘가 있습니다. 무조건 기본 데이터가 중요하네요. (그런데 무슨 데이터가 2005년입니다. 자료를 열어보니 2005-2020년까지 월별로 있습니다.
막연히 생각한 것과 다른 결과값이 나왔습니다. 여름이 아니었습니다. 15년간의 데이터가 있으니 이게 맞는 거겠지요.

여기까지가 1, 2단계입니다. 프로그램 설치도 못할 것같고, 코드도 이해안될 것같아 걱정했지만 생각보다 쉽게 설치되고, 코드는 엑셀과 비슷해서 따라가기만 하면 됩니다. 의외로 프로그램이 재미있습니다. 파이썬인데 왜 아나콘다에 쥬피터 노트북을 쓰는지는 이해를 못했지만 실행되면 되는거지요.

3, 4단계는 조금 더 깊이 들어가지만 이해는 됩니다. 별거아닙니다. 따라하기만 하면 되네요.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo