처음 처음 | 이전 이전 | 1 | 2 | 3 | 4 | 5 |다음 다음 | 마지막 마지막
빅데이터 커리어 가이드북 - 빅데이터는 무엇이고, 빅데이터 전문가는 어떤 일을 할까?
조성준 외 지음 / 길벗 / 2021년 11월
평점 :
장바구니담기


 

 

서평단 이벤트에 당첨되어 출판사로부터 책을 제공받아 작성한 글입니다.

데이터 분석에 관심있는 사람들이라면 이제는 데이터 사이언티스트, 데이터 애널리스트 등의 직무명을 한 번쯤 들어봤을 것이다. 2016년 이세돌 9단과 알파고의 세기의 대결 이후로 빅데이터, 머신러닝 등이 크게 낮설지 않게 된 것같다. 하지만, 해당 전문가들이 구체적으로 어떠한 일을 하는지, 서로 비슷해 보이는 직무명에 채용공고 내용도 명확하지 않아 빅데이터 분야로의 구직자나 빅데이터팀을 구축하려는 기업에도 혼란을 주는 상황이라고 한다. 이에 책에서는 국내외 구직공고에서 동일한 직무명에 다른 역할을 요구하거나 다른 직무명의 전문가에게 동일한 역할을 요구하는 모호한 상황을 해결하기 위해 직무에 대한 정의를 체계적으로 수립하는 시도를 하고 있다. 빅데이터 직무를 ‘데이터 분석 모델링’이 주요 업무인 ‘데이터 사이언티스트’, ‘시스템 개발’이 주요 업무인 ‘데이터 엔지니어’로 정의하는 식이다.

이렇게 정의한 빅데이터 직무인 데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트, 데이터 리서처, 시티즌 데이터 사이언티스트, 데이터 기획자에 대해 둘째마당에서는 서울대학교 데이터마이닝 센터 집필진이 네이버, 삼성전자 등과 같은 IT 대기업, 번개장터와 같은 스타트업 업체 등의 전문가를 인터뷰한 내용을 담아 각 전문가가 구체적으로 산업 현장에서 어떤 일을 하는지를 가늠할 수 있게 하고 있다. 어쩔 수 없이 각자의 분야에서 어느 정도의 성과를 올리고 있는 사람들을 인터뷰 대상으로 했을 것이기 때문에 학력은 석,박사 이상들이다. 책 뒷부분의 넷째마당에서 빅데이터 관련 취업 준비 과정을 인턴십, 연구경험, 데이터 분석대회(공모전), 링크드인과 깃허브로 온라인 프로필 관리하기 등으로 별도의 취업 관련 서적이라고 해도 될 정도로 충분한 내용을 제공하고 있기 때문에 차근차근 준비하고 경험을 쌓으면서 해당 전문가들 수준을 지향해야 하지 않을까 싶다.

이 책의 셋째마당은 거의 모든 빅데이터 지식 분야를 다루고 있다고 해도 과언이 아니라고 생각한다. 효과적으로 셋째마당을 학습할 수 있도록 지식을 습득하는데 중추적인 주요 키워드에는 굵게 표시된 빨간색 음영을 표시하고 있어 나중에라도 참고하고 추가 학습할 경우를 위해 편의를 제공하고 있다. 9개의 장으로 구성되어 있는데, 그 중 8장 머신러닝 부분을 간략하게 소개해 보면, 접근법이나 데이터의 특성에 의한 문제 해결법에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)으로 구분하고, 이후 국내 최고의 데이터마이닝 분야 집단에 걸맞게 비교적 쉽게 넓은 부분의 키워드 중심의 설명을 전개하고 있다. 지도학습은 '모델에 과거 정답을 제공한 상태에서 미래 정답을 예측하는 문제', 비지도학습은 '모델에 정답 없이 데이터만 제공한 상태에서 데이터의 패턴을 알아내는 문제', 강화학습은 '모델이 시스템과 상호작용하며 최적의 결정을 내려야 하는 문제'라고 요약하고 있다.

또한 독자들이 주도적으로 관심 부분에 대한 학습을 확장할 수 있도록 필요시 각 장 말미에 "공부자료" 부분을 구성해서 온라인자료 QR코드와 책 목록 등을 제공하고 있다.

 

 

 

 

넷째마당에서는 빅데이터 직업 시장, 준비활동, 취업 절차의 장으로 구분해서 빅데이터 시장에 취업하기 위해 어떠한 준비가 필요한지를 선배가 후배에게 얘기하듯이 자세하게 제공하려 하고 있다. 개인적으로는 나하고 상관없는 일이라 알아보려고도 하지 않았던 해외 취업 절차 내용이 흥미로왔다. 해외 기업은 팀 단위의 상시 채용이 많고, 'Glassdoor Job Search', 'Indeed' 등의 해외 인사,채용 정보 사이트나 링크드인을 활용하면 좋고, 대부분의 해외 기업은 정해진 이력서 양식이 없다는 점 등 흥미로운 내용을 알게 되어 좋았다.

책 제목과 같이 빅데이터 커리어를 쌓으려는 취업 준비생, 이직을 준비하거나 데이터 분야의 전문성을 강화하려는 경력직, 빅데이터 조직을 구성하려는 기업 등에 구체적인 도움을 줄 수 있을 것같다. 아울러 셋째마당의 빅데이터 지식은 굵게 강조 처리된 키워드 중심으로 필요시 찾아보면 개념 정리에 도움이 될 것같고, 참고로 제시하는 온라인 자료, 책 목록 등을 통해 학습의 폭을 넓히는 노력을 하면 지식의 깊이가 더해질 것같다.

 

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
혼자 공부하는 SQL - 1:1 과외하듯 배우는 데이터베이스 자습서 혼자 공부하는 시리즈
우재남 지음 / 한빛미디어 / 2021년 11월
평점 :
장바구니담기


한빛미디어의 신간 <혼자 공부하는 SQL> 서평 이벤트에 당첨되어 책을 제공받아 작성한 리뷰입니다.

저자인 우재남님은 몇 년전에 <이것이 우분투 리눅스다>라는 책을 통해 접한 바 있습니다. 점점 기억력이 휘발성화되어가 지금은 책의 내용이 거의 기억나진 않지만, 당시에는 책에 적혀 있는 꼼꼼하고 친절한 설명을 따라 책의 부제처럼 리눅스의 설치부터 서버 & 네트워크 관리에 이르는 방대한 내용을 이론에만 그치지 않고 실습까지 무리없이 진행했던 기억이 있습니다.

개인적으로 기본적인 SQL과 오라클 DBMS 등은 사용 경험이 있어 <혼자 공부하는 SQL>을 통해서는 SQL의 기본과 고급 사용법을 정리하면 좋겠다 싶었고, 책 소개 목차를 보면 뒷부분에 SQL과 파이썬을 연결한 GUI 응용 프로그램도 다루고 있는 것으로 보여 책에 대한 관심이 컸습니다.

 

데이터베이스의 개념을 익히고 구축하는 과정을 통해 SQL을 어떻게 사용하는지 알아보는 ⁠1~3장의 기본편, 본격적으로 SQL을 활용하는 4~8장의 고급편으로 구성되어 있습니다.

SQL과 DBMS에 입문하시는 분들은 책의 내용으로부터 충분히 이론을 습득하고 실습을 통해 내재화할 수 있다고 생각되지만, 별도로 운영되는 학습사이트를 통해 동영상&학습자료, 실습 예제, 저자에게 질문하기 등을 통해 충분한 학습 지원을 받을 수 있는 환경이 구축되어 있습니다.

설명 중간중간에 짤막하게 나오는 "여기서 잠깐" 코너는 저자의 꼼꼼하고 상세한 설명 스타일에 베타리더 활동을 통해서 보강되었으리라고 보여지는, 독자들이 책을 읽고 실습을 진행하다가 마주치게 될 오류 상황과 꼭 필요하지는 않지만 지식을 풍부하게 하는 흥미로운 내용 등으로 책의 깊이를 더하는것 같습니다. MySQL 설치후 실습 진행시 책의 집필 시점과 독자가 책을 읽는 시점의 최신 프로그램 버전 차이로 인한 문제를 방지하기 위해 책에서 사용한 동일 버전의 모든 소프트웨어를 한빛미디어 사이트의 혼공자료실에 등록해 놓고 있습니다.

 

MySQL과 유사한 MariaDB에 대한 "여기서 잠깐" 코너에서는 IT분야에 몸담고 있는 사람들이라면 어느 정도 알고 있을 내용인 MariaDB가 MySQL이 오라클에 인수된후 초기 개발자들이 독립해서 만든 DBMS라는 내용외에도 MariaDB의 로고가 MySQL 로고인 돌고래와 비슷한 물개로 선정된 점, MySQL과 MariaDB 각각의 이름은 초기 개발자인 몬티 와이드니어스(Month Widenius)의 딸 이름 My와 Maria에서 따왔다고 하는 흥미로운 내용도 담고 있어 좋았습니다.

혼자 공부하는 SQL 입문자를 주요 독자로 타게팅하고 있는 것같지만, 지면이 허락하는 한 충분한 내용을 담고 있는 것으로 보여집니다. 고급편에서는 SQL 활용시 실행계획(execution plan)을 통해 간략하게 테이블 풀스캔을 하는지, 인덱스를 사용하는지를 판단해서 SQL 활용시 성능적인 측면도 고려할 수 있도록 소개하고 있고, 균형 트리(Balanced tree, B-tree)라는 "자료 구조"에 나오는 범용적인 데이터 구조까지 설명하고 있습니다.

관계형 DB 사용시 거의 필수적인 조인에 대해서도 표준 SQL 문법으로 내부조인(Inner Join), 외부조인(Outer Join), 기타 조인으로 상호조인(Cross Join), 자체조인(Self Join)을 다루고 있습니다. 혼자 공부하는 독자와 난이도를 고려해서인 것같긴 한데, 프로그램 개발시 자주 사용되는 서브쿼리에 대한 설명이 없는 점은 아쉬운 부분인 것같습니다. 이 책을 통해 SQL과 어느정도 친해지게 되면 기술수준을 업그레이드하기 위해 추가적인 독서나 자료 탐색, 실습 등이 필요할 것으로 보입니다.

 

끝으로, 이 책의 여러 부분중 특히 관심이 있었던 파이썬과 MySQL을 연동한 GUI 응용 프로그램은 단순한 형태이긴 하지만, 응용 프로그램 화면을 통해 데이터베이스 테이블에 자료를 입력하고 조회하는 기본적인 구성을 파이썬 코드 약 100줄 정도로 코딩할 수 있게 되어 있습니다. 파이썬 서적은 아니지만, 책에 있는 MySQL과 연동해서 GUI 응용프로그램을 구현하는데 필요한 필수 문법을 부록으로 제공하고 있어 파이썬을 몰라도 직접 구현을 해 보는데 어려움은 없을 것으로 보입니다. 다만, 오타 등으로 발생한 오류 때문에 바로 실행은 못 해봤는데, 디버깅에 대한 안내가 있으면 더 좋았겠다는 생각을 했습니다.

직접 해봐야 조금 더 기억에 남는다고 생각해서 책에 있는 코드를 직접 타이핑해서 응용 프로그램까지 실행을 시켜 보았습니다. 개인적으로는 SQL 사용 경험이 있지만, SQL 경험이 전혀 없는 독자라 하더라도 MySQL DB에서 SQL에 대한 이론을 습득하고 실습해서 자신의 것으로 만드는, 혼자 공부하는데 좋은 교재라고 생각합니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
다크 데이터 - 보이지 않는 데이터가 세상을 지배한다
데이비드 핸드 지음, 노태복 옮김 / 더퀘스트 / 2021년 10월
평점 :
장바구니담기


빅데이터, 데이터분석, 통계, 머신러닝, AI 등의 용어는 이제 일상에서 흔하게 접하고, 알게 모르게 우리 주변에 깊숙히 영향을 미치고 있는 것같다. 우연히 데이터 관련 카페에서 다크 데이터라는 들어보지 못한 새로운 종류의 데이터를 다루는 책의 출간과 함께 서평 이벤트가 있어 당첨의 기회를 얻게 되었다.

우선 저자인 데이비드 핸드는 옥스퍼드대학교를 졸업하고 세계적인 이공계 명문 대학인 임페리얼컬리지런던의 수학과 명예교수겸 선임연구원으로 2013년에 대영제국 훈장도 받은 세계적 통계학자라고 한다. "신은 주사위 놀이를 하지 않는다"라는 유명한 통계학 책의 저자라고 하는데, 책을 읽어 보지는 않았지만 제목은 다들 한 번쯤 들어봤을 것같다.

"다크 데이터"가 뭔지 궁금했는데 저자는 온갖 유형의 누락된 데이터를 통칭하는 개념으로 얘기하고, 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다고 한다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다. "다크 데이터"라는 용어는 우주의 약 27%를 차지하는 불가사의한 물질이나 오랫동안 존재가 알려지지 않았던 물리학의 "암흑물질(dark matter)"에 비유할만하다고 한다.

저자는 다크 데이터를 발생 이유에 따른 분류체계에 따라 첫번째 유형(DD 유형 1: 빠져 있는지 우리가 아는 데이터), 두번째 유형(DD 유형 2: 빠져 있는지 우리가 모르는 데이터) 등과 같이 15가지 유형으로 분류해서 소개하고 있다.

첫번째 유형의 사례로 영국의 "트라우마 검사 및 연구 네트워크"의 165,595건의 방대한 트라우마 데이터에서 결과가 알려지지 않은 19,289건에 주목한 부분인데, 트라우마 연구에서 "결과"란 환자가 부상후 적어도 30일이 지난 시점에 생존해 있는지를 의미한다고 한다. 즉 11%가 넘는 환자들의 30일 이후 생존 여부가 알려지지 않았다는 것이다. 이런 경우 자연스럽게 결과가 알려진 146,270명을 분석한 결과에 따라 진단을 내릴 것이다. 하지만 결과가 누락되었다는 것을 알고 있는 데이터가 누락된 상태에서의 결론이 완전히 옳다고 확신할 수는 없을 것이다. 극단적인 예를 들어 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하면, 결과가 알려지지 않은 사례들이 무시되고 트라우마 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않는 사태가 발생할 수 있다는 것이다.

저자는 책의 목적이 다크 데이터의 유형들을 제시하고, 어떻게 유형을 확인할 수 있는지 알려주고, 그 영향력을 관찰하며, 각각의 유형들이 일으키는 문제들을 해결하고 나아가 활용하는 방법까지 알려주는 것이라고 한다. 세계적인 석학의 통찰로 정리한, 일반인들은 존재에 대해 다크할 수 있는(모르고 지나치는) "다크 데이터"에 대한 인사이트를 주는 책이어서 읽어보면 많이 도움이 될 것같다.

"서평 이벤트를 통해 책을 제공받아 작성된 글입니다."


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
처음 처음 | 이전 이전 | 1 | 2 | 3 | 4 | 5 |다음 다음 | 마지막 마지막