데이터 분석을 위한 줄리아 - 시계열 데이터, 예측 모델, 랭킹 등 핸즈온 프로젝트로 마스터하는 줄리아 데이터 분석
보구밀 카민스키 지음, 류현지 옮김 / 제이펍 / 2024년 3월
평점 :
장바구니담기


어쩌다 보니 회사에서 데이터 분석 업무를 수행하고 있다. 그러다 보니 SQL과 Pytho을 자주 활용하고 있는데, 둘 다 배우고 활용한 경력이 얼마 되지 않다 보니 퇴근하면 집에서 수시로 관련 서적이나 강의들을 찾아 보면서 공부를 하고 있다. 매주 한 번 이상 관련 서적들을 검색하다 보니 데이터 분석에 관한 책 광고를 접하고 있는데 그 중 하나가 이 책에 관한 광고였다.

매주 데이터 분석에 관한 책들을 검색하고, 또 이미 많은 책들을 사놓았기에 관련 책 광고들이 보여도 그냥 지나치는 경우가 많은데 'Python보다 빠른 Julia'라는 이 책의 광고 카피를 보고서는 그냥 지나치기가 어려웠다. 왜냐하면 회사에서 간단한 데이터 분석을 하는 경우에는 Python을 사용하는데 있어 전혀 불편함이 없지만, 조건이 복잡해질수록 생각보다 오랜 시간이 걸린 경험이 자주 있었기 때문이다. 최근에도 최근 1년치 데이터를 특정 조건으로 분석해보고자 코드를 작성하고 실행했는데, 반나절 돌아가다가 결국 오류로 다 날라가버리는 바람에 시간을 날린 일이 있었다. 결국 연간 데이터를 한 번에 분석하지 못하고, 1달씩 데이터를 쪼개서 분석을 했는데, 그런 답답한 마음이 Julia에 대해 관심을 갖게 만든 것 같다.

이 책에 따르면 줄리아는 코드 컴파일과 대화형 사용을 통해 고급 프로그래밍 언어임과 동시에 실행 속도가 빠른 프로그래밍 언어라고 한다. 줄리아 창시자들은 이런 줄리아에 대해 '줄리아는 C처럼 실행되지만, 파이썬처럼 읽힌다'고 이야기를 했다고 한다.

줄리아에도 단점이 있는데 그건 함수를 처음 실행할 때는 코드 실행 전에 먼저 컴파일을 해야 하는데, 컴파일하는 데 시간이 오래 걸린다는 점이라고 한다. 그리고 아직 기존에 데이터 분석에 많이 활용되고 있는 파이썬이나 R의 패키지 생태계 범위에 비해 신규 플레이어인 줄리아의 패키지 생태계가 다소 협소한 부분 역시 단점으로 지적하고 있다.

이처럼 줄리아와 파이썬은 서로 우위에 서는 포인트가 다르다. 그렇기에 어떤 프로그램 언어가 더 우월하다고 말할 수는 없지만, 적어도 이 책에서 나온 내용을 중심으로 생각해본다면 파이썬은 데이터 분석 외에도 웹 개발이나 시스템 스크립팅 등 다양한 분야에서 활용되는 것에 반해, 줄리아는 데이터 분석과 수치 계산에 최적화된 프로그래밍 언어이다 보니 대규모의 데이터 분석과 수치 계산을 필요로 하는 경우에는 줄리아가 좀 더 우월한 언어가 아닐까 생각된다.

이런 줄리아를 어떻게 사용할 수 있는지, 줄리아를 활용한 데이터 분석의 가장 기초적인 내용들이 이 책에 잘 정리되어 있다. 평소 파이썬을 주로 사용하다 보니 줄리아의 명령들 파이썬과 유사해 보이긴 하지만, 다르다 보니 뭔가 어색한 느낌이 들었다. 예컨대 데이터 타입을 확인하는 방법이 Typeof(~~~)라든지, and를 사용하고자 할 때 '&'를 한 번 사용하는 게 아니라 '&&' 두 번 사용한다든지 하는 게 눈에 익숙하지 않았다. 그러나 파이썬과 구체적인 명령어가 달라서 그렇지, 그 방식이나 툴은 비슷하다 보니 실제로 활용한다고 하면, 익숙해지는데 그리 오랜 시간이 걸리지는 않을 것 같다^^;;

그렇다면 편리함과 높은 성능을 보유한 줄리아를 설치해보러 가자. 줄리아 홈페이지에 접속해서 자신의 운영체제에 적합한 줄리아 버전을 다운로드 및 실행하기만 하면 된다! 줄리아 다운로드 페이지 주소는 https://julialang.org/downloads/

책을 살펴보면 알겠지만, 줄리아에서 기본적인 데이터 분석을 위한 도구들을 매우 친절하게 잘 정리해주고 있다. 데이터를 로드하고, 원하는 데이터들을 추출하거나, 데이터프레임을 변형하는 방법들이 아주 상세하게 정리되어 있어서, 코드를 따라하다 보면 금세 내가 원하는 데이터들로 보기 좋게 시각화 할 수 있도록 도움을 준다. 덕분에 줄리아를 처음 접해 본 나 같은 사람도 기존에 사용하던 파이썬과 살짝 다른 부분들이 어색하게 느껴질 뿐이지, 어렵다는 느낌은 전혀 받지 않았다!

​개인적으로 한 가지 아쉬운 점이라면, 줄리아가 데이터분석에 최적화된 언어라는데, 회사에서 활용하는 pyspark에서는 Julia를 사용하는 것이 지원되지 않다 보니 정작 대규모 데이터를 활용하는 회사에서는 사용하지 못한다는 점이다. 모든 언어가 마찬가지겠지만 자주 사용해야 익숙해지고, 실력도 늘텐데... 데이터 분석에 최적화된 언어인 Julia를 자주 접할 수 없다는 게 너무 아쉬울 따름이다.

지금 당장은 Julia를 자주 사용할 일이 없겠지만, 데이터 분석에 최적화된 언어이다 보니 분석해야 하는 데이터의 양이 점점 증가할수록 많은 기업에서 Julia에 대한 수요가 늘어날 것이라 생각된다. Julia에 대해 다른 사람들보다 먼저 접해보고, 또 기본적인 활용법들에 대해 익히면 분명 나중에 쓸모가 있을 것이라는 생각이 든다! 그런 점에서 책을 읽고, 학습 코드들을 따라 타이핑 하면서 매우 만족스러웠다^^!

파이썬이 아닌 다른 데이터 분석 언어에 관심이 있는 분들이라면 꼭 한 번 읽어볼만한 책이라고 생각된다.​

그리고 사족으로....
이 책을 읽어보면 Julia의 기본적인 활용법에 대해서 익힐 수 있을텐데, 혹 이 책의 내용을 바탕으로 줄리아에 대해 좀 더 심화 학습을 하고자 한다면 아래 사이트를 방문하면 된다.
https://julialang.org/learning/books/
https://docs.julialang/en/v1/

표준 라이브러리 외에 패키지 활용을 위해서는 아래 사이트를 방문해서 검색해보면 좋다
https://juliahub.com/us/Packages

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo