멀웨어 데이터 과학 : 공격 탐지 및 원인 규명
Joshua Saxe.Hillary Sanders 지음, 전인표 옮김 / 영진.com(영진닷컴) / 2020년 11월
평점 :
장바구니담기


 

사이버 세상에도 인질극이 벌어진다. 바로 랜섬웨어다. 랜섬웨어는 시스템 화면이나 파일을 암호화해 사용자의 접근을 차단한다. 이때 복구를 위한 암호 해독키를 보내줄테니 거액의 돈을 내라고 요구한다. 이때 인질은 주로 데이터다.

 

은행을 생각해 보자. 중앙 서버에는 고객 정보와 예출금, 대출금과 이자 납부 현황 등이 방대하게 저장돼 있을 것이다. 어느 날 갑자기 이 데이터에 접근할 수 없다고 해 보자. 홍길동 씨가 찾아와 예금을 내달라고 한다. 은행 측은 확인할 방법이 없으니 돈을 내줄 수 없다. 은행은 잠시 문을 닫는 수밖에 없다. 악당들은 이 점을 노리는 것이다.

 

랜섬웨어를 비롯해서 악의적인 목적으로 작성된 실행프로그램을 멀웨어(malware)’라고 한다. 쉽게 말하면 멀웨어는 컴퓨터를 혼란스럽게 만들거나 제대로 작동하지 않게 하는 모든 악성 코드를 말한다. 여기서 ‘mal-’악성의’, ‘나쁜뜻을 지닌 접두어다. 가령 악성 종양은 ‘malignant tumor’라고 한다. 영화 말레피센트(Maleficent)는 잠자는 숲속의 공주에 나오는 악녀 말레피센트를 주인공으로 했다.

 

멀웨어 배포 방식은 피싱이 대표적이다. 이메일이나 문자로 전송된 첨부 파일이나 URL을 클릭하면 악성 코드가 깔리는 방식이다. 광고 배너를 클릭하거나 감염된 USB를 통해서도 전파된다.



이제 창과 방패, 훔치는 자와 지키는 자의 싸움이 시작된다. 훔치는 자가 악성 코드를 뿌린다면 지키는 자는 데이터 과학 알고리즘으로 맞선다. 데이터 과학은 통계, 수학, 데이터 시각화를 사용하여 데이터를 이해하고 예측하는 알고리즘 도구들을 말한다. 여기에는 머신러닝, 데이터 마이닝과 데이터 시각화라는 세 가지 구성 요소가 있다.

 

데이터 과학이 사이버 보안에 관건이 되는 이유는 크게 세 가지다.

 

첫째, 보안은 데이터가 전부다. 보안 전문가들은 파일, 로그, 네트워크 패킷 등 아티팩트의 형태로 데이터를 분석하여 사이버 위협을 탐지한다. 즉 멀웨어를 사전에 탐지하고 감염을 예방하거나 치료하는 기술이 더욱 중요해졌다.

 

둘째, 인터넷 상의 사이버 공격 횟수가 급격히 증가하면서 사이버 보안의 데이터 과학이 중요해졌다. 멀웨어는 최근 2008년 약 100만 개에서 20121억 개로 늘어나더니 20187억 개 이상이 되었다.

 

셋째 데이터 과학은 근 10년간 보안 산업 분야에서 기술적 트렌드로 자리매김했다. 4차 산업혁명을 주도하는 AI, 자율주행, 드론 같은 분야에서 데이터 보안은 핵심이다.



책은 크게 12장으로 구성됐다.

 

1장 기본 정적 멀웨어 분석

멀웨어 파일들을 판별하고 이들이 컴퓨터에서 어떻게 악의적인 목적을 달성하는 지 알아내기 위한 정적 분석 기법을 다룬다.

 

2장 기본 정적 분석을 넘어 - x86 디스어셈블리

x86 어셈블리 언어와 멀웨어의 디스어셈블 및 리버스 엔지니어링 기법에 대한 개요를 설명한다.

 

3장 동적 분석 개요

동적 분석에 대해 논의하면서 리버스 엔지니어링 섹션을 마무리하며, 통제된 횐경에서 멀웨어를 실행하여 행동양식을 학습한다.

 

4장 멀웨어 네트워크를 이용한 캠페인 공격 식별

멀웨어 프로그램이 호출하는 호스트 이름과 같은 공유 속성을 기반으로 멀웨어를 분석하고 시각화하는 방법을 알아본다.

 

5장 공유 코드 분석

멀웨어 샘플의 공유 코드 관계를 식별하고 시각화하는 방법을 살펴본다.



6장 머신러닝 기반 멀웨어 탐지기

머신러닝의 기본 개념에 대해 알기 쉽게 설명한다.

 

7장 멀웨어 탐지 시스템 평가

최선의 접근 방법을 선택할 수 있도록 기본적인 통계 매소드들을 사용하여 머신러닝 시스템의 정확도를 평가하는 방법을 보여준다.

 

8장 머신러닝 탐지기 만들기

머신러닝 시스템 구축에 사용 가능한 오픈 소스, 머신러닝 도구를 소개하고 사용법을 알아본다.

 

9장 멀웨어 트렌드 시각화

악성적인 공격과 트렌드를 파악하기 위해 파이썬을 사용하여 멀웨어 위협 데이터를 시각화하는 방법과 보안 데이터를 분석할 때 일상적인 워크플로우에 데이터 시각화를 통합하는 방법을 다룬다.

 

10장 딥러닝 기초

딥러닝의 기초가 되는 기본 개념을 다룬다.

 

11장 케라스를 활용한 신경망 멀웨어 탐지기 만들기

오픈 소스 툴을 사용하여 파이썬에 딥러닝 기반 멀웨어 탐지 시스템을 구현하는 방법을 설명한다.

 

12장 데이터 과학자 되기

데이터 과학자가 되기 위한 다양한 경로와 실무에 도움이 되는 소양을 공유한다.



마지막으로 부록 편에서 책에 나온 데이터셋과 도구의 구현을 설명한다.


이 책은 멀웨어의 알고리즘을 분석하여 데이터 보안을 어떻게 개발할 것인가를 다룬다. 멀웨어 데이터 과학을 이해한다면 네트워크 공격 탐지, 피싱 이메일 또는 의심스러운 해커 행동 등 여타 보안 영역에도 응용할 수 있을 것이다. 데이터 과학의 프로파일링이 아닐 수 없다.

책의 주 독자층은 컴퓨터 보안에 데이터 과학을 적용하는 방법에 대해 학습하고자 하는 전문가들이나 거의 전문가 수준의 매니아를 대상으로 한다. 일반 독자들도 읽을 수는 있겠으나, 데이터 과학 보다는 보안과 메소드에 치중되어 있다는 것을 알아두었으면 한다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo