웹 데이터 수집의 기술
타쿠로 사사키 지음, 김경록 옮김 / 한빛미디어 / 2017년 8월
평점 :
절판


웹은 정보의 보고입니다. 그러나 아무리 자원이 많다 해도 이를 체계적으로 수집하는 방법론을 갖추지 못하면 허공에 뜬 별을 향해 손짓함이나 마찬가지입니다. 기업은, 무엇을 위해, 어떤 용도로 데이터를 수집할지 먼저 목표의식, 혹은 전략 지향부터 분명히 정해야 하며, 이를 위해 가장 경제적이고도 효율적인 방법을 찾아 내어야 합니다.

책에서는, 2020년 경 웹에는 대략 35제타바이트 정도의 정보가 축적될 것으로 예측합니다. 제타바이트란, 인간의 머리로 그 어림짐작조차 힘든 방대한 양입니다. 현재 많이들 쓰는 하드디스크(HDD 기준)이 대략 4테라 수준인데, 이 다음(즉 천 배를 한 것)이 페타, 그 다음이 엑사, 그 다음이 제타입니다. 제타를 영어(뿐 아니라 다른 언어에서도 역시 같습니다)로 쓸 때에는 zetta-를 쓰는데, 여러 모로 재미있는 접두어입니다.

우선 헬라어 자모로 숫자를 표기할 때 7을 나타내던 게 바로 ζ, 즉 제타입니다(물론 이때에는 t를 한 번만 쓰는 게 표준표기입니다만). 7이 각별한 의미를 지니는 건, 이 제타가 1000의 7제곱(즉 10의 21제곱)이기 때문이죠. 헬라어에서 7은 "헵타", 라틴어에서는 "셉툼"으로 불렸고 어원도 같습니다. 그래서 본디는 "엡타" 정도로 불려야 옳았겠으나, 일단 "페타" 등과 운을 맞추고(단, 페타에서는 t가 하나입니다), 앞에 선명하게 자음을 달아서 더 음가 분별을 높이려 한 의도로 보입니다. 이 "제타" 다음에는 "요타"인데, 역시 t는 두 개이고, 앞으로 단위가 올라갈수록 z, y, x 등으로 거꾸로 알파벳을 달아가겠다는 뜻입니다.

데이터는 물론 디지털 형태로만 생성되지는 않습니다. 그러나 현재 추세대로라면, 분석의 대상이 되는 유의미한 정보의 94%는 디지털 포맷이며, 이 비율은 앞으로 점점 늘어가리라는 게 저자의 추측입니다. 구글은 일찍부터 가장 효과적인 데이터 추출 방법 고안에 정력을 쏟았으며, 벌써 10년 전에도 회사의 정보 담당 관리자들은 "구글에서 언제 이런 것까지 다 뽑아갔대?"라며 감탄하기도 했습니다. 물론 지금은 감탄이 아니고 불쾌, 경계의 반응이 우선이지만 말입니다. 당시만 해도 데이터의 가치를 낮게 평가했고, 그저 흘러가거나 버리는 쓰레기를 용케도 잘 활용한다거나, 미디어를 비롯 세간의 칭찬을 받아 마땅한 대견한 스타트업 정도로 여겼겠죠.

스크린 스크래핑이라는 말을 보통 쓰는데 화면에 보이는 것만 일단 대상으로 삼아서이며, 그저 우리 직관대로 "웹 스크래핑"이라 해도 무방합니다. 우리가 "봇(bot)"이라 보통 부르는 건 크롤러입니다. 여기서부터는 사람이 일일이 검색어를 설정하고 가치를 정제하는 게 아니라, 프로그램이 스스로 알아서 다음 단계의 검색을 상정하고 자체 Db를 갱신하기까지 합니다. 이 단계가 중요한데, 많은 이들은 BI, 즉 비즈니스 인텔리전스를 두고, 이미 스스로 가치 판단이나 의미의 추출을 알아서 행하는 단계, 능력까지를 요구합니다.

정보화 시대에 그저 사람의 지성과 판단의 보조 도구로 쓰인 게 컴퓨터였다면, 이제 이들은 "주인"이 뭘 요구하기 전 한 발 앞서서 "주인이 요구할 만한" 정보를 미리 정리, 정제하고 가치를 창출한 후 기다린다는 뜻입니다. 웹에서 정보를 추출하는 작업도 어느새 사람의 손을 떠난지 꽤 되었다고 생각하니 새삼 긴장이 되기도 하는군요.


댓글(0) 먼댓글(0) 좋아요(3)
좋아요
북마크하기찜하기 thankstoThanksTo