데이터 품질의 비밀 - 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드
바 모세스.라이어 개비쉬.몰리 보르웨르크 지음, 데이터야놀자 옮김 / 디코딩 / 2023년 4월
평점 :
장바구니담기


IT 일을 하는 내내 데이터와 어울렁더울렁하며 살았기에 데이터 품질과 거버넌스라는 개념 자체에는 익숙합니다. 그럼에도 속시원하게 데이터 품질관리를 했거나 거버넌스를 실현했다고 감히 말하지 못합니다. 업무 관련 법규에 따라 강제로 DBMS 메타데이터 관리를 도입했던 조직은 필요한 데이터를 모두 DB에 넣지 못했고, 그런 관리 솔루션을 도입하지 못했던 조직은 뭐는 'T', 뭐는 '1', 뭐는 TRUE, 뭐는 'Y' 혹은 'y' 같은 식으로 이력을 모르면 분석할 엄두를 내지 못하는 지경이기도 했습니다. 2023년을 기준으로 '데이터 거버넌스'는 민망하거나 엄두가 나지 않아 꺼내기 힘든 어휘이기도 합니다. 전산실에서 일하던 때에는 어떻게든 데이터 거버넌스를 도입하고 싶어서 선두주자이지만 고가였던 전문 솔루션은 제치고 MS Data Quality Services(https://learn.microsoft.com/ko-kr/sql/data-quality-services/data-quality-services) 자료를 탐독하기도 했습니다. 그나마 도입 가능하다고 보았었지요.


빅데이터가 대세가 되자 데이터 거버넌스의 전 단계로 데이터 카탈로그 도입을 많이 거론했습니다. Hadoop 에코 시스템의 Atlas(https://atlas.apache.org/)는 일견 매력적이었으나 클라우드 시대를 맞아서는 들어맞지 않는 부분이 생겨서 개인적으로는 작별을 고했습니다. 그렇게 AI 열풍을 맞아 지내다 이 책을 만났습니다. 꽤 놀라웠습니다. 고민하고 살던 이슈 중 상당 부분을 이 책에서 거론하고 있었습니다. 저자들의 식견이 상당합니다. 데이터 웨어하우스, 데이터 레이크, 데이터 플랫폼, 데이터 거버넌스 등 데이터를 기술 관점만이 아니라 경영과 운영(Operation) 면에서도 수준 높게 다루고자 하는 이는 이 책을 가이드 삼아 action plan을 만들어도 좋겠습니다.


다만, 예시를 너무 자세히 보이거나 통계지표를 나열하다가 IT 아키텍처를 논하면서 나중에는 정책과 방향성을 다루는 이 책의 내용이 널뛰는 듯하게 느껴질 수도 있겠다는 우려가 들었습니다. 저자가 여럿이어서 그럴 만하긴 한데, IT 부서만 잘한다고 데이터 품질이 잘 관리되는 게 아니기 때문이기도 하겠습니다. 더불어 TO-BE 이미지를 명확히 제시하지는 않기에 IT 경험이 적은 독자는 두루뭉술하다고 오해하여 짜증이 날 수 있습니다. 이 사안은 조직문화와 직결하기에 정답이 나오지 못하다는 현실을 알아주길 바랍니다. 누가 뭐래도 데이터 업무 종사자라면 한 번 읽고 버릴 책은 아니라고 봅니다. 내가 뭘 빼먹고 있지는 않은가 가끔씩 살피기에 적당하겠습니다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo