데이터 라벨링으로 돈 잘 버는 N잡러 되기 - 입문에서 고수입까지, 데이터 라벨링 한 권으로 끝내기
심정우.박민영 지음 / 라디오북(Radio book) / 2023년 8월
평점 :
장바구니담기


데이터 라벨링? 우선 데이터 라벨링이이 뭔자 알아야지 이책의 내용이 이해되기 시작한다. 데이터 라벨링이 등장하게 된 계기는 인공지능과 매우 밀접한 관계가 있는데, 인공지능이라는게 전지전능한 신의 영역처럼 과대포장되는 경우가 있지만, 엄연히 기존 데이터를 중에서 해답을 찾아내거나 데이터 학습이란것을 통해서 결과물을 내어 놓는 것이다. 문제는 인공지능이란 녀석이 처음부터 세상의 수많은 데이터를 인식하지 못한다는 것이다. 가끔 인터넷에서 특정 싸이트를 가입하거나 할때 사진이나, 숫자를 보여주면서 가입자가 사람인지 물어보는 경우가 있는데, 사람이라면 당연히 알것이고, 기계라면 모를것이기 때문에 허수가입을 방지하기 위하여 만들어 낸 절차라고 한다. 인공지능이 사람처럼 판단하게 되려면 사진, 문서, 음성, 동영상 등 사람이 만든 데이터를 인공지능 AI가 인식하고 학습할 수 있도록 데이터를 가공해서 기계가 인식할 수 있도록 해주는 해야하는 데, 이게 데이터 라벨링이다. 즉 강아지 사진에 대한 데이터가 있으면 '강아지', 고양이 사진이 있으면 '고양이'라고 해당 객체에다가 주석을 달아주는 것을 말한다. 사람은 어릴때부터 수많은 학습을 통해서 강아지와 고양이를 구분할 수 있게 되었지만, 인공지능의 경우 수많은 데이터 검색과 주석을 통해서 강아지와 고양이를 판단하는 것이다.

사실 이런 과정을 모르고서는 어떻게 인공지능이 그 많은 데이터를 소화할까 생각했는데, 설마 하나부터 백까지 다 조목조목 알려주는 것일까 의심했던 적이 있다. 그런데 실제로는 수많은 강아지와 고양이 그림을 인지할 수 있도록 도와줘서 어느 정도 학습이 된 후에는 해당사물을 보고 개와 고양이를 구분해 내는 것이다.

데이터 라벨링으로 수입을 올리는 것은 인공지능(기계)학습 모델을 훈련시키기 위해 데이터를 정확히 분류하고 라벨링하는 작업이며, 이에 대한 대가가 지급된다. 이 작업은 주로 문서, 그림, 동영상, 같은 비정형 데이터를 분류하고 주석을 다는 일이고, 주로 온라인 상에서 작업이 이루어지며, 일반적으로 시간당 기준으로 보수를 받는다고 합니다. 하지만 데이터 양이 많을 경우, 일정 기간 동안 일을 맡아 수행하는 프로젝트 형태의 일자리도 있다고 합니다. 월급쟁이처럼 고용이 되는 경우도 있지만 대부분의 경우 프리랜서형태로 처리한 업무량에 따라 그 보수가 결정되며, 당연하게도 여러 회사의 요청을 받아서 동시다발적으로 일을 하는 경우도 많다고 합니다.

​이런 종류의 작업은 단순하기도 하지만 숙련도가 중요한데, 아무래도 경험이 쌓이다보면 동일한 시간내에 더 많은 데이터를 정확하게 처리할 수 있다고 합니다. 사실 숙련자는 어느 분야에서나 더 선호되고 요구되어 지기는 하지요.

이책에서는 데이터 라벨링의 정의부터 용어 및 현재의 업계상황부터 설명하고 있습니다.

현직 데이터 라벨러가 자기의 경험을 바탕으로 초보단계의 시행착오를 줄이고 빠르게 스킬을 늘려서 중/고수 단계로 나아가는 노하우를 알려주고 있습니다. 책의 목차에서 볼수 있듯이 작업 효율을 높이기 위한 프로그램 사용법, 어찌보면 제일 중요한 되되는 프로젝트를 구별하고 시급/작업내용을 기록하는 법, 널리쓰이는 대표 데이터 라벨링 플랫폼별 저작도구 사용법 등의 소개와 자기만이 노하우가 등장합니다. 특히 책의 후반부에는 전업과 부업으로 활동하고 있는 저자 2인을 비롯해 전업주부, 60대 은퇴자, 투잡하는 직장인 등 데이터 라벨링으로 높은 수입을 얻고 있는 현직 데이터 라벨러 4인의 인터뷰를 해당 분야의 노하우, 장점, 단점 등으로 공개하였는데, 이부분이 매우 실감납니다.

데이터 라벨링의 경우 현재 플랫폼들(대표적으로 크라우드웍스, 에이모 등)을 통해 참여가 가능하며 데이터 라벨링 교육은 물론 작업 신청 또한 할 수 있다고 합니다. 하지만 대부분의 플랫폼에서, 사실 어느 부냥야든 유사하겠지만 초보가 할 수 있는 작업은 한정적이며, 어느정도 경력이 쌓여 숙련자가 되어야만 참여할 수 있는 작업의 종류가 늘어난다고 합니다. 이 숙련단계까지 가는 것이 좀 어렵게 느껴지곤 합니다.

비대면으로 재택하면서 상대적으로 손쉽게 할 수 있는 데이터 라벨링은 직장인들의 부업, 가정주부들이 틈을 내어서 할수 있는 부업임에는 틀림없으나 개인적인 생각에 세월이 좀더 흘러 더 향상된 수준의 AI가 등장한다면 기계가 직접 학습하는 범위가 확대되고 그 신뢰도가 높아져서 데이터 라벨링이라는 단계가 없어질 수도 있다고 본다. 하지만 현재상황에서는 집에서도 컴퓨터만 있으면 할수 있는 부업임에는 틀림없다.





댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo