오늘 소개해 드리는 <데이터 라벨링으로 돈 잘 버는 N잡러 되기>에서는 새로운 온라인 유망 일자리로 각광 받고 있는 '데이터 라벨링'의 의미와 데이터 라벨링을 수행하는 데이터 라벨러라고 하는 새로운 유망 일자리를 소개하고 있습니다.
인공지능의 중요성이 커짐에 따라 데이터 처리량 또한 방대해지고 있지만 개발사가 자체적으로 데이터 라벨링을 소화하기엔 한계가 있답니다. 당연히 인공지능이 처리한 전처리 공정을 여러 작업자들이 검수하게 됩니다. 또한 양질의 데이터 확보를 위해서는 반드시 자격을 갖춘 데이터 라벨러의 손을 거쳐야 합니다.
해서 2020년 이후 정부의 적극적 육성에 따라 데이터 라벨러가 빠르게 증가하고 있지만 전문성을 갖춘 라벨러는 아직 많지 않다고 합니다. 바로 이점에서 데이터 라벨러를 꿈꾸고 계신 분들에게 큰 기회가 되리라 봅니다.
데이터 라벨링에 대한 기본적인 지식과 함께 정확하게 데이터를 가공하고, 기업과 원활한 소통을 할 수 있는 전문성을 확보한다면 경쟁력있는 나아가 고소득을 올릴 수 있는 라벨러로 성장할 수 있다는 이야기 입니다.
특히 2022년 국가직무능력표준(NCS)에 데이터 라벨러가 정식 직업으로 등재되고, 국가 차원에서도 인공지능의 중요성을 인식하고 관련 예산을 꾸준히 편성하고 있으며, 기업의 디지털 전환의 핵심으로 인공지능이 부각됨에 따라 데이터 라벨러의 수요는 앞으로 꾸준히 증가할 것으로 보입니다.
2020년 에딘버러 대학의 연구결과에 따르면, 인공지능 서비스 개발에 투입되는 비용의 80%가량이 데이터를 확보하는데 쓰이며, 인공지능 개발에 필요한 데이터는 규모가 크고 구축 비용도 많이 들기에 일반 기업이 아닌 국책 사업으로 진행되는 경우가 허다합니다.
우리나라의 경우, 한국지능정보사회진흥원(NIA)에서 진행하는 국책사업으로 학습용 데이터 구축 지원 사업을 진행하고 있으며, 이에 대한 자세한 내용을 인공지능 통합 플랫폼인 'AI허브'에 공개하고 있답니다.
데이터 라벨러들의 경우 'AI허브' 사이트를 통해 데이터 구축사업과 관련된 공고를 확인할 수 있으며, 관련 크라우드 소싱 정보 및 전문 교육 정보를 확인할 수 있어 특히 입문 라벨러들의 경우, 반드시 확인해야할 리소스라 하겠습니다.
이러한 크라우드 소싱 플랫폼 뿐 아니라 각 기업의 라벨러 채용공고, 관련 커뮤니티 탐색 등을 통해 첫 발을 내딛을 수 있을 듯 합니다. 책에서는 레벨업을 위한 NIA의 인공지능 학습용 데이터 라벨링 전문 교육을 포함한 다양한 교육 방법과 필수 작업 도구를 세팅하는 가장 효율적인 방법에 대해서도 따로 장을 마련하여 자세히 설명하고 있어 처음 입문한 라벨러들에게 큰 도움이 되리라 생각합니다.
전문지식없이 컴퓨터나 스마트 기기를 다룰 수 있는 능력만 된다면 누구나 쉽게 입문할 수 있으며, 시공간 제약없는 온라인 에서 일하며, 능력에 따라 고수입을 올릴 수 있으며, 자신의 적성을 제약없이 시험해 볼 수 있다는 점에서 큰 메리트가 있습니다.
특히 데이터 라벨러로 근무하다 해당 기업의 전문 검수자 혹은 PM으로 정식 스카우터 되는 등 새로운 커리어를 쌓을 수 있다는 점은 본 직업을 통해 다양한 경력쌓기가 가능하다는 점을 잘 보여줍니다.
사실 고수익을 위해서는 작업 시간 확보를 위해 노력해야 하며, 프로젝트를 보는 눈도 길러야 합니다. 이러한 경험을 쌓기 위해서는 일정 시간을 투자해야 함은 물론입니다. 더 효율적인 방식으로 작업하기 위해 아이디어를 짜내는 것도 중요하겠죠.

책에서는 입문자가 알아야할 데이터 라벨링 작업 방식을 아래의 3가지로 나눠 자세히 설명하고 있습니다. 우리가 잘 알고 있는 인공지능 지능 학습을 위한 원천 데이터 유형과도 관련이 있습니다.
1.인공지능에 눈을 부여하는 작업 : 컴퓨터 비전(Computer Vision)
인공지능으로 하여금 시각적으로 보이는 것들에 대해 해석 및 이해할 수 있도록 학습시키는 위한 이미지 데이터 가공 과정
2. 사람 목소리를 이해시키기 위한 작업 : 음성 분야
인공지능으로 하여금 음성 인식, 자연어 처리, 음성 합성이 가능하도록 학습시키기 위한 음성 데이터 가공 과정
3. 글에 대한 독해력과 이해력을 불어넣는 작업 : 자연어 처리(NLP)
인공지능이 사람의 언어를 이해하고 생성할 수 있도록 학습시키기 위한 텍스트 데이터를 가공 과정
인공지능 모델의 성능은 그 모델이 학습한 데이터의 품질에 크게 의존합니다. 인공지능 모델을 학습시키기 위해 필요한 정확하고 품질높은 데이터를 생성하는 중요한 역할을 수행하는 데이터 라벨러의 작업은 당연히 모델의 정확도와 신뢰도에 직접적인 영향을 미치게 됩니다.
따라서 관련 기업들에서는 좀 더 전문적이고 숙련된 경험 많은 라벨러를 원하는 경향이 있으며, 가급적이면 인공지능 전체 프로세스 뿐 아니라 프로젝트 전체를 이해하고 원활하게 대화가 가능한 경험자를 원하는 것이 사실입니다. 당연히 경험많은 전문가는 어느 분야에서든 고수익을 올릴 수 있음은 당연한 이야기 입니다.
특히 인공지능 모델의 성능을 지속적으로 평가하고, 모델이 실수한 경우에 수정을 하거나 추가 학습 데이터를 생성함으로써 모델을 개선하는데도 기여하게 되며, 라벨링 작업 과정에서 개인 정보 보호, 편견없는 데이터 처리 및 다양성 및 포용성 등에도 신경을 써야 한다는 사실을 책을 통해 다시금 깨닫게 됩니다.
입문에서 고수입을 올리기까지 데이터 라벨링 입문자들을 위한 친절한 가이드가 되기에 충분한 책이라 생각합니다.
데이터를 이용해 가치를 만드는 시대의 중심에 서 있는 '데이터 라벨러'가 되기를 꿈꾸는 분들의 일독을 권합니다.
* 출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다.