-
-
AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋
반병현 지음 / 생능북스 / 2022년 2월
평점 :
이 책은 절대적으로 데이터셋에 대한 정보만 알려주기 위한 책이다.
그러므로 빅데이터 학습 법에 대한 기대를 했다면 헛탕을 쳤을 수도 있다.
훌륭한 데이터 셋에 대한 정보만이 있으니 책 판단에 주의를 바란다.
AI 빅데이터를 공부하다 보면 데이터셋에 대한 아쉬움이 커지기 마련이다.
많은 사람들은 그러한 말을 한다. 만들어서 쓰면 되는거 아니냐고..
틀린말은 아니지만, 인위적인 데이터를 만들어서 쓸 경우 학습 및 테스트의 의미 자체가 사라지기 때문에
랜덤이나 불특정의 목적으로 인위적인 데이터는 빅데이터 학습이 필요가 없다.
그러한 의미에서 이 책은 내게 큰 기회를 주었다고나 할까?
애써 어디선가 찾아보면 겨우 겨우 찾을 수 있겠지만
이렇게 간편하게 데이터셋 정보를 받을 수 있으니 놀라울 따름이다.
더군다나 해당 데이터셋을 이용하여 연구한 정보들도 각 데이터셋과 함께 기재되어 있어,
흥미로운 데이터셋들을 다른 사람들은 어떻게 이용하는가를 간접적으로 알 수 있으며,
고퀄리티의 자료들과 함께 데이터셋과 연관된 이미지 자료들을 볼 수 있다.
개인적으로 해당 데이터셋을 활용한 레퍼런스 논문을 직접 찾아보는 재미도 느낄 수 있다.
자율주행 관련한 데이터셋도 재미있게 보았지만,
개인적으로 가장 관심있었던 분야는 바로 한국어 자연어 처리였다.
AI 쳇팅과 검색 엔진에 관심이 많은 나에게
이 데이터셋은 사막에서 내리는 단비같은 존재 느낌이였다.
지속적으로 연구 분야가 폭넓게 이어지고 있는 만큼 한국어 자연어 처리는
다양한 방식과 파생되는 방법들로 산업들을 키울 수 있기 때문에 더 자세히 관심이 가져진 것 같다.
깊게 학습이 필요한 데이터셋들이 생각보다 많으니
가볍게 넘겨보다가 관심있는 분야가 있다면 그때 자세히 알아보는 것이
이 책의 활용성으로 느껴지는 팁이라 할 수 있겠다.
저자가 의도하는 바도 그러한 것이니, 이 책에 대한 모든 정보를 꼭 이용해야만 하겠다는 신념은
일찍 버리기를 바란다. ㅋㅋ