엔지니어가 코딩을 해서 데이터를 수집할 때 그것을 처리하는 것은 컴퓨터다. 그래서 공공데이터를 공개할 때 첫 번째 조건은 ‘Machine Readable’, 기계가 읽을 수 있어야 한다는 것이다. 우리나라는 공공데이터의 개방에 있어 OECD에서 가장 앞선다. 3년 연속 1위를 차지하고 있다. 아쉬운 부분이 있다면, 개방된 데이터들의 일부는 기계가 읽을 수 없다는 것이다. 사실은 공개된 게 아니라는 뜻이다. - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P190
우리나라 정부부처들은 주요한 문서들을 대부분 홈페이지를 통해 공개하고 있다. 누구든 내려 받아 읽을 수 있다. 그런데 이게 사람이 읽을 수 있는 문서지, 기계가 읽을 수 있는 데이터가 아니라는 데 문제가 있다. 표준 포맷이 아니기 때문이다. - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P191
"스프레드시트, 차트, 프레젠테이션, 데이터베이스, 워드 프로세서를 비롯한 사무용 전자 문서를 위한 파일 형식이다. 이 형식은 원래 오픈오피스에서 만들고 구현한 XML 파일 형식을 바탕으로, OASISOrganization for the Advancement of Structured Information Standards컨소시엄이 표준화하였다. 2006년에는 국제 표준화 기구 및 국제 전기 표준 회의의 인증을 받아 ISO/IEC 26300:2006으로 발표되었다." - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P192
CSVcomma-separated values는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables라고도 한다. 오래전부터 스프레드시트나 데이터베이스 소프트웨어에서 많이 쓰였으나 세부적인 구현은 소프트웨어에 따라 다르다. CSV는 흔히 사용되고, 비교적 단순한 파일 포맷이며, 소비자들consumer과 업무business, 그리고 과학 애플리케이션에서 널리 사용되고 있다. 이것을 가장 흔히 사용하는 방법 중 하나는 호환되지 않는 포맷을 사용하는 프로그램끼리 자료를 전달할 때 사용한다. - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P193
이쪽에서 가장 유명한 포맷은 Schema.org다. 구글과 MS, 야후가 함께 손잡고 2011년 시작했다. 표준 용어와 메타데이터를 정하고, 이것을 웹페이지들이 함께 쓰게 함으로써 기계가 자동으로 웹페이지의 데이터들을 처리할 수 있게 하자는 시도다. 구글 등은 구조화된 데이터용 테스트 도구• 및 URL 검사 도구••를 제공한다. 우리도 이 포맷에 준해 우리 사정에 맞는 표준 용어와 메타데이터들을 더하면 정부와 공공기관의 웹사이트들을 거대한 공공데이터셋으로 만들 수 있다. 디지털 뉴딜 정책의 하나로서도 아주 해봄직한 일이 될 것이다. 네이버와 다음과 같은 국내 검색서비스들이 재능을 보탠다면 더욱 훌륭하겠다. - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P195
데이터는 새로운 석유다, 기계가 읽을 수만 있다면! 세계 최고의 공공정보 공개국에서 세계 최고의 ‘기계가 읽을 수 있는 데이터 보유국’으로 한 단계 더 진화하자. 디지털 뉴딜은 이것을 하기에 다시 없이 좋은 계기다. - <눈 떠보니 선진국> 중에서 https://www.millie.co.kr/v3/bookDetail/179538512 - P197
|