기계가 읽을 수 있는 데이터

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기

기계가 읽을 수 있는 데이터는 컴퓨터가 쉽게 처리할 수 있는 포맷으로 된 데이터 또는 메타데이터이다. 기계 가독형 데이터라고도 한다.

여기에는 두 가지 유형이 있다. 하나는 마이크로포맷, RDFa, HTML 등과 같이 기계는 물론 인간도 읽을 수 있도록 마크업된 데이터이다. 다른 하나는 RDF, XML, JSON 등과 같이 주로 기계가 처리하도록 의도된 데이터 파일 포맷이다.

그러나 XML은 인간과 기계가 모두 읽을 수 있도록 설계한 언어이고, XSLTXML 문서를 다른 XML 문서로 변환할 때 인간이 읽을 때 더 쉽도록 데이터 표현을 개선한 언어이다. 예를 들어 XSLT는 XML을 PDF로 자동 변환하는 데 사용할 수 있다. 기계가 읽을 수 있는 데이터를 사람이 읽을 수 있도록 자동 변환할 수는 있지만, 그 역은 항상 성립하는 건 아니다.

'기계로 읽을 수 있다'는 것이 '디지털 접근이 가능하다'는 것과 동의어는 아니다. 디지털 접근이 가능한 문서는 온라인상에 있어서 사람이 컴퓨터로 접근하기가 쉽지만, 만약 그 문서가 기계가 읽을 수있는 포맷으로 되어 있지 않다면 그 내용을 추출, 변환, 처리하는 게 무척 어렵다.[1] 예를 들어 어떤 문서가 스캔한 이미지 또는 사진 형태로 제공된다면, 사람은 읽을 수 있지만 기계가 읽기는 곤란하다.[2]

미국 관리예산실(OMB)은 정부성과결과선진화법(GPRAMA)을 집행하기 위하여 "기계가 읽을 수 있는"을 "웹 브라우저컴퓨터가 자동으로 읽을 수 있도록 (영어가 아니라) 표준 컴퓨터 언어 포맷이다.(예를 들어 XML) 전통적인 워드 프로세서 문서 파일이나 PDF 파일은 사람이 쉽게 읽을 수 있지만, 기계가 해석하기는 힘든 대표적인 예이다. XML, JSON 등은 기계가 읽는 것이 가능하고, 스프레드시트도 CSV로 헤더 컬럼을 내보내기했다면 가능하다. HTML은 구조화된 마크업 언어로서 문서의 각 부분에 이름표를 신중하게 붙이기 때문에, 컴퓨터가 문서의 요소를 모아서 목차, 개요, 참고 문헌 등을 조합하는 게 가능하다. 전통적인 워드 프로세서 문서나 다른 포맷을 기계가 읽을 수 있는 포맷으로 변환하는 것은 가능하지만, 그 문서는 강화된 구조적 요소를 포함해야 한다."[3]

각주[편집]

  1. “A Primer on Machine Readability for Online Documents and Data”. 《Data.gov》. 2012년 9월 24일. 2015년 2월 27일에 확인함. 
  2. “기계가 읽을 수 있는”. 《opendatahandbook.org》. 2018년 4월 10일에 확인함. 
  3. OMB Circular A-11, Part 6 Archived 2013-12-07 - 웨이백 머신., Preparation and Submission of Strategic Plans, Annual Performance Plans, and Annual Program Performance Reports