기계가 읽을 수 있는 문서

위키백과, 우리 모두의 백과사전.

기계가 읽을 수 있는 문서(Machine-readable document)컴퓨터가 쉽게 처리할 수 있는 문서를 의미한다. 이러한 문서는 비즈니스 프로세스를 지원하는 데 필요한 문맥 구조를 가지고 있기 때문에 기계가 읽을 수 있는 데이터와 구별된다.

정의[편집]

문맥이 없는 데이터는 기계가 읽을 수 있는 문서라 볼 수 없으며 ISO 15489 정보 및 문서에 명시된 신뢰할 수 있는 비즈니스 기록의 네 가지 필수 특성이 부족하다.[1]

단순히 방대하기만 한 정보는 비정형 데이터이며 비즈니스 관점에서는 "미성숙" 즉, 기능 성숙도 모델의 레벨 1(혼란)을 의미한다. 이러한 미성숙은 비효율성을 조장하고 품질을 떨어뜨리며 효율성을 제한한다. 또한 비정형 데이터는 기록 관리 기능에 부적합하고, 법적 목적에 적합하지 않은 증거물 형태이며, 소송에서 탐색 비용을 높이고, 일상적이고 지속적인 비즈니스 프로세스에서 액세스와 사용을 불필요하게 번거롭게 한다.

기계 가독성(기계가 읽을 수 있는)에는 최소한 네 가지 측면이 있다.

  • 첫째, 컴퓨터 소프트웨어 및 하드웨어 논리를 개별 개념 요소로 적용할 수 있도록 단어나 문장을 개별적으로 설명(태그 지정)해야한다.
  • 둘째, 컴퓨터가 인간의 의미와 잠재적인 사용에 대해 이해할 수 있도록 각 요소의 의미를 지정해야 한다.
  • 셋째, 개별 요소 간의 관계를 지정하여 컴퓨터가 자동으로 추론을 적용할 수 있어야 한다. 특히 탐구, 발견 및 분석을 위해 이를 이해하려는 인간의 부담을 덜어준다.
  • 넷째, 구성요소가 발생한 문서의 구조도 명시되어 있다면, 인간의 이해는 더욱 명확해지고 데이터는 법적 및 비즈니스 품질 목적으로 더욱 신뢰할 수 있게 된다.


1983년 초, 미국 회계감사원(GAO)은 기계가 읽을 수 있는 정보의 이점을 강조하기 시작했다.[2] 그보다 더 이른 1981년 GAO는 미국 연방 정부의 부적절한 기록 보관 관행 문제에 대해 보고하기 시작했다.[3] 이러한 결함은 정부에만 국한되지 않으며 정보 기술의 발전은 대부분의 정보가 이제 "디지털"로 생성되기 때문에 잠재적으로 자동화된 방법으로 훨씬 쉽게 관리된다는 것을 의미한다.[4] 그러나 2010년 의회 증언에서 GAO는 전자 기록 관리 문제를 강조했으며, 최근 2015년까지 GAO는 기록 관리 요구 사항을 충족하는 데 있어 행정부 기관의 실적에 대한 부적합성을 지속적으로 보고하고 있다.[5][6] 게다가 과거 높이 평가받았던 감사 회사인 아서 앤더슨이 기록물 파기 스캔들로 망한 지 20여 년이 지난 2016년 대선에서 기록 보관 관행이 중심 이슈가 되었다.

2011년 1월 4일, 오바마 대통령은 2010년 GPRA (정부업무수행성과법)에 H.R.R. 2142를 서명하여 P.L. 111-352로 제정하였다. GPRAMA의 섹션 10은 미국 연방 기관이 전략 및 성과 계획과 보고서를 검색 가능하고 기계가 읽을 수있는 형식으로 게시하도록 요구한다.[7] 또한 2013년에는 행정명령 13642를 공표했다. 이를 통해 정부 정보는 기계가 판독 할 수 있는 형태로 개방하게 되었다.[8]

2016년 7월28일, 미국 관리예산실(OMB)은 기관들이 개방적이고 기계적으로 읽을 수 있는 형식을 사용할 수 있도록 A-130 지침서를 발행하고[9] "광범위한 목적을 위해 분석 및 재사용을 촉진하는 방식의 온라인 공개 정보"를 발행했다.[10] 즉, 정보를 공개적으로 액세스할 수 있고 기계적으로도 사용할 수 있게 된 것이다.

2019년 1월 14일, 트럼프 대통령은 H.R. 4174 법, OGDA(Open Government Data Act)에 서명했는데, 이 법은 기관들이 자신들의 공공 데이터를 기계가 읽을 수 있는 형식으로 제공하기 위한 요건을 법으로 규정한다.

2019년 6월 28일, A-11 지침서에서[11] OMB는 GPRAMA의 섹션 10을 준수 할 의사를 표명했다.[12]

이러한 정책 방향을 지원하기 위해 기술은 기계 판독 가능 가능한 전자 기록을 보다 효율적이고 효과적으로 관리하고 사용할 수 있게 발전되었다. 문서 지향 데이터베이스는 반 구조화된 데이터라고도 하는 문서 지향 정보를 저장, 검색 및 관리하기 위해 개발되었다.

파일 형식[편집]

XML(Extensible Markup Language)은 인간이 읽을 수 있는 매체이며, 기계가 읽을 수있는 형식으로 문서를 인코딩하는 W3C (World Wide Web Consortium) 권장 사항입니다. 많은 XML 편집기 도구가 개발되었지만, 모든 주요 응용 프로그램이 XML을 지원하는 것은 아니다. XML 자체가 개방적이고 표준적이며 기계가 읽을 수 있는 형식이기 때문에 응용 프로그램 개발자들은 비교적 쉽게 이를 활용할 수 있음을 의미하기도 한다.

W3C의 XSD (XML Schema) 권장 사항은 XML 문서의 요소를 공식적으로 설명하는 방법을 지정한다. XML 스키마 사양과 관련하여 OASIS (Organization for the Advancement of Structured Information Standards)는 선도적인 표준화 기구다. 그러나 많은 기술 개발자는 JSON 작업을 선호한다. 이에 대한 유효성 검사, 문서화 및 상호 작용 제어를 위해 JSON 데이터의 구조적 정의는 국제 인터넷 표준화 기구(IETF; Internet Engineering Task Force)에서 개발한 JSON 스키마에 의존한다.

PDF(Portable Document Format)는 응용 소프트웨어, 하드웨어 및 운영 체제와 독립적인 방식으로 문서를 표시하는데 사용되는 파일 형식이다. 각 PDF 파일은 문서를 표시하는데 필요한 텍스트, 글꼴, 그래픽 및 기타 정보를 포함하여 문서 프레젠테이션에 대한 전체 설명을 캡슐화한다. PDF/A는 전자 문서의 보관 및 장기 보존에 특화된 PDF의 ISO 표준 버전이다. PDF/A-3을 사용하면 XML을 비롯한 다른 파일 형식을 PDF/A 준수 문서에 포함 할 수 있으므로 사람과 기계가 모두 읽을 수있는 최상의 결과를 얻을 수 있다. W3C의 XSL-FO (XSL Formatting Objects) 마크업 언어는 일반적으로 PDF 파일을 생성하는 데 사용된다.

데이터에 대한 데이터인 메타 데이터를 사용하여 전자 리소스를 구성하고, 디지털 ID를 제공하고, 리소스 보관 및 보존을 지원할 수 있다. 잘 구조화되고 기계 판독이 가능한 전자 기록에서 콘텐츠는 데이터와 메타 데이터로 용도가 변경될 수 있다. 전자 기록 관리 시스템의 맥락에서 "관리"와 "메타 데이터"라는 용어는 사실상 동의어다. 적절한 메타 데이터가 주어지면 기록 관리 기능을 자동화 할 수 있으므로 증거 조작 및 기타 부정한 기록 조작 위험을 줄일 수 있다. 또한 이러한 기록은 데이터베이스에 유지되는 데이터 감사 프로세스를 자동화하는 데 사용할 수 있으므로 단일 진실 공급원이라는 Machiavellian 개념과 관련된 단일 실패 지점의 위험을 줄일 수 있다.

블록 체인은 지속적으로 증가하는 기록 목록을 변조 및 수정으로부터 보호하기위한 새로운 기술이다. 핵심 기능은 탈 중앙화 시스템의 모든 노드가 블록 체인의 사본을 가지고 있으므로 조작 및 사기의 대상이되는 단일 실패 지점 이 없다는 것이다.

관련 문서[편집]

참고 문헌[편집]

  1. “NARA Guidance on Managing Web Records”. 《National Archives》. 2016년 8월 15일. 
  2. “Better Use Of Information Technology Can Reduce The Burden Of Federal Paperwork” (PDF). 《gao.gov》. 1983년 4월 11일. 2019년 7월 25일에 확인함. 
  3. “FEDERAL RECORDS MANAGEMENT: A History of Neglect”. 《gao.gov》. 1981년 2월 24일. 2016년 9월 8일에 확인함. 
  4. “Defining "Born Digital": An Essay by Ricky Erway, OCLC Research” (PDF). 《oclc.org》. 2010년 11월 30일. 2016년 9월 8일에 확인함. 
  5. “INFORMATION MANAGEMENT: The Challenges of Managing Electronic Records, Statement of Valerie C. Melvin, Director, Information Management and Human Capital Issues” (PDF). 《gao.gov》. 2010년 6월 17일. 2017년 2월 14일에 원본 문서 (PDF)에서 보존된 문서. 2016년 9월 8일에 확인함. 
  6. “INFORMATION MANAGEMENT: Additional Actions Are Needed to Meet Requirements of the Managing Government Records Directive”. 《gao.gov》. 2015년 5월 14일. 2016년 9월 8일에 확인함. 
  7. “GPRAMA SEC. 10. FORMAT OF PERFORMANCE PLANS AND REPORTS.”. 《congress.gov》. 2011년 1월 4일. 2016년 4월 13일에 원본 문서에서 보존된 문서. 2016년 9월 8일에 확인함. 
  8. “Executive Order 13642 in open, standard, machine-readable Strategy Markup Language format”. 《whitehouse.gov》. 2013년 5월 9일. 2016년 3월 3일에 원본 문서에서 보존된 문서. 2016년 9월 8일에 확인함. 
  9. “StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective d.5.a: Interoperability, APIs & Machine-Readability”. 
  10. “StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective e.2.a: Publication”. 
  11. “PREPARATION, SUBMISSION, AND EXECUTION OF THE BUDGET” (PDF). 《whitehouse.gov》. 2019년 6월 28일. 2019년 7월 25일에 확인함. 
  12. “StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective Machine-Readability”. 

외부 링크[편집]