본문으로 이동

데이터 보존

위키백과, 우리 모두의 백과사전.

데이터 보존(data preservation)은 데이터의 안전성과 무결성을 모두 보존하고 유지하는 행위이다. 보존은 데이터와 해당 메타데이터의 존재와 신뢰성을 보호하고 연장하기 위한 정책, 규정 및 전략에 따라 관리되는 공식적인 활동을 통해 수행된다.[1] 데이터는 지식과 정보가 생성되는 요소 또는 단위로 설명될 수 있으며,[2] 메타데이터는 데이터 요소의 하위 집합 또는 데이터에 대한 데이터를 요약하는 것이다.[3] 데이터 보존의 주요 목표는 데이터가 손실되거나 파괴되지 않도록 보호하고 데이터의 재사용 및 발전에 기여하는 것이다.

역사

[편집]

시간이 지남에 따라 수집된 대부분의 역사적 자료는 손실되거나 파괴되었다. 전쟁과 자연재해는 물론 자료를 보존하고 보호하는 데 필요한 재료와 관행의 부족이 이러한 상황을 야기했다. 일반적으로 정부 기록 및 통계, 법률 계약 및 경제 거래와 같이 가장 중요한 데이터 세트만 저장되었다. 과학 연구 및 박사 학위 논문 자료는 부적절한 저장과 데이터 보존 인식 및 실행 부족으로 대부분 파괴되었다.[4] 시간이 지남에 따라 데이터 보존은 발전해 왔고 중요성과 인식을 얻었다. 이제 우리는 데이터를 보존하는 다양한 방법과 이를 수행하는 데 관련된 많은 중요한 조직을 가지고 있다.

최초의 디지털 데이터 보존 저장 솔루션은 1950년대에 등장했으며, 일반적으로 평면적 또는 계층적으로 구조화되었다.[5] 이러한 솔루션에는 여전히 문제가 있었지만, 데이터 저장을 훨씬 저렴하고 더 쉽게 접근할 수 있게 만들었다. 1970년대에는 관계형 데이터베이스와 스프레드시트가 등장했다. 관계형 데이터베이스는 구조화된 쿼리 언어를 사용하여 데이터를 테이블로 구조화하여 이전 저장 솔루션보다 효율적이었으며, 스프레드시트는 대량의 숫자 데이터를 보유하며 이러한 관계형 데이터베이스에 적용하여 파생 데이터를 생성할 수 있다. 최근에는 비관계형(비구조화 쿼리 언어) 데이터베이스가 관계형 데이터베이스의 보완재로 등장하여 대량의 비정형 또는 반정형 데이터를 저장한다.[4]

중요성

[편집]

데이터 보존의 범위는 광범위하다. 정부 기록부터 비즈니스 기록, 예술에 이르기까지 모든 것이 본질적으로 데이터로 표현될 수 있으며 손실될 수 있다. 이는 인류 역사의 영구적인 손실로 이어진다.

데이터는 개인 데이터 손실, 기업 및 조직 내 데이터 손실 등 작거나 독립적인 규모로 손실될 수 있으며, 환경 보호, 의료 연구, 국토 안보, 공중 보건 및 안전, 경제 발전[6] 및 문화와 같은 사안에 부정적이고 잠재적으로 영구적인 영향을 미칠 수 있는 더 크거나 국가적 또는 전 세계적인 규모로도 손실될 수 있다. 데이터 손실의 메커니즘 또한 재해, 전쟁, 데이터 유출, 과실부터 단순한 망각, 자연적 부패에 이르기까지 다양하다.

데이터 컬렉션이 제대로 보존되고 저장될 때 사용될 수 있는 방법은 자연 재해, 천연 자원 및 경관에 대한 데이터 컬렉션을 저장하는 미국 지질 조사국을 통해 확인할 수 있다. 조사국이 수집한 데이터는 연방 및 주 토지 관리 기관에서 토지 이용 계획 및 관리에 사용되며, 지속적으로 과거 참조 데이터에 접근해야 한다.[6]

관련 개념

[편집]

대조적으로, 데이터 보유는 비공식적으로 보관되며 장기 보존을 위해 반드시 준비되지 않은 수집된 데이터의 모음이다. 예를 들어, 개인 파일의 모음 또는 백업이다. 데이터 보유는 일반적으로 환경 및 기타 역사적 재해로 인해 데이터가 손실되었을 때 과거에 사용되었던 저장 방법이다.[4]

또한, 데이터 보존은 정의상 객체(데이터)를 보유하거나 소유 또는 사용하는 것을 의미한다는 점에서 데이터 보존과는 다르다.[7] 객체를 보존하는 것은 미래 사용을 위해 보호, 유지 및 관리하는 것이다.[8] 보유 정책은 종종 데이터가 의도적으로 삭제되어야 하는 시기와 대중 접근으로부터 차단되어야 하는 시점을 중심으로 이루어지는 반면, 보존은 영구성과 더 광범위하게 공유되는 접근성을 우선시한다.

따라서 데이터 보존은 데이터를 소유하거나 보유하거나 데이터 백업 복사본을 갖는 개념을 넘어선다. 데이터 보존은 재해 또는 기술 변화 발생에 앞서 백업 및 복구 메커니즘을 포함하여 데이터에 대한 신뢰할 수 있는 접근을 보장한다.[9]

방법

[편집]

디지털

[편집]

디지털 아카이브는 데이터 보존과 유사하지만 주로 기술적 위협과 순전히 디지털 데이터와 관련이 있다. 본질적으로 디지털 데이터는 기술적 오작동이나 변화가 발생해도 디지털 데이터를 지속적으로 사용하고 접근할 수 있도록 하는 일련의 공식적인 활동이다.[10] 디지털 아카이브는 기술과 프로토콜의 피할 수 없는 변화를 인지하고 있으며, 데이터 무결성과 메타데이터가 보존되는 동안 새로운 유형의 기술과 플랫폼에서 접근해야 할 데이터에 대비한다.[4]

기술은 과거에는 불가능했을 수도 있는 데이터 보존에 큰 발전을 제공하지만, 너무 빠른 속도로 변화하고 있어 새로운 소프트웨어와 호환되지 않는 형식으로 인해 디지털 데이터에 더 이상 접근할 수 없을 수도 있다. 데이터 보존을 사용하지 않으면 기존 디지털 데이터의 상당 부분이 위험에 처한다.[9]

오늘날 데이터 보존에 사용되는 대부분의 방법은 디지털 방법이며, 이는 현재까지 존재하는 가장 효과적인 방법이다.

아카이브

[편집]

아카이브는 역사 문서 및 기록의 컬렉션이다. 아카이브는 잘 정리된 데이터를 수집하고 이를 확인하는 적절한 메타데이터를 제공함으로써 데이터 보존에 기여하고 노력한다.[11]

중요한 데이터 아카이브의 예로는 LONI 이미지 데이터 아카이브가 있는데, 이는 임상 시험 및 임상 연구에 관한 데이터를 수집하는 아카이브이다.[12]

카탈로그, 디렉터리 및 포털

[편집]

카탈로그, 디렉터리 및 포털은 개별 기관이 보관하며 데이터 아카이브 및 보유 데이터와 관련된 통합 리소스이다.[4] 즉, 데이터는 사이트에 제시되지 않고 메타데이터 및 집계자 역할을 하며, 철저한 인벤토리를 관리할 수 있다.[13]

리포지토리

[편집]

리포지토리는 데이터 아카이브 및 보유 데이터에 접근하고 저장할 수 있는 장소이다. 리포지토리의 목표는 아카이브 및 보유 데이터의 모든 요구 사항과 프로토콜이 충족되고 데이터 무결성 및 사용자 신뢰를 보장하기 위해 데이터가 인증되는지 확인하는 것이다.[4]

단일 사이트 리포지토리

모든 데이터 세트를 단일 사이트에 보관하는 리포지토리이다.[4]

주요 단일 사이트 리포지토리의 예로는 네덜란드의 디지털 연구 리소스에 대한 지속적인 접근을 제공하는 리포지토리인 데이터 아카이빙 및 네트워크 서비스가 있다.[14]

다중 사이트 리포지토리

여러 기관 사이트에서 데이터 세트를 호스팅하는 리포지토리이다.[4]

잘 알려진 다중 사이트 리포지토리의 예로는 모든 EU 국가 및 그 이상을 협력하여 연구 데이터 및 출판물을 호스팅하는 OpenAIRE가 있다. OpenAIRE는 개방형 학술을 촉진하고 데이터의 검색 가능성 및 재사용성을 향상시키려고 노력한다.[15]

신뢰할 수 있는 디지털 리포지토리

장기간에 걸쳐 신뢰할 수 있는 접근을 제공하려고 노력하는 리포지토리이다. 리포지토리는 단일 또는 다중 사이트일 수 있지만 OAIS 참조모형과 협력해야 하며,[16] 지속적인 재정 책임, 조직적 탄력성, 행정적 책임 보안 및 안전과 같은 신뢰에 기여하는 일련의 규칙 또는 속성을 준수해야 한다.[4]

신뢰할 수 있는 디지털 리포지토리의 예로는 아일랜드의 인문학 및 사회 과학 데이터 세트를 호스팅하는 다중 사이트 리포지토리인 아일랜드 디지털 리포지토리(DRI)가 있다.[17]

사이버 인프라

[편집]

하드웨어, 기술, 소프트웨어, 정책, 서비스 및 도구 시스템을 통해 제공되는 아카이브 컬렉션으로 구성된 사이버 인프라이다. 사이버 인프라는 피어 투 피어 협업 및 문화 공동체를 지원하는 데이터 공유를 목표로 한다.[3]

주요 사이버 인프라의 예로는 캐나다의 공간 데이터에 대한 접근을 제공하는 캐나다 지리 공간 데이터 인프라가 있다.[18]

같이 보기

[편집]

각주

[편집]
  1. Dictionary Definitions. InterPARES 2 Terminology Database. InterPARES2. 2013. 2013년 10월 21일에 확인함.
  2. Kitchin, R (2012). Conceptualizing Data. The Data Revolution (London: Sage): 1–26.
  3. 1 2 Cyberinfrastructure Council (2007). Cyberinfrastructure vision for 21st century discovery (PDF). Washington DC: National Science Foundation.
  4. 1 2 3 4 5 6 7 8 9 Kitchin, R (2012). Small Data, Data Infrastructures and Data Brokers. The Data Revolution (London: Sage). 27–47쪽.
  5. Driscoll, K (2012). From punched cards to "big data": a social history of database populism. Communication +1 1. 2013년 2월 22일에 확인함.
  6. 1 2 Pierce, F.; Steinmetz, J.; Dickinson, T.; McHugh, J. (2010). The importance of data preservation. The Geological Society of America. 2017년 12월 1일에 원본 문서에서 보존된 문서. 2017년 11월 29일에 확인함.
  7. (2017) Retain [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/retain
  8. (2107) Preserve [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/preserve
  9. 1 2 Corrado, E.; Sandy, M. (2014). Digital Preservation for Libraries, Archives, and Museums. Chapter 1. Rowman & Littlefield Publishers. 3–16쪽.
  10. Data Preservation. International Federation of Data Organizations for Social Science. 2012. 2017년 12월 1일에 원본 문서에서 보존된 문서. 2017년 11월 28일에 확인함.
  11. Lauriault, T. P.; Hackett, Y; Kennedy, E (2013). Geo-spatial Data Preservation Primer. Ottawa: Hickling, Aurthurs and Low.
  12. About Us. LONI Image and Data Archive. 2017.
  13. O'Carroll, A.; Collins, S.; Gallgher, D.; Tang, J.; Webb, S (2013). Caring for the Digital Content, Mapping International Approaches. Dublin: NUI Maynooth, Trinity College Dublin, Royal Irish Academy and Digital Repository of Ireland.
  14. About DANS. Data Archiving and Networked Services. 2016.
  15. Project Factsheets. OpenAIRE. 2017.
  16. The OAIS reference model. www.oclc.org. 2013년 12월 13일에 원본 문서에서 보존된 문서.
  17. About DRI. Digital Repository of Ireland. 2014–2015.
  18. Canada's Spatial Data Infrastructure. 캐나다 정부. 2017.