데이터 보존
데이터 보존(data preservation)은 데이터의 안전성과 무결성을 모두 보존하고 유지하는 행위이다. 보존은 데이터와 해당 메타데이터의 존재와 신뢰성을 보호하고 연장하기 위한 정책, 규정 및 전략에 따라 관리되는 공식적인 활동을 통해 수행된다.[1] 데이터는 지식과 정보가 생성되는 요소 또는 단위로 설명될 수 있으며,[2] 메타데이터는 데이터 요소의 하위 집합 또는 데이터에 대한 데이터를 요약하는 것이다.[3] 데이터 보존의 주요 목표는 데이터가 손실되거나 파괴되지 않도록 보호하고 데이터의 재사용 및 발전에 기여하는 것이다.
역사
[편집]시간이 지남에 따라 수집된 대부분의 역사적 자료는 손실되거나 파괴되었다. 전쟁과 자연재해는 물론 자료를 보존하고 보호하는 데 필요한 재료와 관행의 부족이 이러한 상황을 야기했다. 일반적으로 정부 기록 및 통계, 법률 계약 및 경제 거래와 같이 가장 중요한 데이터 세트만 저장되었다. 과학 연구 및 박사 학위 논문 자료는 부적절한 저장과 데이터 보존 인식 및 실행 부족으로 대부분 파괴되었다.[4] 시간이 지남에 따라 데이터 보존은 발전해 왔고 중요성과 인식을 얻었다. 이제 우리는 데이터를 보존하는 다양한 방법과 이를 수행하는 데 관련된 많은 중요한 조직을 가지고 있다.
최초의 디지털 데이터 보존 저장 솔루션은 1950년대에 등장했으며, 일반적으로 평면적 또는 계층적으로 구조화되었다.[5] 이러한 솔루션에는 여전히 문제가 있었지만, 데이터 저장을 훨씬 저렴하고 더 쉽게 접근할 수 있게 만들었다. 1970년대에는 관계형 데이터베이스와 스프레드시트가 등장했다. 관계형 데이터베이스는 구조화된 쿼리 언어를 사용하여 데이터를 테이블로 구조화하여 이전 저장 솔루션보다 효율적이었으며, 스프레드시트는 대량의 숫자 데이터를 보유하며 이러한 관계형 데이터베이스에 적용하여 파생 데이터를 생성할 수 있다. 최근에는 비관계형(비구조화 쿼리 언어) 데이터베이스가 관계형 데이터베이스의 보완재로 등장하여 대량의 비정형 또는 반정형 데이터를 저장한다.[4]
중요성
[편집]데이터 보존의 범위는 광범위하다. 정부 기록부터 비즈니스 기록, 예술에 이르기까지 모든 것이 본질적으로 데이터로 표현될 수 있으며 손실될 수 있다. 이는 인류 역사의 영구적인 손실로 이어진다.
데이터는 개인 데이터 손실, 기업 및 조직 내 데이터 손실 등 작거나 독립적인 규모로 손실될 수 있으며, 환경 보호, 의료 연구, 국토 안보, 공중 보건 및 안전, 경제 발전[6] 및 문화와 같은 사안에 부정적이고 잠재적으로 영구적인 영향을 미칠 수 있는 더 크거나 국가적 또는 전 세계적인 규모로도 손실될 수 있다. 데이터 손실의 메커니즘 또한 재해, 전쟁, 데이터 유출, 과실부터 단순한 망각, 자연적 부패에 이르기까지 다양하다.
데이터 컬렉션이 제대로 보존되고 저장될 때 사용될 수 있는 방법은 자연 재해, 천연 자원 및 경관에 대한 데이터 컬렉션을 저장하는 미국 지질 조사국을 통해 확인할 수 있다. 조사국이 수집한 데이터는 연방 및 주 토지 관리 기관에서 토지 이용 계획 및 관리에 사용되며, 지속적으로 과거 참조 데이터에 접근해야 한다.[6]
관련 개념
[편집]대조적으로, 데이터 보유는 비공식적으로 보관되며 장기 보존을 위해 반드시 준비되지 않은 수집된 데이터의 모음이다. 예를 들어, 개인 파일의 모음 또는 백업이다. 데이터 보유는 일반적으로 환경 및 기타 역사적 재해로 인해 데이터가 손실되었을 때 과거에 사용되었던 저장 방법이다.[4]
또한, 데이터 보존은 정의상 객체(데이터)를 보유하거나 소유 또는 사용하는 것을 의미한다는 점에서 데이터 보존과는 다르다.[7] 객체를 보존하는 것은 미래 사용을 위해 보호, 유지 및 관리하는 것이다.[8] 보유 정책은 종종 데이터가 의도적으로 삭제되어야 하는 시기와 대중 접근으로부터 차단되어야 하는 시점을 중심으로 이루어지는 반면, 보존은 영구성과 더 광범위하게 공유되는 접근성을 우선시한다.
따라서 데이터 보존은 데이터를 소유하거나 보유하거나 데이터 백업 복사본을 갖는 개념을 넘어선다. 데이터 보존은 재해 또는 기술 변화 발생에 앞서 백업 및 복구 메커니즘을 포함하여 데이터에 대한 신뢰할 수 있는 접근을 보장한다.[9]
방법
[편집]디지털
[편집]디지털 아카이브는 데이터 보존과 유사하지만 주로 기술적 위협과 순전히 디지털 데이터와 관련이 있다. 본질적으로 디지털 데이터는 기술적 오작동이나 변화가 발생해도 디지털 데이터를 지속적으로 사용하고 접근할 수 있도록 하는 일련의 공식적인 활동이다.[10] 디지털 아카이브는 기술과 프로토콜의 피할 수 없는 변화를 인지하고 있으며, 데이터 무결성과 메타데이터가 보존되는 동안 새로운 유형의 기술과 플랫폼에서 접근해야 할 데이터에 대비한다.[4]
기술은 과거에는 불가능했을 수도 있는 데이터 보존에 큰 발전을 제공하지만, 너무 빠른 속도로 변화하고 있어 새로운 소프트웨어와 호환되지 않는 형식으로 인해 디지털 데이터에 더 이상 접근할 수 없을 수도 있다. 데이터 보존을 사용하지 않으면 기존 디지털 데이터의 상당 부분이 위험에 처한다.[9]
오늘날 데이터 보존에 사용되는 대부분의 방법은 디지털 방법이며, 이는 현재까지 존재하는 가장 효과적인 방법이다.
아카이브
[편집]아카이브는 역사 문서 및 기록의 컬렉션이다. 아카이브는 잘 정리된 데이터를 수집하고 이를 확인하는 적절한 메타데이터를 제공함으로써 데이터 보존에 기여하고 노력한다.[11]
중요한 데이터 아카이브의 예로는 LONI 이미지 데이터 아카이브가 있는데, 이는 임상 시험 및 임상 연구에 관한 데이터를 수집하는 아카이브이다.[12]
카탈로그, 디렉터리 및 포털
[편집]카탈로그, 디렉터리 및 포털은 개별 기관이 보관하며 데이터 아카이브 및 보유 데이터와 관련된 통합 리소스이다.[4] 즉, 데이터는 사이트에 제시되지 않고 메타데이터 및 집계자 역할을 하며, 철저한 인벤토리를 관리할 수 있다.[13]
리포지토리
[편집]리포지토리는 데이터 아카이브 및 보유 데이터에 접근하고 저장할 수 있는 장소이다. 리포지토리의 목표는 아카이브 및 보유 데이터의 모든 요구 사항과 프로토콜이 충족되고 데이터 무결성 및 사용자 신뢰를 보장하기 위해 데이터가 인증되는지 확인하는 것이다.[4]
단일 사이트 리포지토리
모든 데이터 세트를 단일 사이트에 보관하는 리포지토리이다.[4]
주요 단일 사이트 리포지토리의 예로는 네덜란드의 디지털 연구 리소스에 대한 지속적인 접근을 제공하는 리포지토리인 데이터 아카이빙 및 네트워크 서비스가 있다.[14]
다중 사이트 리포지토리
여러 기관 사이트에서 데이터 세트를 호스팅하는 리포지토리이다.[4]
잘 알려진 다중 사이트 리포지토리의 예로는 모든 EU 국가 및 그 이상을 협력하여 연구 데이터 및 출판물을 호스팅하는 OpenAIRE가 있다. OpenAIRE는 개방형 학술을 촉진하고 데이터의 검색 가능성 및 재사용성을 향상시키려고 노력한다.[15]
신뢰할 수 있는 디지털 리포지토리
장기간에 걸쳐 신뢰할 수 있는 접근을 제공하려고 노력하는 리포지토리이다. 리포지토리는 단일 또는 다중 사이트일 수 있지만 OAIS 참조모형과 협력해야 하며,[16] 지속적인 재정 책임, 조직적 탄력성, 행정적 책임 보안 및 안전과 같은 신뢰에 기여하는 일련의 규칙 또는 속성을 준수해야 한다.[4]
신뢰할 수 있는 디지털 리포지토리의 예로는 아일랜드의 인문학 및 사회 과학 데이터 세트를 호스팅하는 다중 사이트 리포지토리인 아일랜드 디지털 리포지토리(DRI)가 있다.[17]
사이버 인프라
[편집]하드웨어, 기술, 소프트웨어, 정책, 서비스 및 도구 시스템을 통해 제공되는 아카이브 컬렉션으로 구성된 사이버 인프라이다. 사이버 인프라는 피어 투 피어 협업 및 문화 공동체를 지원하는 데이터 공유를 목표로 한다.[3]
주요 사이버 인프라의 예로는 캐나다의 공간 데이터에 대한 접근을 제공하는 캐나다 지리 공간 데이터 인프라가 있다.[18]
같이 보기
[편집]각주
[편집]- ↑ “Dictionary Definitions”. 《InterPARES 2 Terminology Database》. InterPARES2. 2013. 2013년 10월 21일에 확인함.
- ↑ Kitchin, R (2012). “Conceptualizing Data”. 《The Data Revolution》 (London: Sage): 1–26.
- 1 2 Cyberinfrastructure Council (2007). “Cyberinfrastructure vision for 21st century discovery” (PDF). Washington DC: National Science Foundation.
- 1 2 3 4 5 6 7 8 9 Kitchin, R (2012). 《Small Data, Data Infrastructures and Data Brokers》. 《The Data Revolution》 (London: Sage). 27–47쪽.
- ↑ Driscoll, K (2012). 《From punched cards to "big data": a social history of database populism》. 《Communication +1》 1. 2013년 2월 22일에 확인함.
- 1 2 Pierce, F.; Steinmetz, J.; Dickinson, T.; McHugh, J. (2010). 《The importance of data preservation》. The Geological Society of America. 2017년 12월 1일에 원본 문서에서 보존된 문서. 2017년 11월 29일에 확인함.
- ↑ (2017) Retain [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/retain
- ↑ (2107) Preserve [Definition]. Marriam-Webster. Retrieved From: https://www.merriam-webster.com/dictionary/preserve
- 1 2 Corrado, E.; Sandy, M. (2014). 《Digital Preservation for Libraries, Archives, and Museums》. Chapter 1. Rowman & Littlefield Publishers. 3–16쪽.
- ↑ 《Data Preservation》. 《International Federation of Data Organizations for Social Science》. 2012. 2017년 12월 1일에 원본 문서에서 보존된 문서. 2017년 11월 28일에 확인함.
- ↑ Lauriault, T. P.; Hackett, Y; Kennedy, E (2013). 《Geo-spatial Data Preservation Primer》. Ottawa: Hickling, Aurthurs and Low.
- ↑ “About Us”. 《LONI Image and Data Archive》. 2017.
- ↑ O'Carroll, A.; Collins, S.; Gallgher, D.; Tang, J.; Webb, S (2013). 《Caring for the Digital Content, Mapping International Approaches》. Dublin: NUI Maynooth, Trinity College Dublin, Royal Irish Academy and Digital Repository of Ireland.
- ↑ “About DANS”. Data Archiving and Networked Services. 2016.
- ↑ “Project Factsheets”. OpenAIRE. 2017.
- ↑ “The OAIS reference model”. 《www.oclc.org》. 2013년 12월 13일에 원본 문서에서 보존된 문서.
- ↑ “About DRI”. Digital Repository of Ireland. 2014–2015.
- ↑ “Canada's Spatial Data Infrastructure”. 캐나다 정부. 2017.