WARC (파일 형식)

위키백과, 우리 모두의 백과사전.

Web ARChive
파일 확장자.warc
인터넷 미디어 타입
application/warc[1]
다음으로부터 확장ARC[2]
표준ISO 28500:2017[3]
웹사이트iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1-annotated/

WARC (Web ARChive) 압축 형식은 여러 디지털 자원을 관련 정보와 함께 종합 압축 파일로 결합하는 방법이다. WARC 형식은 전통적으로 월드 와이드 웹에서 웹 크롤링을 통해 수집된 정보를 저장하는데 사용되어 온 인터넷 아카이브의 ARC_IA 파일 형식의 개정판이다.[4] WARC 형식은 웹 정보 의 수집, 액세스 및 교환 요구 사항을 더 잘 지원하기 위해 이전 형식을 더 범용적이도록 개정했다. 현재 기록된 기본 콘텐츠 외에도 개정판에는 할당된 메타데이터, 축약된 중복 감지 이벤트(§7.6 "revisit" 참조) 및 이후 변환과 같은 관련 보조 콘텐츠가 포함된다.[5] WARC 형식은 유사한 헤더와 CRLF를 구분 기호로 사용하는 HTTP/1.0 스트림에서 영감을 얻어 크롤러 구현에 매우 유용하다.

2008년에 처음 제정된[6] WARC는 이제 대부분의 국립 도서관 시스템에서 웹 아카이브를 위한 표준으로 인정받고 있다.[7]

소프트웨어[편집]

참고자료[편집]

  1. “application/warc”. 2018년 3월 17일에 확인함. 
  2. “Introduction”. 《SourceForge》. 2015년 3월 5일에 확인함. 
  3. “Information and documentation -- WARC file format”. 2018년 3월 16일에 확인함. 
  4. “ARC_IA, Internet Archive ARC file format”. 《www.digitalpreservation.gov》. 2008년 2월 14일. 2015년 5월 9일에 확인함. 
  5. “WARC, Web ARChive file format”. 《www.digitalpreservation.gov》. 2009년 8월 31일. 2015년 5월 9일에 확인함. 
  6. Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (2008년 7월 5일). “The WARC File Format”. 《IETF》. 2021년 4월 29일에 확인함. 
  7. Allegrezza, Stefano (2016년 4월 21일). “Nuove prospettive per il Web archiving: Gli standard ISO 28500 (Formato WARC) e ISO/TR 14873 sulla qualità del Web archiving”. 《Digitalia》 2015: 49–61. 
  8. Scrivano, Giuseppe (2012년 8월 6일). “GNU wget 1.14 released”. 《GNU wget 1.14 released》. Free Software Foundation, Inc. 2016년 2월 25일에 확인함. 

외부 링크[편집]