위키백과:웹사이트 보존하기

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기

웹사이트를 인용할 때 웹사이트가 링크 변경이나 사이트 폐쇄 등의 이유로 깨진 링크가 될 수 있습니다. 깨진 링크가 되더라도 해당 문서에 접근하기 위해, 사용자는 웹 문서를 보존할 수 있습니다. 웹사이트를 보존하려면 아래 소개된 여러 사이트 중 하나를 취사선택할 수 있습니다. 각 사이트마다 보존을 지원하는 사이트 및 내용이 다르며, 저장되는 방식과 저장 가능 여부도 다릅니다.

WebCite 사용하기[편집]

WebCite는 HTML 웹사이트, PDF 파일, 자바스크립트, CSS, 디지털 이미지를 보존할 수 있습니다. WebCite는 자동으로 보존하지 않고, 각 페이지마다 사람이 보존을 지시해야 합니다.

WebCite로 문서 보존하기[편집]

  1. www.webcitation.org/archive에 갑니다
  2. ‘URL to Archive [url]:’ 칸에 보존하고자 하는 웹사이트의 URL을 입력합니다.
  3. ‘Your (citing author) E-mail Address [email]:’에 자신의 이메일을 입력합니다. 이 이메일로 보존 링크가 배달됩니다.
  4. 빈 칸을 남겨두고 ‘Submit’을 누르면, 보존이 진행되고, 위의 이메일로 보존 링크가 배달됩니다.
  5. 배달된 주소에 접속하여 링크가 작동하는 지 확인합니다.

URL 형식[편집]

WebCite를 이용한 경우 보존된 URL은 다음과 같이 나타납니다.

http://www.webcitation.org/5eWaHRbn4

이 링크는 보존된 페이지 우측 상단의 ‘Permalink to this cache’를 클릭하면 확인할 수 있습니다.

웨이백 머신 사용하기[편집]

웨이백 머신인터넷 아카이브에서 운영하는 웹 보존 서비스입니다. 이 시스템은 보존한 문서를 일정 주기마다 다시 크롤링하여 robots.txt가 보존을 금지하면 해당 보존 문서를 삭제한다는 점에 유의하시기 바랍니다.

웨이백 머신으로 문서 보존하기[편집]

  1. archive.org/web/에 접속합니다.
  2. 검색창에 보존하고자 하는 URL을 입력하고 엔터를 누릅니다.
  3. 보존이 되어 있으면 크롤링 일자가 달력에 노란 버튼으로 표시되어 있고, 보존이 되어 있지 않다면 보존이 되어 있지 않다는 메시지가 나옵니다. [1]
  4. 보존이 되어 있지 않은 상태에서 보존 버튼을 누르면, 웨이백 머신이 문서를 보존하게 됩니다.
  5. 이미 보존이 되어 있는 URL을 다시 보존하려면, archive.org/web/의 우측 하단에 있는 ‘Save Page Now’에 보존할 URL을 입력하면 됩니다.
  6. 마지막으로 보존이 정상적으로 이루어졌는지 확인합니다.

URL 형식[편집]

보존하기 전[편집]

다음 링크를 사용하면 위키백과 메인 페이지의 모든 보존된 링크들을 시간대별로 확인할 수 있습니다.

다음과 같이 14자리 이하의 날짜 코드를 사용하여 범위를 좁혀 확인할 수도 있습니다. 이 경우 2005년 12월에 보존된 링크만 나옵니다.

요청된 링크가 아직 보존되지 않았다면 보존을 할 수 있는 링크가 나옵니다. 아래의 링크의 경우 클릭을 하면 곧바로 위키백과의 메인 페이지를 보존합니다.

특정 보존 링크[편집]

링크가 보존이 되었다면 각 링크의 보존된 페이지를 날짜별로 불러올 수 있습니다.

다음 링크는 2002년 9월 30일 12시 35분 25초(UTC)에 보존된 위키백과 메인 페이지를 보여줍니다. 날짜 및 시간의 형식은 YYYYMMDDhhmmss입니다.

URL의 날짜 및 시간 부분에 다음 텍스트를 추가하면 보존된 문서가 표시되는 형식을 바꿀 수 있습니다.[2][3]

  • id_ Identity - 보존된 원본 그 자체를 수정없이 보여줍니다.
  • js_ JavaScript - 자바스크립트로 마크업된 페이지를 보여줍니다.
  • cs_ CSS - CSS로 마크업된 페이지를 보여줍니다.
  • im_ Image - 이미지로 페이지를 보여줍니다.

즉, 다음과 같이 id_를 날짜와 시간 뒤에 추가하면 보존된 순수 원본을 확인할 수 있습니다.

최근 보존 링크[편집]

다음 링크는 가장 최근에 보존된 문서로 연결됩니다.

위 형식의 링크를 사용하는 것은 권장하지 않습니다. 반대로 숫자 1000을 날짜와 시간 부분에 넣으면 가장 오래된 링크로 연결됩니다.

archive.is 사용하기[편집]

archive.is는 개인이 운영하는 서비스입니다. 위 두 사이트와는 달리 크롤링이 아니라 사용자의 요청에 따라 보존하기 때문에 로봇 배제 표준을 무시하고 URL을 보존할 수 있습니다. 보존을 하면 동적인 요소는 제거된 채 페이지가 보존되며, PNG 파일의 스크린샷 역시 동시에 보존됩니다.

archive.is로 문서 보존하기[편집]

  1. archive.is에 접속합니다.
  2. ‘주소의 콘텐츠가 살아 있으며 내용을 보존하고 싶습니다’에 URL을 입력하여 문서를 저장할 수 있습니다.
  3. 하단의 ‘저장된 스냅샷의 보존 내용을 검색하고 싶습니다’에 URL을 입력하면 이미 보존이 된 페이지를 검색할 수 있습니다.

URL 형식[편집]

보존된 URL은 기본적으로 다음과 같은 단축된 형식으로 나타납니다.

보존된 페이지에서 ‘공유’ 버튼을 클릭하면 보존된 날짜와 시간, 원본 URL이 포함된 긴 형식의 URL을 확인할 수 있습니다.

다른 사이트 이용하기[편집]

위에서 소개된 사이트 외에도 다른 사이트에서 제공하는 서비스를 이용해도 무방합니다. perma.cc, freezepage.com, megalodon.jp 등의 여러 서비스들이 존재합니다.

미국 NDIIPP에서 후원하는 메멘토 프로젝트를 이용하면 수십 개의 서비스를 한 번에 검색할 수 있습니다.

검색 엔진에서 봇이 크롤링한 페이지도 이용할 수 있습니다. 예를 들어 구글 검색의 경우 해당 자료를 검색을 통해 찾은 후, 검색 결과에서 URL 옆에 위치한 버튼을 클릭하여 ‘저장된 페이지’를 확인하면 이 링크와 같이 보존된 값을 확인할 수 있습니다.

제한[편집]

WebCite와 웨이백 머신의 경우 로봇 배제 표준을 준수합니다. WebCite의 경우 보존이 요청된 그 순간에 robots.txt를 확인하지만, 웨이백 머신의 경우 주기적으로 이를 확인한 뒤 robots.txt가 크롤을 허용하지 않는 것으로 바뀐 경우 해당 보존 문서를 삭제합니다.

예를 들어, 네이버 뉴스는 http://news.naver.com/robots.txt 에 로봇 명령을 갖고 있으며, 명령어는 다음과 같습니다:

User-agent: Yeti
Allow: /main/imagemontage
Disallow: /
User-agent: *
Disallow: /

따라서, Yeti 검색엔진은 /main/imagemontage 폴더 내의 내용을 검색할 수 있지만, 다른 검색 엔진 (보존 프로그램 포함)은 네이버 뉴스의 기사를 보존할 수 없습니다.

위키백과에서 사용하기[편집]

{{인용}}이나 {{웹 인용}}과 같은 틀에서는 보존된 페이지를 표시할 수 있는 변수가 마련되어 있습니다. |보존url=|보존날짜=를 이용하여 나타낼 수 있으며, 두 변수 모두 반드시 사용해야 합니다.

  • {{웹 인용 |url=http://ko.wikipedia.org/ |title=위키백과:대문 |보존url=https://web.archive.org/web/20170109014724/https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8 |보존날짜=2017-01-09 }}
    “위키백과:대문”. 2017년 1월 9일에 원본 문서에서 보존된 문서. 

원본 URL이 현재도 살아있는 경우 |깨진링크=아니오를 추가하면 됩니다.

  • {{웹 인용 |url=http://ko.wikipedia.org/ |title=위키백과:대문 |보존url=https://web.archive.org/web/20170109014724/https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8 |보존날짜=2017-01-09 |깨진링크=아니오}}</nowiki>
    “위키백과:대문”. 2017년 1월 9일에 보존된 문서. 

각주[편집]

  1. 이 때, 로봇 배제 표준이 해당 문서의 수집을 금지한다면, 보존 여부를 묻는 문서가 나오지 않습니다.
  2. “Wayback Administrator Manual” (영어). 인터넷 아카이브. 2014년 1월 20일에 보존된 문서. 
  3. “How can I view a page without the Wayback code in it?” (영어). 인터넷 아카이브. 2013년 8월 6일에 원본 문서에서 보존된 문서.