로봇 배제 표준: 두 판 사이의 차이
보이기
내용 삭제됨 내용 추가됨
편집 요약 없음 |
|||
64번째 줄: | 64번째 줄: | ||
</source> |
</source> |
||
하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다. |
하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다. |
||
== 같이 보기 == |
|||
* [[noindex]] |
|||
== 외부 링크 == |
== 외부 링크 == |
2020년 3월월 28일 (토) 10:53 판
로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.
이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.
예
만약 모든 로봇에게 문서 접근을 허락하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Allow: /
모든 로봇을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /
모든 로봇에 세 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
모든 로봇에 특정 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Disallow: /directory/file.html
BadBot 로봇에 모든 파일 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: BadBot
Disallow: /
BadBot 과 Googlebot 로봇에 특정 디렉터리 접근을 차단하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: BadBot
User-agent: Googlebot
Disallow: /private/
다양하게 조합하여 사용할 수 있다.
User-agent: googlebot # googlebot 로봇만 적용
Disallow: /private/ # 이 디렉토리를 접근 차단한다.
User-agent: googlebot-news # googlebot-news 로봇만 적용
Disallow: / # 모든 디렉토리를 접근 차단한다.
User-agent: * # 모든 로봇 적용
Disallow: /something/ # 이 디렉토리를 접근 차단한다.
대안
HTML의 meta 태그를 이용할 수도 있다.
<meta name="Robots" content="Noindex,Nofollow" />
하지만 이러한 방법은 일반적인 방법이 아니고, 아직까지는 일부의 로봇만이 지원한다.