구글봇

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기
구글봇
Google 2015 logo.svg
원저자구글
종류웹 크롤러
웹사이트Googlebot FAQ

구글봇(Googlebot)은 구글이 사용하는 검색 봇 소프트웨어이며 으로부터 문서를 수집하여 구글 검색 엔진을 위한 검색 가능한 색인을 만든다. 이 이름은 실제로 각기 다른 두 종류의 웹 크롤러를 가리키기 위해 사용된다: 데스크톱 크롤러(데스크톱 사용자를 시뮬레이트하기 위함), 모바일 크롤러(모바일 사용자를 시뮬레이트하기 위함)[1]

웹사이트는 구글봇 데스크톱과 구글봇 모바일에 의해 크롤링될 가능성이 있다. 요청 중 사용자 에이전트 문자열을 살펴봄으로써 구글봇의 서브타입을 식별할 수 있다. 그러나 두 종류의 크롤러 모두 robots.txt의 동일한 제품 토큰(useent 토큰)을 준수하므로 robots.txt를 사용하여 구글봇 모바일 또는 구글봇 데스크톱을 선별적으로 지정할 수 없다.

웹마스터가 구글봇이나 다른 스파이더에 이용할 수 있는 사이트의 정보를 제한하고 싶다면 robots.txt 파일에 적절한 디렉티브를 지정하여 해당 작업을 수행할 수 있으며,[2] 메타 태그 <meta name="Googlebot" content="nofollow" />를 웹 페이지에 추가하여 진행할 수도 있다.[3] 웹 서버 대한 구글봇의 요청은 "Googlebot"을 포함하는 사용자 에이전트 문자열, "googlebot.com"을 포함하는 호스트 주소로 식별이 가능하다.[4]

현재 구글봇은 HREF 링크와 SRC 링크를 따른다.[2] 구글봇이 자바스크립트를 실행하고 Ajax 호출에 의해 생성된 콘텐츠의 구문을 분석할 수 있다는 정황이 있다.[5][6] 진보된 구글봇의 기능을 설명하는 여러 이론들을 뒷받침하는 것은 자바스크립트를 처리하는 것이다.[7][8][9] 현재 구글봇은 크롬 41(M41) 기반의 웹 렌더링 서비스(WRS)를 사용한다[10]. 구글봇은 모든 문서의 모든 링크를 찾아들어가면서 페이지를 발견한다. 그 다음 다른 웹 페이지의 이 링크들을 따라간다. 새 웹 페이지들은 웹 상에 알려진 다른 문서들과 연결되어 있어야 웹마스터가 크롤링, 색인, 수동 제출을 할 수 있게 된다.

각주[편집]

  1. “Googlebot”. 《Google》. 2019년 3월 11일. 2019년 3월 11일에 확인함. 
  2. “Google Search Console”. 《Google.com》. 
  3. “Google Search Console”. 《search.google.com》. 2019년 3월 11일에 확인함. 
  4. Exact Googlebot client info can be found in Google-cached copies of pages which display such data to visitors. For example, see [1]
  5. “Googlebot makes POST requests via AJAX”. 
  6. “Google, the Jig is Up! Googlebot is actually a browser...”. 
  7. “Googlebot's Javascript Interpreter: A Diagnostic”. 
  8. “Googlebot is Chrome”. 
  9. “How Googlebot crawls JavaScript”. 
  10. “Understand rendering on Google Search | Search”. 《Google Developers》 (영어). 2019년 3월 11일에 확인함. 

외부 링크[편집]