본문 바로가기

이전 데이터/인터넷 공부

크롤링 통계

크롤링 통계

크롤링 통계 보고서(웹사이트에만 해당)는 지난 90일간 사이트에서 발생한 Googlebot의 활동 정보를 제공합니다. 이 통계는 CSS, 자바스크립트, Flash, PDF 파일, 이미지 등 Google에서 다운로드하는 모든 콘텐츠 유형을 반영합니다.

크롤링 통계는 인증된 웹사이트에서만 사용할 수 있습니다.

데이터 이해

'적절한' 크롤링 횟수는 없지만, 사이트 크기가 증가하면 시간 경과에 따라 상대적으로 균등하게 증가하는 차트가 표시되어야 합니다. 급격한 감소나 증가가 나타나면 계속 읽어보세요.

크롤링 속도가 급감한 이유

일반적으로 Google 크롤링 속도는 1~2주의 시간이 지나면서 상대적으로 안정화됩니다. 급격히 감소한다면 다음과 같은 몇 가지 원인이 있을 수 있습니다.

  • 새롭거나 매우 광범위한 robots.txt 규칙을 추가했습니다. 차단해야 하는 리소스만 차단하고 있는지 확인하세요. Google에서 콘텐츠를 파악하기 위해 CSS나 자바스크립트 등 특정 리소스가 필요한 경우 해당 리소스에 대해 Googlebot을 차단하지 않아야 합니다.
  • 페이지에 손상된 HTML이나 지원되지 않는 콘텐츠가 있습니다. 지원되지 않는 미디어 유형을 사용하거나 페이지가 이미지로만 이루어져 있어서 Googlebot에서 페이지의 콘텐츠를 파싱할 수 없는 경우 페이지를 크롤링할 수 없습니다. Fetch as Google을 사용하여 Googlebot에서 페이지를 어떻게 보는지 확인하세요.
  • 사이트에서 요청에 느리게 반응하면 Googlebot이 요청을 제한하여 서버 오버로드를 방지합니다. 크롤링 통계 보고서에서 사이트가 더 느리게 반응했는지 확인하세요.
  • 서버 오류율이 증가하면 Googlebot이 요청을 제한하여 서버 오버로드를 방지합니다. 크롤링 오류 보고서에서 서버 연결 오류가 증가되었는지 확인하세요.
  • 선호하는 최대 크롤링 속도를 낮추지 않았는지 확인하세요.
  • 사이트에 자주 변경하지 않는 정보가 있거나 품질이 높지 않은 경우 자주 크롤링하지 않을 수 있습니다.  사이트를 솔직하게 살펴보고 사이트와 관련되지 않은 사용자로부터 중립적인 의견을 받은 다음 사이트를 전반적으로 개선할 수 있는 방법과 위치를 생각해 봅니다.

크롤링 속도가 급증한 이유

사이트에 많은 새로운 정보 또는 매우 유용한 정보가 포함된 경우 예상보다 더 자주 크롤링될 수 있습니다. 서버의 부담이 크다고 느껴지는 경우 다음과 같이 사이트의 Googlebot 크롤링 속도를 관리할 수 있습니다.

  • 크롤링 통계 보고서를 살펴보고 로그에서 사용자 에이전트를 확인하여 Googlebot이 다른 요청자가 아닌 내 사이트에 액세스하고 있는지 확인합니다.
  • 긴급하게 Googlebot 크롤링을 차단해야 하는 경우 요청에 503 HTTP 결과 코드를 반환합니다.
  • robots.txt 파일을 세부적으로 조정하여 호출되면 안 되는 페이지를 차단합니다.
  • 단기 해결책으로 Search Console에서 선호하는 최대 크롤링 속도를 설정할 수 있습니다. 하지만 이 설정은 크롤링을 원하거나 원하지 않는 페이지 또는 리소스를 Google에 구체적으로 알리지 않으므로 장기적으로 사용하는 것은 좋지 않습니다.
  • 무한 캘린더나 무한 검색 페이지와 같은 '무한' 결과가 포함된 페이지에 대한 크롤링을 허용하지 않아야 합니다. robots.txt 또는 NOFOLLOW 태그로 차단하세요.
  • URL이 더 이상 존재하지 않거나 이동한 경우 올바른 응답 코드를 반환해야 합니다. 더 이상 존재하지 않거나 유효하지 않은 URL에 대해서는 404나 410을 사용하고 다른 URL로 영구 대체된 URL인 경우 301 리디렉션을 사용합니다(영구적이지 않은 경우 302 사용). 예정된 임시 다운타임인 경우 503을 사용합니다. 처리할 수 없는 오류가 발생하는 경우 서버에서 500 오류를 반환해야 합니다.

 






"20110114030217_0" "20100606233539" "20100607000223"