Краулинговый бюджет: что это, как определить, повысить и оптимизировать

Александр Овсянников (Интернет Мажор)
Краулинговый бюджет

Краулинговый бюджет – это число страниц, которые краулер (робот поисковика) способен просканировать за определенный промежуток времени. Обычно seo оптимизаторы считают за сутки.

Например, если Googlebot за один день может обойти 30 страниц, то его краулинговый бюджет за месяц составит 900 страниц. Другими словами, это лимит документов, которые краулер собирается и может обойти на вашем сайте за один день.

Владельцев небольших сайтов данный вопрос вообще не должен беспокоить, а крупные веб-ресурсы и порталы, ежедневно пополняющиеся десятками новых страниц, могут страдать от того, что поисковые роботы просто обходят их стороной. Все потому, что они не успевают индексировать часто обновляющейся в большом количестве контент.

Как определить краулинговый бюджет?

Приблизительный краулинговый бюджет можно определить, посмотрев через логи сервера, как часто поисковый бот заходит к вам на сайт.

А так же через сервис Google Search Console и Яндекс Вебмастер. Где тоже можно увидеть примерную статистику посещений роботов ваш сайт.

Как повысить краулинговый бюджет?

На рост краулинговово бюджет влияет 3 фактора:

  1. PageRank
  2. Поведенческие факторы
  3. Возраст ресурса

Увеличивая эти показатели, вы улучшаете краулинговый бюджет. И если на первых два фактора вы можете влиять самостоятельно, то третий фактор не зависит от вас.

Многие вебмастера считают, что увеличение краулингового бюджета зависит от частоты публикаций контента на сайте. Но это не совсем так, если вы будете ежесуточно публиковать по 100 статей в день, а три фактора которые мы описали выше не будут изменяться, то вы увеличите его несущественно. Так что это косвенный фактор, но никак не основной

Оптимизация краулингового бюджета

Бывает и такое, что краулинговый бюджет у сайта большой, но в связи с нерациональным использованием сайта, он тратится не на те ресурсы. В таком случае улучшить расход краулингового бюджета возможно несколькими путями.

Проверьте доступ ботов к документам

Естественно, краулеры могут попадать на ресурс и проходить по ссылкам внутри него лишь в том случае, если они не скрыты. Поэтому есть смысл заглянуть в robots.txt и .htaccess и настроить файлы так, чтобы все необходимые страницы находились в открытом доступе для ботов.

Если какие-то документы вы не желаете показывать поисковикам, пропишите соответствующие команды в robots и .htaccess. Но Google не всегда следует директиве disallow. Лучше применить мета-тег robots либо HTTP-заголовок X-Robots-Tag, прописав им значение noindex для запрета индексирования страницы. Более подробно, как это сделать читайте здесь.

Найдите и устраните недействительные ссылки

Битые ссылки тратят время краулингового бюджета на определение их недействительности, чтобы ощутить их влияние на краулинговый бюджет их конечно должно быть огромное количество. Но все же, лучше добиваться того, чтобы их не было даже в маленьком количестве на сайте.

Используйте редиректы разумно

На любую ссылку, перенаправляющую пользователя с одного сайта на другой, тратится краулинговый бюджет. Если ресурс содержит огромную цепочку из 301 или 302 редиректов, боты с большой вероятностью не дойдут до целевой страницы и не включат ее в индекс. Поэтому лучше уменьшить число переадресаций насколько это возможно, не применяя более двух подряд перенаправлений.

Минимизируйте использование мультимедийных файлов

Когда-то пауки Google не умели индексировать HTML, JavaScript и Flash. Сейчас такой проблемы у Googlebot нет, но еще далеко не все поисковики научились работать с каждым файлом мультимедиа. Лучше не популярные форматы мультимедиа не применять на важных страницах, от которых вы ожидаете высокие позиции в результатах выдачи.

Представители Google даже рекомендуют для таких файлов создавать аналоги в текстовом формате, чтобы его можно было с легкостью найти и занести в базу данных. Здесь вы найдете полный список файлов, индексируемых Google.

Настройте Sitemap

Карта сайта полезна не столько для пользователей, сколько для краулеров, так как облегчает поиск контента. Файл XML Sitemap должен содержать всегда актуальную информацию. Удалите отсюда все, что негативно сказывается на юзабилити сайта:

  • страницы с ошибками 4XX;
  • чрезмерное количество переадресаций;
  • лишние нерелевантные и скрытые от роботов URL.

Контролируйте динамические URL-адреса

Боты воспринимают динамические УРЛы, ссылающиеся все на одну страницу, как разные. Это ведет к перерасходованию краулингового бюджета. Не пренебрегайте данной проблемой. В Search Console в разделе Параметры URL есть функция настройки адресов. Тут можно указать поисковику, как именно генерировать URL с конкретным параметром, тем самым избежав повторную обработку одного и того же контента на ресурсе.

Структурируйте внутренние ссылки продуманно

Хотя внутренние ссылки и не сильно сказываются на сканировании, их правильная структура поможет паукам отыскивать материалы без лишнего расходования краулингового бюджета.

Да и для пользователя хорошая структура внутренних ссылок явно ощущается, ведь так он сможет перейти на любую ключевую страницу ресурса всего в 2-3 клика. Благодаря этому посетитель будет проводить на сайте больше времени, что положительно скажется на поведенческих факторах и, как следствие, на ранжировании.

Применяйте фиды

XML, Atom и RSS-ленты позволяют отсылать пользователям новые публикации на почту – им даже не нужно заходить на сайт с целью проверки обновлений. RSS-ленты – один из эффективнейших способов привлечения трафика. Но кроме того их часто посещают краулеры поисковых систем.

Увеличивайте число внешних ссылок

Внешние ссылки взаимосвязаны с числом заходов на ресурс роботов. Это было доказано в процессе эксперимента, проводимого Йоханом Кутарнюком.

Эксперимент Кутарнюка

На графике мы видим, что число внутренних ссылок практически везде одинаковое, а внешних – уменьшается. И где меньше внешних ссылок, там и реже бывали боты.

Взаимосвязь между посещениями и внешними ссылками составила аж 0,978, тогда как с внутренними – 0,171.

Важно! Краулинговый бюджет также распределяется между вашими соседями по хостингу. И чем их больше, тем меньше способность ботов сканировать суммарное количество страниц ресурсов, находящихся на конкретном хостинге.

Вопросы-ответы по краулинговому бюджету

В рамках общения с вебмастерами, Google отвечал на вопросы связанные с краулинговым бюджетом.

Вопрос: Сказывается ли на краулинговом бюджете скорость загрузки ресурса? Что по поводу ошибок сканирования?

Ответ: Снижение скорости загрузки сайта положительно сказывается на пользовательском опыте, вместе с тем увеличивается скорость обхода. А для краулера поисковой системы быстрый ресурс говорит о нормальном функционировании сервера. Проще говоря, Googlebot сможет собрать больше материала за одинаковое число соединений. Однако чрезмерное количество ошибок 5XX провоцирует замедление сканирования.

Поэтому стоит постоянно посещать Search Console и мониторить раздел Ошибки сканирования, чтобы контролировать количество ошибок и держать их в допустимых пределах.

Вопрос: А расходует ли краулинговый бюджет директива nofollow?

Ответ: Вообще все УРЛы, посещаемые роботом, так или иначе расходуют краулинговый бюджет. И если ссылка скрыта от индексирования, она все-равно с большой долей вероятности будет сканироваться, если на какой-либо странице того же или другого веб-ресурса ей не приписана директива nofollow.

Вопрос: Сканирование – это один из факторов ранжирования?

Ответ: Если страница попадет в индекс быстрее, это не значит, что она «взлетит» в позициях результатов выдачи. У Google не одна сотня факторов, которыми он руководствуется при составлении рейтинга сайтов, но сканирование отыгрывает здесь далеко не основную роль, хоть без него страницы и не попадут в поиск.

Вопрос: Тратится ли краулинговый бюджет на встроенный контент (CSS, JavaScript) и альтернативные URL-адреса (AMP, hreflang)?

Ответ: – Да. При сканировании ресурсов Googlebot учитываются все УРЛы, в том числе и альтернативные. Аналогичная ситуация происходит и со встроенным контентом.

Вопрос: Есть ли у меня возможность управлять поисковым роботом Google посредством директивы crawl-delay?

Ответ: Нет. Данная директива не обрабатывается краулером.

Пожалуйста, оцените эту статью. Чтобы мы могли делать лучший контент! Напишите в комментариях, что вам понравилось и не понравилось!

Рейтинг статьи: / 5. Кол-во оценок:

Александр Овсянников ака Интернет Мажор
Занимаюсь продвижением и заработком на сайтах с 2009 года.

Оставить комментарий

avatar
  Подписаться  
Уведомление о