Сканирование бюджета Google и влияние SEO: файл Оливье Даффеса

Бюджет сканирования Google
Google 2 критерия скорости исследования
Как узнать, сколько Google URL сканирует в день на сайте?
Как проверить сканирование одной страницы Google?
Как узнать, какие страницы медленно сканировать?
SEO влияние
2 важных критерия для увеличения сканирования Google
Еще один способ увеличить сканирование Google
Google не всегда хочет сканировать / индексировать 100% сайта!
6 причин, которые мешают сканировать ваш сайт
Избегайте черной массы!

Почему сканирование («исследование» в соответствии с французским термином, используемым Google) так важно для вашего SEO?

Поскольку страница вашего сайта хорошо работает в Google, она должна быть проиндексирована (и обновлена) и поэтому должна сканироваться быстро / часто (как только она будет опубликована или обновлена).

Google не может сканировать бесконечное количество страниц в день, где-то есть ограничения . В этом выпуске я собираюсь объяснить, что мы на самом деле подразумеваем под « бюджетом сканирования » и что это означает официально для Google.

Но прежде всего я дам вам советы и предложу инструменты для сканирования робота Googlebot, который очень эффективен на вашем сайте!

Но прежде всего я дам вам советы и предложу инструменты для сканирования робота Googlebot, который очень эффективен на вашем сайте

Объясняет понятие сканирования бюджета и оптимизации Google SEO

Бюджет сканирования Google

Робот Google, по имени Googlebot, тратит время на изучение URL-адресов: это не 35h, а скорее 24/7 365j / year ;-)

Настоящий обжор!

Но конкретно, он имеет + страницы для восстановления на некоторых (огромных) сайтах и, похоже, не похож на все сайты на одном уровне. Короче говоря, не все сайты, похоже, обрабатываются одинаково.

Фактически, первая концепция, которую нужно понять, это то, что робот Google пытается достичь границ вашего сервера. Как только он осознает, что его деятельность начинает ухудшать пользовательский опыт пользователей, одновременно обращающихся к нему, он снижает частоту сканирования.

Я предполагаю, что он сохраняет своего рода среднее значение для каждого сайта и адаптируется к ситуации в режиме реального времени. Это хороший знак, не так ли? На самом деле, это зависит от того, как мы видим вещи:

если ваш сервер не «большой», это не имеет значения, так как Google не будет просить слишком много, и поэтому пользователи могут по-прежнему консультироваться без проблем
Хорошо, но в этом случае Google сократит количество исследуемых URL, так что индексирование новых страниц (или обновление старых) будет замедлено

Google 2 критерия скорости исследования

Что Google использует для оценки возможностей веб-сервера? 2 элемента в основном:

количество одновременных подключений возможно
время, которое он должен ждать между 2 обходами

Исходя из этого, Google устанавливает максимальную скорость сканирования. Следовательно, это может увеличиваться или уменьшаться в зависимости от этих двух факторов:

Состояние исследования . Если сайт некоторое время реагирует очень быстро, ограничение увеличивается, что означает, что для исследования может использоваться больше соединений. Если сайт замедляется или отвечает ошибками сервера, ограничение уменьшается, а робот Googlebot уменьшает его сканирование.
Ограничение, установленное в консоли поиска. Если у вас есть доступ на уровне «владелец» в консоли поиска, вы можете уменьшить сканирование вашего сайта роботом Google ( подробности здесь ). Имейте в виду, что установка более высокого лимита не обязательно приводит к увеличению разведки. И наоборот, я надеюсь, вам не нужно будет уменьшать его: лучше оптимизировать скорость вашего сайта ,

Поэтому я покажу вам, как проверить сканирование Google , либо на вашем сайте, либо на определенной странице.

Как узнать, сколько Google URL сканирует в день на сайте?

Самый подробный способ, конечно, сделать анализ журнала (вы найдете множество инструментов в гугле ).

Но вы также можете получить эту информацию просто в консоли поиска, озаглавив Исследование> Статистика исследования. Этот отображает графики как это:

Пример графиков консоли поиска, показывающих статистику сканирующих URL-адресов Google. Это может дать объяснения по сканированию бюджета Google

На первом графике (вверху) показано количество URL-адресов, которые робот Googlebot исследовал за последние 90 дней для соответствующего свойства консоли поиска (только один поддомен, один протокол). Это касается всех типов документов, сканируемых Google, а не только HTML-страниц.

В зависимости от участков и периодов, вы можете увидеть «плоские» кривые или большие пики или впадины ...

В оставшейся части этого файла я объясняю, что влияет на сканирование Google .

Но перед этим давайте посмотрим, как оценить сканирование на определенной странице.

Как проверить сканирование одной страницы Google?

Метод, который я рекомендую, - попросить Google сканировать URL для проверки. На этот раз вы можете заказать что-то, наслаждайтесь!

Вот как проверить сканирование страницы Google и запросить индексирование:

Перейдите в свою учетную запись Search Console (новая версия)
В форме в верхней части экрана («Инспектор URL») введите URL и подтвердите
Если Google отображает «Этот URL-адрес в Google», то проверенный URL-адрес уже проиндексирован Google.
Если Google отображает «Этот URL не был проиндексирован Google», вы можете принудительно ссылаться на свою страницу, нажав «Запрос на индексацию». У вас нет гарантии, что Google его проиндексирует, но часто это делается за несколько минут.

После того, как Google просканировал страницу, вы можете получить информацию об «покрытии» (чтобы узнать, был ли он проиндексирован, с каким каноническим URL-адресом или почему он не был проиндексирован) и об «улучшениях».

Для детального анализа нажмите «Показать искомую страницу». Появится боковая панель с несколькими вкладками:

«HTML» содержит HTML-код, полученный роботом Google
«Снимок экрана» показывает визуализацию страницы, которую робот Googlebot смог создать (сначала нужно нажать «Проверить URL-адрес в Интернете»)
«Больше информации» говорит:
- код ответа HTTP (и все заголовки, если вы нажмете на строку). Код HTTP должен быть 200 (что означает ОК, см. Здесь значение HTTP-кодов )
- ресурсы страницы: список ресурсов, которые Google не смог получить

Мы видели, сколько Google сканирует страницы в день и как долго сканирует одну. Давайте посмотрим детали сейчас ...

Как узнать, какие страницы медленно сканировать?

Я часто вижу это в своих аудитах, некоторые типы страниц могут загружаться гораздо медленнее, например, страницы со списками (категории) или сложные списки продуктов.

Это не анализ одной страницы, которая откроет ее вам (это слишком утомительно) ...

Это также не исследование 3-го графика «Время загрузки страницы», предоставленного Консолью поиска, который дает ответ.

Вы можете получить информацию такого типа, например, на гусеничном шасси. Xenu если вы используете Windows или поисковый робот, такой как RM Tech ,

Вот выдержка:

Запустите технический аудит RM, в отчете по аудиту приводятся несколько таблиц, включая баланс такого типа:

Эта таблица содержит данные о времени загрузки HTML-страниц вашего сайта.

Конечно, файлы Excel (или CSV) дают все детали. Например, для сайта, прошедшего аудит на этой неделе, у которого было очень много времени загрузки, я обнаружил большие различия в зависимости от типов страниц. Благодаря этой информации заказчик смог решить проблемы намного быстрее.

RM Tech позволяет идентифицировать страницы, которые загружаются слишком медленно

После того, как вы определили страницы, которые работают слишком медленно, вы можете принять меры для ускорения вашего сайта. У вас может быть тот же граф консоли поиска, что и у этого клиента:

После слишком медленной оптимизации времени загрузки некоторых страниц отчет Google Search Console сразу показывает влияние

SEO влияние

Почему вы должны оптимизировать сканирование?

Если вы слишком быстро прочитаете ответы Google о концепции Crawl Budget, у вас может сложиться впечатление, что это абсолютно не проблема, что ваш сайт, вероятно, не заинтересован, может даже этот «бюджет на разведку» - это миф, изобретенный SEO.

Однако на практике все обстоит иначе, поверьте моему опыту (я играю с SEO, так как Google существует, мои начала датируются 1997 годом ...).

Конкретно, все ваши страницы не будут сканироваться Google так часто, как вы пожелаете. В результате это может помешать вашей ссылке:

быстро открывать новые страницы, которые только что были размещены в Интернете
обновить большое количество страниц, на которых вы только что провели оптимизацию (например, все ваши листы продуктов)

Позже в моей статье вы также узнаете, что ваш сайт содержит черную массу! Это не классическое загрязнение, но от него лучше избавиться несмотря ни на что ...

2 важных критерия для увеличения сканирования Google

Google полагается на набор критериев (в основном технических), чтобы решить, какой URL сканировать, а также в каком порядке. Согласно Google, 2 важных фактора:

Популярность . Наиболее популярные URL-адреса в Интернете чаще всего сканируются, чтобы быть как можно более актуальными в индексе Google. Один из способов оценить эту популярность для Google - рассчитать PageRank что он без сомнения продолжает делать даже он больше не сообщает о своей ценности , А вы? Для оценки PageRank используйте инструменты анализа обратных ссылок (например, Majestic, Ahrefs, Moz). Также спросите о расчете внутреннего PR.
устаревание : Google пытается предотвратить обновление URL-адресов в индексе. Так что, со своей стороны, вам лучше обновить содержимое своих старых страниц, чтобы повысить скорость сканирования.

Я дам вам другие советы по сканированию URL, но давайте вернемся к этим двум официальным пунктам.

Чтобы Google часто сканировал стратегические страницы вашего сайта, у них должен быть хороший PageRank. Это требует получения хороших обратных ссылок с других сайтов (это самое лучшее!), Но также и хорошей внутренней сетки. Итак, проверьте эти страницы:

очень легко получить доступ к вашему сайту (1 клик априори или максимум 2, так как это самые стратегические страницы)
иметь несколько внутренних входящих ссылок (это способствует сканированию)

Если вы управляете демонстрационным сайтом, вы сможете сделать это вручную, но если сайт содержит сотни или более страниц, это становится затруднительным без инструментов. Чтобы проверить весь ваш сайт, я предлагаю вам протестировать мой инструмент RM Tech, он делает это среди десятков других анализов!

Примечание: вы можете бесплатно протестировать технический аудит RM на сайте по вашему выбору, у вас будет очень полный бесплатный отчет. Чтобы исправить детали URL-адресов, вам придется использовать кредиты (оплата).

Еще один способ увеличить сканирование Google

Простой способ заставить Google сканировать много страниц, если вы еще не тестировали его, - это просто предоставить ему файл карты сайта со списком всех соответствующих URL-адресов (если необходимо, всего сайта).

Если вы еще этого не сделали, то в последующие дни вы должны увидеть резкое увеличение сканирования. К минусам, если вы уже объявил карту сайта это не будет иметь большого влияния.

Существует по крайней мере еще один случай, когда Google увеличивает (но временно) сканирование, это происходит во время изменение доменного имени (когда ты расскажи гуглу через консоль поиска).

Google не всегда хочет сканировать / индексировать 100% сайта!

За исключением случаев, когда у вас небольшой сайт (менее 100 страниц), имейте в виду, что не гарантируется, что Google сканирует и особенно индексирует все ваши страницы. Кстати, я обсуждаю это в статье о скорость индексации URL-адресов карты сайта , Я цитирую Google:

Комбинируя скорость сканирования с требованием сканирования, мы устанавливаем бюджет сканирования как количество URL-адресов, которые робот Googlebot может и хочет исследовать.

Вывод:

Мы приближаемся к моей истории о "черной массе" ...

6 причин, которые мешают сканировать ваш сайт

Вот где это становится действительно интересным, потому что об этом мало кто знает ...

Это именно то, что объясняет Google:

Согласно нашему анализу, умножение URL-адресов с низкой добавленной стоимостью может затруднить исследование и индексацию сайта.

Именно по этой причине (подкрепленной моим опытом) я разработал специальный алгоритм, чтобы попытаться идентифицировать страницы с низкой добавленной стоимостью. Это алгоритм QualityRisk, включенный в технический аудит RM.

Я продолжаю, вот 6 основных причин, которые ограничивают сканирование вашего сайта, согласно Google:

Из того, что мы видели, URL с низкой добавленной стоимостью попадают в эти категории в порядке важности:

Фасетные идентификаторы навигации и сессии
Дублированный контент на сайте
Страницы с ошибками «Soft 404»
Пиратские страницы
Бесконечные пробелы и прокси
Плохой контент и спам

Вот мои комментарии:

Фасетная навигация - одна из самых сложных вещей, которую нужно освоить с точки зрения SEO; если вы недостаточно хорошо знаете, лучше заблокировать весь просмотр сгенерированных URL
убедитесь, что У робота Google нет идентификаторов сессии когда он придет сканировать ваш сайт; при необходимости знайте, что мой инструмент RM Tech проверяет это
дублированный контент препятствует сканированию и индексации: избегайте условные ошибки внутреннего DC и уточните у RM Tech, что у вас нет DUST (одинаковый текст дубликата URL)
404 страниц с ошибками обычно не трудно обнаружить и избежать
Если ваш сайт взломан , следите за своей электронной почтой, потому что Google должен уведомить вас через вашу учетную запись в консоли поиска.
Избегайте зацикливания перенаправлений любой ценой, это приводит к бесконечным моделям сканирования! RM Tech отмечает их ...
наконец, последний пункт более сложный, потому что он не только технический: убедитесь, что вы не индексируете (слишком) плохие страницы на своем сайте!

Все эти пункты действительно важно понять и исправить, потому что, как говорит Google:

Излишняя трата ресурсов сервера на подобные страницы будет препятствовать сканированию действительно ценных страниц, что может значительно задержать обнаружение интересного контента на сайте.

Фабьен во время SEO тренинга Рейтинговых Метрик

Избегайте черной массы!

Я думаю, вы уже догадались, что я называю черной массой набор URL, который вы не должны индексировать в Google, который не должен даже сканироваться и часто даже не существовать.

Чтобы быть более точным, тот, кто придумал этот термин, - Фабьен, соучредитель рейтинга метрик и SEO-тренер со мной с 2005 года ...

Есть много случаев, которые генерируют черную массу на сайте. Будь то в моих аудитах или на тренировках, я часто видел случаи, когда:

Google индексирует слишком много URL по сравнению с тем, что есть на самом деле
и сканировать слишком много URL

Представьте себе сайт с 300 страницами действительно хорошего контента.

Теоретически, Google должен индексировать 300 страниц, но на практике тот, кто управляет сайтом, не контролирует все и генерирует много черной массы.
В результате робот Googlebot «мешает» 15 000 URL-адресов, которые сканируются более или менее часто.
Из этих 15 000 URL-адресов Google пытается найти 300 хороших, но только 200 (это уже неплохо) и ошибается в 800 других.
Результат: проиндексировано 1000 URL, в том числе 800 низкого качества.
В конце концов, Google считают, что этот сайт среднего качества, а сканирование неэффективно ...

Если у вас есть какие-либо вопросы, не стесняйтесь задавать их в комментариях или в теме форума: Бюджет сканирования Google ,

источник: Google

Вам понравилась эта статья?

Как проверить сканирование одной страницы Google?
Как узнать, какие страницы медленно сканировать?
Почему сканирование («исследование» в соответствии с французским термином, используемым Google) так важно для вашего SEO?
Это хороший знак, не так ли?
Как узнать, сколько Google URL сканирует в день на сайте?
Как проверить сканирование одной страницы Google?
Как узнать, какие страницы медленно сканировать?