Расширенная настройка и RegEx для Screaming Frog

конфигурация
Использование регулярных выражений
Перезапись URL
Более эффективное отслеживание

Использование сканера или веб-сканера очень важно при выполнении SEO Onpage, и в настоящее время Screaming Frog стал любимым инструментом отслеживания для большинства профессионалов SEO, так как он позволяет бесплатно отслеживать полно небольших сайтов до 500 URL-адресов и в своей платной версии может отслеживать самые крупные сайты в Интернете (если память вашего компьютера поддерживает вас, конечно).

Во втором случае крайне важно правильно настроить отслеживание, для чего Screaming Frog предлагает несколько возможностей настройки для адаптации к нашим потребностям, учитывая, что все, что указано ниже, предназначено для использования в режиме паука .

конфигурация

Перед началом сканирования необходимо настроить сканер так, чтобы он получал нужные URL-адреса, и, хотя конфигурация не очень сложная, не всегда понятно, когда отмечать каждый доступный параметр, поэтому вот основные из них:

Проверить внешние ссылки : указывает, должна ли программа проверять внешние ссылки (на другой домен), которые она обнаруживает при отслеживании. Это не приведет к отслеживанию ссылок, обнаруженных на этих страницах, и особенно полезно при обнаружении неработающих внешних ссылок.

Проверить ссылки вне папки : если вы хотите проверять только URL-адреса в каталоге, убедитесь, что этот параметр не отмечен.
Сканирование всех поддоменов . Если на веб-сайте, который требуется сканировать, имеется несколько поддоменов, и вам необходимо отслеживать их все, вы должны отметить эту опцию.
Сканирование канонических файлов : эта опция очень полезна, если канонические URL-адреса в Интернете не связаны напрямую, поскольку мы уверены, что Screaming Frog также будет отслеживать канонические URL-адреса, и мы сможем проверить, есть ли у них проблемы с SEO.
Игнорировать robots.txt : с помощью этой опции мы можем выбрать сканирование в Интернете, следуя правилам файла robots.txt, чтобы сделать это так, как поисковые системы будут делать или сканировать все URL, даже те, которые не сканируют поисковые системы.
Разрешить файлы cookie : если в Интернете требуется, чтобы браузер пользователя принимал файлы cookie , вам необходимо активировать эту опцию, чтобы выполнить отслеживание.
Запрос аутентификации . Эта опция необходима только тогда, когда мы собираемся сканировать сеть, которая запрашивает на некоторых своих страницах аутентификацию пользователя по http. Если мы отметим эту опцию и веб-запрос запрашивает такую аутентификацию, Screaming Frog покажет нам всплывающее окно, чтобы мы могли ввести пользователя и пароль, необходимые для продолжения отслеживания.
Всегда следуйте перенаправлениям . По моему мнению, это всегда нужно проверять, потому что, если это не так, Screaming остановится, когда достигнет перенаправления, и продолжит анализировать остальные страницы. Для меня жизненно важно знать, куда указывает перенаправление, поэтому я не понимаю, почему эту функцию следует отключить.
Респект noindex . Чтобы выполнить поиск только по страницам, которые будут индексировать поисковые системы, эта функция должна быть активирована, поэтому Screaming Frog не будет включать в свое отслеживание страницы, содержащие роботов мета-тегов со значением «noindex».
Респект канонический . Как и в случае с предыдущей опцией, это приводит к тому, что Screaming ведет себя так же, как и поисковая система, с точки зрения канонических меток, поэтому при отслеживании он будет показывать только канонические URL-адреса URL-адресов, содержащих указанный тег.

Как и в случае с предыдущей опцией, это приводит к тому, что Screaming ведет себя так же, как и поисковая система, с точки зрения канонических меток, поэтому при отслеживании он будет показывать только канонические URL-адреса URL-адресов, содержащих указанный тег

Использование регулярных выражений

Возможно, функциональность наиболее полезного инструмента, когда дело доходит до отслеживания сайтов с миллионами URL-адресов, но наиболее сложна в использовании, если вы не используете регулярные выражения. Разделы, в которые мы можем ввести наши регулярные выражения, находятся в меню «Включить» и «Исключить» в разделе «Конфигурация».

Здесь мы можем легко разделить регулярные выражения, чтобы включить URL-адреса в обход или исключить их, что было бы похоже на высказывание «Включить / исключить все URL-адреса, которые соответствуют ...».

Совет: чтобы Screaming Frog сканировал веб-сайт при использовании этой функции, домашняя страница сканирования должна содержать хотя бы одну ссылку (href), которая соответствует введенному регулярному выражению.

Необходимо помнить, что Screaming Frog обрабатывает каждую введенную нами строку как независимое регулярное выражение и будет искать URL-адреса, которые соответствуют хотя бы одному из указанных выражений, так что если мы включим регулярное выражение ". *" В любую строку параметра «Включить», Screaming Frog будет отслеживать все URL-адреса, которые он находит, выполняя эти всегда условие указанных.

Наиболее часто используемые регулярные выражения - это те, которые выбирают URL-адреса в определенном подкаталоге или URL-адреса, содержащие параметр:

Regex, чтобы выбрать все URL-адреса в каталоге:

http://nombre-de-dominio.com/directorio/.*

Например:

https://internetrepublica.com/blog/.*

Я бы отследил все URL, которые были в республиканской интернет-папке / блоге.

Если каталог находится внутри URL-адреса и может изменять свою позицию, мы можем использовать следующее регулярное выражение:

. * / directory /.*

Regex для выбора URL, которые содержат параметр:

. *? параметр. *. * & параметр. *

Таким образом, мы получаем URL с параметром, который указан так же, как если бы он находился в начале строки параметра URL (который начинается с?), Как если бы он был позади других параметров (разделенных символом &).

Перезапись URL

Другая из продвинутых функций Screaming Frog, менее используемая из-за незнания о ее существовании, - это перезапись URL (перезапись URL), которая позволяет нам изменять URL-адреса, которые Screaming Frog будет отображать в своих списках. Эта функция особенно полезна, когда мы хотим создать файл sitemap.xml вручную.

Внутри этой функции она отличается простотой «Удалить параметры», которая позволяет нам напрямую указывать имя параметров, которые мы не хотим отображать в наших URL-адресах, а Screaming Frog удаляет их непосредственно из своего списка, причем оба параметра в да как его ценность.

Обычно исключаются такие параметры, как отслеживание партнерских программ, веб-аналитика или сеансы.

Второй вариант, Regex Replacement, является самым мощным из всех, так как он делает замены через регулярные выражения в упрощенном виде. С одной стороны, мы должны включить выражение для обнаружения, а с другой - значение, на которое оно будет заменено:

Простой пример того, что мы можем сделать с этой функциональностью, даже не используя регулярные выражения, - это изменить все URL-адреса в протоколе HTTP, отображаемые в списке как HTTPS:

Регулярное выражение: http: // заменить: https: //

Или измените домен .com на .com.es:

Regex: .com Заменить: .com.es

Более эффективное отслеживание

При этом намного проще выполнять эффективное отслеживание, поскольку мы не забываем, что интенсивное использование Screaming Frog перегружает серверы, поэтому мы должны настраивать его при каждом сканировании, чтобы получать только те URL-адреса, которые нам нужны, и не всегда выполнять полное сканирование сеть

Следующие две вкладки изменяют содержимое ниже.

Компьютерный инженер, прежде чем я был веб-программистом. Я заведую отделами интернет-маркетинга и поисковой аналитики интернет-республики. Позволить себя соблазнить R и Big Data.

Который начинается с?

Расширенная конфигурация и RegEx для Screaming Frog

конфигурация

Использование регулярных выражений

Перезапись URL

Более эффективное отслеживание