Robots.txt - определение терминов

Дополнительная информация

Файл Robots.txt дает веб-мастеру возможность сообщить поисковой системе, какие страницы или каталоги должны сканироваться или не сканироваться ботом. Это позволяет веб-мастеру сохранить свои ресурсы для обхода, поскольку неважные каталоги не потребляют емкость для обхода. Файл Robots

Согласно протоколу исключения роботов , сканер сначала читает файл robots.txt при посещении веб-сайта, чтобы получить информацию о том, какие страницы ему разрешено сканировать, а какие нет. Чтобы бот обнаружил Robots.txt, он всегда хранится по стандартному пути domain.de/robots.txt . Основные поисковые роботы, такие как бот Google или Bing, обычно следуют инструкциям в файле robots.txt. А как выглядит файл robots.txt?

Файл Robots.txt состоит из так называемых записей. Запись состоит из двух частей:

В первой части упоминается пользовательский агент, к которому применяется инструкция. Это может быть, например, Google Bot.
Во второй части записаны инструкции к боту . Вы работаете с условиями разрешить и запретить.

Например, простой файл Robots.txt может выглядеть так:

Пользователь-агент: *
Disallow: domain.de/example

После этого файла всем пользовательским агентам не разрешено сканировать каталог domain.de/example. Звездочка является заполнителем для всех пользовательских агентов.

Вот второй пример:

Пользователь-агент: googlebot
Disallow: /
Пользователь-агент: bingbot
Disallow: domain.de/example

Соответственно, бот Google не должен сканировать всю страницу. Bing-Bot не может сканировать только страницу domain.de/example.

Внимание: если в Robots.txt закралась ошибка и, например, весь сайт исключен из сканирования, это может привести к потерям рейтинга. С необъяснимой низкой видимостью так стоит заглянуть в файл. Чтобы убедиться, что файл Robots.txt правильно отформатирован и может быть правильно прочитан ботом, Инструменты Google для веб-мастеров предоставляют соответствующую функцию тестирования. Кстати: Вообще говоря, если боту не разрешено сканировать страницу, это не значит, что он не может быть проиндексирован! Когда создаются ссылки на страницу, поисковая система может счесть это настолько важным, что она все равно будет проиндексирована. Чтобы исключить страницу из индексации, мы рекомендуем использовать вместо нее метатег robots.

Дополнительная информация

Robots.txt - вот как это делается!

Протокол исключения роботов и тайна тега X-Robots

Txt?