Анализ ведущих мировых файлов robots.txt

Walled Gardens: сайты, которые запрещают всем, кроме Google
Боты ведут себя плохо
Объявления о работе
# 1 airbnb.com/robots.txt
Получайте новые сообщения по электронной почте!

Файл robots.txt сайта сообщает веб-сканерам миров, какие файлы они могут и не могут загрузить. Он действует как первый привратник Интернета, в отличие от блокировки ответа - он позволяет вам останавливать запросы на ваш сайт до того, как это произойдет. Интересная вещь об этих файлах - это то, что вебмастера предполагают, что автоматизированные процессы должны получать доступ к своим сайтам. Хотя бот легко игнорирует этот файл, он определяет идеализированное поведение того, как он должен действовать.

Как таковые, эти файлы очень важны. Поэтому я решил загрузить файл robots.txt с каждого из первых миллионов веб-сайтов планеты и посмотреть, какие шаблоны я смог найти.

Я получил список Топ 1 миллион сайтов от Alexa и написал небольшая программа скачать файл robots.txt с каждого домена. После загрузки всех данных я запускал каждый файл через питонов urllib.robotparser пакет и начал смотреть на результаты.

Walled Gardens: сайты, которые запрещают всем, кроме Google

Одной из моих любимых мозолей являются сайты, которые позволяют GoogleBot индексировать весь их контент, но запрещают всех остальных. Например, файл Facebook robots.txt начинается с:

Примечание. Сканирование Facebook запрещено, если у вас нет явного письменного разрешения. Смотрите: http://www.facebook.com/apps/site_scraping_tos_terms.php

Это немного лицемерно, потому что сам Facebook начал с сканирования страниц профиля студентов Гарварда - именно такой вид деятельности они сейчас пытаются запретить другим людям.

Требование о наличии письменного соглашения, прежде чем разрешить сканирование вашего сайта, противоречит идеалам открытого интернета. Это препятствует научным исследованиям и создает барьер для доступа к новым поисковым системам: DuckDuckGo запрещено сканировать Facebook, а Google - нет.

В стремлении назвать и опозорить сайты, которые занимаются этим типом поведения, я написал простой скрипт который проверяет домены, которые позволяют Google индексировать их домашнюю страницу, но запрещают всех остальных. Наиболее популярные домены, которые делают это:

Я ограничился доменами на английском языке, так что это знакомо людям, которые читают это, но вы можете изменить язык для просмотра международных сайтов. Я также указал, позволяет ли сайт DuckDuckGo индексировать свою домашнюю страницу, чтобы показать, насколько трудной битвой столкнулись новые поисковые системы в наши дни.

Большинство вышеперечисленных доменов, таких как Facebook, LinkedIn, Quora и Yelp, имеют одну общую черту. Они размещают пользовательский контент, который представляет большую ценность для их собственного бизнеса. Эти данные являются одним из наиболее ценных активов, которыми обладают эти компании, и они не просто собираются предоставлять их бесплатно. Чтобы быть справедливым, хотя, эти запреты часто представлены с точки зрения защиты конфиденциальности пользователей, таких как в этом посте от технического директора Facebook, объясняющего решение о запрете сканеров или глубоко Robots.txt Quora, где они объясняют, почему они запретили машину обратного хода ,

Дальше по списку и результаты не так последовательны - например, мне не понятно, почему census.gov разрешает доступ только 3 основным поисковым системам к своему контенту, но запрещает DuckDuckGo. Можно подумать, что эти данные будут принадлежать американскому народу, а не только для Google / Microsoft / Yahoo.

Хотя я не являюсь поклонником такого поведения, я, конечно, могу понять импульс, чтобы только занести в белый список определенных сканеров, учитывая всех плохих роботов, которые существуют там.

Боты ведут себя плохо

Еще кое-что, что я хотел опробовать, - это выявить худших сканеров в Интернете, используя общее мнение о миллионе загруженных мной файлов robots.txt. Чтобы выяснить, какие боты являются худшими участниками, я подсчитал, сколько разных доменов полностью запретило использование useragent, а затем оценил их использование по тому, сколько раз они были заблокированы:

В этом списке есть несколько различных типов ботов.

Первая группа - это сканеры, которые собирают данные для SEO и маркетингового анализа. Эти фирмы хотят получить как можно больше данных для своей аналитики, что приводит к заметной нагрузке на многие серверы. Арефс даже хвастается, что «AhrefsBot - второй по активности сканер после Googlebot» Поэтому понятно, что люди будут раздражаться и блокировать их. Majestic (MJ12Bot) позиционирует себя как инструмент конкурентного анализа, что означает, что он сканирует ваш сайт, чтобы дать бизнес-представление вашим конкурентам - но также утверждает, что у него есть "самый большой в мире индекс ссылок" на их домашней странице ,

Вторая группа пользовательских агентов состоит из инструментов, которые стремятся быстро загрузить веб-сайт для личного использования в автономном режиме. Инструменты как WebCopier , WebStripper а также Телепорт все позволяют быстро загружать целые веб-сайты на жесткий диск. Проблема в том, что все эти инструменты явно забили сайты настолько, что их часто здесь запрещают.

Наконец, существуют поисковые системы, такие как Baidu (BaiduSpider) и Яндекс, которые могут активно индексировать контент, обслуживая только те языки / рынки, которые не обязательно приносят большую пользу определенным сайтам. Лично я получаю нетривиальный объем трафика от обоих из них, поэтому не рекомендую также блокировать.

Объявления о работе

Это признак того времени, что файлы, предназначенные для использования роботами, теперь часто содержат объявления о вакансиях в поисках инженеров-программистов - особенно людей, заинтересованных в SEO.

Учитывая, что у меня есть все эти данные, я подумал, что было бы интересно представить первую в мире (и, вероятно, единственную) доску вакансий, полностью основанную на описаниях, соскребенных из файлов robots.txt:

Далее>

# 1 airbnb.com/robots.txt

# /////// # // // # // // # // // //// /// /// # // // /// /// # // /// // //// /// /// (// (// /// //// /// //// /// //// # // /// /// // & ////////// /// (////// /////////// ////////// //////// /// # // // // // /// /// /// (// /// /// /// /// /// /// # // (/ // / / /// /// /// (// /// /// /// /// /// /// # // // // // /// /// /// ( // //// //// /// /// /// /// # // // // // ////////// /// (// /// /////// /// /// ////////// # / (///// (/ # // //// # // # // /// / // // # ////// ////// # # # Мы думали, что вы никогда не сделаете это! # Мы надеемся, что вы чувствуете себя как дома в этом файле ... если только вы не запрещенная подпапка . # И поскольку вы здесь, ознакомьтесь с нашей культурой и командой: https://www.airbnb.com/careers/departments/engineering # Даже ваш робот может принести работу на рабочий день.

Немного иронии, Ahrefs.com кто является разработчиком 2-го наиболее запрещенного бота, которого я идентифицировал здесь, также имеет объявление для человека SEO в их файл robots.txt , Также, pricefalls.com предисловие к объявлению о работе в их файл robots.txt с «Уведомление: сканирование ценовых спадов запрещено, если у вас нет явного письменного разрешения».

Весь код для этого поста на GitHub ,

Опубликовано 18 октября 2017

Получайте новые сообщения по электронной почте!

Введите свой адрес электронной почты, чтобы получать электронную почту всякий раз, когда я пишу новое сообщение: