- Walled Gardens: сайты, которые запрещают всем, кроме Google
- Боты ведут себя плохо
- Объявления о работе
- # 1 airbnb.com/robots.txt
- Получайте новые сообщения по электронной почте!
Файл robots.txt сайта сообщает веб-сканерам миров, какие файлы они могут и не могут загрузить. Он действует как первый привратник Интернета, в отличие от блокировки ответа - он позволяет вам останавливать запросы на ваш сайт до того, как это произойдет. Интересная вещь об этих файлах - это то, что вебмастера предполагают, что автоматизированные процессы должны получать доступ к своим сайтам. Хотя бот легко игнорирует этот файл, он определяет идеализированное поведение того, как он должен действовать.
Как таковые, эти файлы очень важны. Поэтому я решил загрузить файл robots.txt с каждого из первых миллионов веб-сайтов планеты и посмотреть, какие шаблоны я смог найти.
Я получил список Топ 1 миллион сайтов от Alexa и написал небольшая программа скачать файл robots.txt с каждого домена. После загрузки всех данных я запускал каждый файл через питонов urllib.robotparser пакет и начал смотреть на результаты.
Walled Gardens: сайты, которые запрещают всем, кроме Google
Одной из моих любимых мозолей являются сайты, которые позволяют GoogleBot индексировать весь их контент, но запрещают всех остальных. Например, файл Facebook robots.txt начинается с:
Примечание. Сканирование Facebook запрещено, если у вас нет явного письменного разрешения. Смотрите: http://www.facebook.com/apps/site_scraping_tos_terms.php
Это немного лицемерно, потому что сам Facebook начал с сканирования страниц профиля студентов Гарварда - именно такой вид деятельности они сейчас пытаются запретить другим людям.
Требование о наличии письменного соглашения, прежде чем разрешить сканирование вашего сайта, противоречит идеалам открытого интернета. Это препятствует научным исследованиям и создает барьер для доступа к новым поисковым системам: DuckDuckGo запрещено сканировать Facebook, а Google - нет.
В стремлении назвать и опозорить сайты, которые занимаются этим типом поведения, я написал простой скрипт который проверяет домены, которые позволяют Google индексировать их домашнюю страницу, но запрещают всех остальных. Наиболее популярные домены, которые делают это:
Я ограничился доменами на английском языке, так что это знакомо людям, которые читают это, но вы можете изменить язык для просмотра международных сайтов. Я также указал, позволяет ли сайт DuckDuckGo индексировать свою домашнюю страницу, чтобы показать, насколько трудной битвой столкнулись новые поисковые системы в наши дни.
Большинство вышеперечисленных доменов, таких как Facebook, LinkedIn, Quora и Yelp, имеют одну общую черту. Они размещают пользовательский контент, который представляет большую ценность для их собственного бизнеса. Эти данные являются одним из наиболее ценных активов, которыми обладают эти компании, и они не просто собираются предоставлять их бесплатно. Чтобы быть справедливым, хотя, эти запреты часто представлены с точки зрения защиты конфиденциальности пользователей, таких как в этом посте от технического директора Facebook, объясняющего решение о запрете сканеров или глубоко Robots.txt Quora, где они объясняют, почему они запретили машину обратного хода ,
Дальше по списку и результаты не так последовательны - например, мне не понятно, почему census.gov разрешает доступ только 3 основным поисковым системам к своему контенту, но запрещает DuckDuckGo. Можно подумать, что эти данные будут принадлежать американскому народу, а не только для Google / Microsoft / Yahoo.
Хотя я не являюсь поклонником такого поведения, я, конечно, могу понять импульс, чтобы только занести в белый список определенных сканеров, учитывая всех плохих роботов, которые существуют там.
Боты ведут себя плохо
Еще кое-что, что я хотел опробовать, - это выявить худших сканеров в Интернете, используя общее мнение о миллионе загруженных мной файлов robots.txt. Чтобы выяснить, какие боты являются худшими участниками, я подсчитал, сколько разных доменов полностью запретило использование useragent, а затем оценил их использование по тому, сколько раз они были заблокированы:
В этом списке есть несколько различных типов ботов.
Первая группа - это сканеры, которые собирают данные для SEO и маркетингового анализа. Эти фирмы хотят получить как можно больше данных для своей аналитики, что приводит к заметной нагрузке на многие серверы. Арефс даже хвастается, что «AhrefsBot - второй по активности сканер после Googlebot» Поэтому понятно, что люди будут раздражаться и блокировать их. Majestic (MJ12Bot) позиционирует себя как инструмент конкурентного анализа, что означает, что он сканирует ваш сайт, чтобы дать бизнес-представление вашим конкурентам - но также утверждает, что у него есть "самый большой в мире индекс ссылок" на их домашней странице ,
Вторая группа пользовательских агентов состоит из инструментов, которые стремятся быстро загрузить веб-сайт для личного использования в автономном режиме. Инструменты как WebCopier , WebStripper а также Телепорт все позволяют быстро загружать целые веб-сайты на жесткий диск. Проблема в том, что все эти инструменты явно забили сайты настолько, что их часто здесь запрещают.
Наконец, существуют поисковые системы, такие как Baidu (BaiduSpider) и Яндекс, которые могут активно индексировать контент, обслуживая только те языки / рынки, которые не обязательно приносят большую пользу определенным сайтам. Лично я получаю нетривиальный объем трафика от обоих из них, поэтому не рекомендую также блокировать.
Объявления о работе
Это признак того времени, что файлы, предназначенные для использования роботами, теперь часто содержат объявления о вакансиях в поисках инженеров-программистов - особенно людей, заинтересованных в SEO.
Учитывая, что у меня есть все эти данные, я подумал, что было бы интересно представить первую в мире (и, вероятно, единственную) доску вакансий, полностью основанную на описаниях, соскребенных из файлов robots.txt:
Далее># 1 airbnb.com/robots.txt
# /////// # // // # // // # // // //// /// /// # // // /// /// # // /// // //// /// /// (// (// /// //// /// //// /// //// # // /// /// // & ////////// /// (////// /////////// ////////// //////// /// # // // // // /// /// /// (// /// /// /// /// /// /// # // (/ // / / /// /// /// (// /// /// /// /// /// /// # // // // // /// /// /// ( // //// //// /// /// /// /// # // // // // ////////// /// (// /// /////// /// /// ////////// # / (///// (/ # // //// # // # // /// / // // # ////// ////// # # # Мы думали, что вы никогда не сделаете это! # Мы надеемся, что вы чувствуете себя как дома в этом файле ... если только вы не запрещенная подпапка . # И поскольку вы здесь, ознакомьтесь с нашей культурой и командой: https://www.airbnb.com/careers/departments/engineering # Даже ваш робот может принести работу на рабочий день.
Немного иронии, Ahrefs.com кто является разработчиком 2-го наиболее запрещенного бота, которого я идентифицировал здесь, также имеет объявление для человека SEO в их файл robots.txt , Также, pricefalls.com предисловие к объявлению о работе в их файл robots.txt с «Уведомление: сканирование ценовых спадов запрещено, если у вас нет явного письменного разрешения».
Весь код для этого поста на GitHub ,
Опубликовано 18 октября 2017
Получайте новые сообщения по электронной почте!
Введите свой адрес электронной почты, чтобы получать электронную почту всякий раз, когда я пишу новое сообщение: