Файл robots.txt – как настроить правильно

Пришел час, когда нужно поговорить о настройке robots.txt для сайта. Файл должен находиться в корневой папке и открываться по адресу имя_сайта/robots.txt. При работе над оптимизацией сайтов часто приходится вносить правки в содержимое.

Можно выделить 3 причины, по которым поднимаю, казалось бы, избитую тему:

  1. Изменения в поисковых системах, касающиеся файла роботс.
  2. Генерирующееся автоматически содержимое robots.txt на некоторых CMS, когда без разбору закрываются папки и служебные, динамические страницы.
  3. Копирование новичками стандартного содержимого из ставших неактуальными статей в Интернете.

В чем изменилась настройка robots.txt для Яндекса

  1. Боты Яндекса перестали учитывать директиву host. Анонсировалась новость весной 2018 года. От хоста можно смело очистить строчку, даже если сайт недавно переведен на безопасный протокол. Яндекс склеивает зеркала при наличии 301 редиректа с http на https.
  2. Crawl-delay тоже в Яндексе больше не работает. Если возникла необходимость настроить скорость сканирования яндекс ботами, это делается в вебмастере Яндекса. Точно так же временные ограничения задаются в поисковой консоли Гугла. Бывает, что поисковые роботы проявляют повышенный интерес к сайту и создают большую нагрузку. Выяснить, кто именно повинен в повышении нагрузки, можно только изучив лог-файлы. И ограничения стоит выставлять в разумных пределах. Естественно, данные должны собираться на хостинге. На Бегете, например, есть вкладка «Журналы». По умолчанию они выключены.

Заблокированные ресурсы в robots.txt

Уже даже не помню, как давно Гугл захотел, чтобы гуглеботу на сайте для сканирования было доступно все, что видит пользователь, во всей красе – со стилями, скриптами, элементами оформления дизайна. Поэтому, закрывая определенную папку в Disallow, следует задуматься, не блокируются ли файлы css, js png, находящиеся в этой папке. Если по каким-то соображениям решили закрыть к папке доступ, то стоит дополнить роботс директивами Allow с указанием расширений файлов, например: Allow: /*.css.

То же, вероятнее всего, придется сделать, если установлен запрет на URLs, содержащие знак вопроса. Вопросительный знак присутствует в адресе динамической страницы или результата поиска, что само по себе равно. Но «?» может быть и в ссылке на css.

Проверка robots.txt

Лучше всего с этим поможет поисковая консоль Гугла, и в ней разделы

  • “Индекс Google — Заблокированные ресурсы”
  • “Сканирование – Инструмент проверки файла robots.txt”.

Заблокированные ресурсы Инструмент проверки файла robots.txt
Информация по вновь добавленным в консоль сайтам собирается примерно две недели. Если в заблокированных ресурсах видите сторонний домен, с которого на сайт выводятся какие-то элементы, здесь что-то предпринять не удастся – запрет установлен не нами. Можно игнорировать эти замечания.

Файл robots.txt для WordPress

Все, что написано выше, можно применить при создании роботс на любом движке. Главное – следовать логике. Содержание файла robots.txt представлено для коммерческих сайтов на Вордпресс, без интернет-магазина. В ИМ обычно ставят запрет на корзину, страницу оформления заказа, оплаты и другие служебные страницы, участвующие в работе магазина. Шаблон robots.txt для WordPress с использующимся плагином Yoast Seo, в котором включена переадресация со страниц вложения медиафайлов на адрес изображения. Если страницы attachment открываются, на них тоже ставят запрет в robots.txt.

Делить ботов по поисковым системам, на мой взгляд, теперь не требуется.

User-agent: *
Disallow: /wp-admin/
Disallow: /xmlrpc.php
Disallow: /wp-json/
Disallow: /*?pcf=*
Disallow: /?*
Allow: /wp-admin/admin-ajax.php
Allow: /*.css
Allow: /*.js

Sitemap: протокол://домен/sitemap.xml

 
Директивы в файле robots.txt носят, как правило, рекомендательный характер для сканирования (не индексирования) ботами. Какой контент будет участвовать в поисковой выдаче, поисковые системы прекрасно разберутся и самостоятельно. Поэтому с запретами нужно быть аккуратными и, конечно, ни в коем случае не запрещать доступ к удаленным страницам, отдающим код 404.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *