Для функционирования сайта мы собираем cookie, данные об IP-адресе и местоположении пользователей.
Хорошо
Время чтения - 19 минут

файл Robots.txt: как сделать правильно

04.12.2019
Robots.txt - это файл с текстовыми стандартизированными рекомендациями для роботов поисковых систем: какие разделы сайта следует сканировать, а какие - нет. Поскольку файл предназначен для набора инструкций по индексации, его также называют индексным.

Корректная настройка файла robots.txt требуется для быстрой индексации страниц сайта и попадания в ТОП. В статье мы рассмотрим следующие основные моменты (нажмите на название пункта для быстрого перехода):

София Воробьева
Специалист по SEO-продвижению

Зачем нужен индексный файл?

Robots.txt применяется, в первую очередь, для избежания попадания отдельных страниц в индексную базу. Запрет сканирования актуален:
Для страниц, содержащих конфиденциальную или служебную информацию
Для страниц с не уникальным или дублирующим контентом
Важным предназначением robots.txt является перераспределение краулингового бюджета.
Как известно, поисковая система выделяет конечное число лимитов в день, или краулинговый бюджет. Его хватает на сканирование определенного числа страниц сайта.
Поэтому важно, чтобы лимит расходовался на важные для продвижения посадочные страницы, а не на страницы, которые, например, не содержат контент (и впоследствии будут исключены из выдачи Яндекса как недостаточно качественные).
Ниже показана схема сканирования сайта с robots.txt и без него.
Как работает файл robots.txt при сканировании сайта

Требования Яндекс и Google к Роботс ти экс ти

Веб-краулеры способны воспринимать инструкции определенного вида из индексных файлов, отвечающих их требованиям. Поэтому, чтобы роботы правильно восприняли ваши рекомендации при сканировании, важно соблюдать несколько правил составления и размещения Robots.txt.
Для проверки доступности используйте инструмент Яндекс Вебмастер.

Как проверить robots.txt

Чтобы узнать, есть ли на вашем сайте индексный файл, добавьте в браузере к URL вашего сайта /robots.txt, чтобы получилось yoursite.ru/robots.txt.
Корректность составления индексного файла (наличие грубых ошибок) можно проверить с помощью соответствующих бесплатных инструментов в вебмастерах Яндекс и Google.

Как создать правильный robots.txt

1
Создайте на компьютере файл с именем robots.txt
Для создания используйте любой текстовый редактор, например, стандартный Блокнот или NotePad++
2
Проверьте правильность файла (отсутствие критичных ошибок)
Для проверки используйте бесплатные инструменты в панелях вебмастеров Яндекс и Google.
3
Загрузите полученный файл в корневой каталог вашего сайта
Для загрузки используйте FTP-клиент или админ.панель сайта (в зависимости от используемой CMS).

Что должно быть написано в роботс

Ниже рассмотрены основные правила (директивы), с помощью которых можно корректно составить robots.txt.

Основные директивы

User-agent
Название поискового бота.
Директива User-agent указывает, к какому роботу применимы задаваемые правила. Универсальным вариантом является общее правило для всех роботов:
User-agent: *
Однако, для улучшения индексации рекомендуется прописывать правила для отдельных роботов, например, для Яндекс и Google:
User-agent: Yandex
....
User-agent: Googlebot
....
Disallow
Запрет индексации.
С помощью директивы Disallow указывают разделы, куда роботу заходить не рекомендуется. Например, чтобы закрыть от индексации страницы поиска используют правила:
Disallow: */search/
или
Disallow: *?s=
Allow
Рекомендация к индексации.
Директива Allow помогает направлять робота по нужным разделам сайта. Она часто используется для указания пути к страницам, верхний уровень которых запрещен для индексации, например:
Disallow: /buy-car/
Allow: /buy-car/new-cars/
$
Это правило запрещает индексацию всего раздела /buy-car/ (включая все внутренние страницы), кроме 1 подраздела /buy-car/new-cars/.
Sitemap
Путь к карте сайта.
Карта сайта используется для указания актуальной структуры веб-ресурса и обычно располагается по стандартному адресу /sitemap.xml.
Устаревшие директивы
Робот Google воспринимает только 4 указанные выше директивы, игнорируя остальные правила.

Для поискового робота Яндекс имеются дополнительные инструкции, которые на сегодняшний день утратили актуальность:
- Host - основное зеркало сайта. Директива полностью заменена на 301 редирект. Статья в блоге Яндекса.
- Crawl-delay - интервал времени на загрузку страницы сайта. Полноценной заменой служит инструмент Вебмастера.

Актуальным дополнительным правилом для Яндекс остается Clean-param.
Clean-param
Параметры url, которые не нужно учитывать в индексе.
Директиву используются для страниц с GET-параметрами или метками (UTM) в URL, т.е. страниц, которые содержат одинаковый контент. Обработка страниц по правилу препятствует многократной загрузке контента, повышая эффективность обхода.

Специальные символы в Robots.txt

Основные спецсимволы: /, *, $, #.

/ (слеш) - используется в robots.txt, чтобы указать путь к определенной странице, файлу или директории сайта. Например, запрет на индексацию содержимого каталога directory1 выглядит как Disallow: /directory1, при этом действие директивы не распространяется на основной контент.

* (звездочка) - означает произвольный набор символов. Например, User-agent: * - это указание для всех поисковых ботов без исключения. По умолчанию, ко всем правилам без спецсимвола на конце добавляется звездочка.

$ (доллар) - нужен для отмены действия звездочки, которая по умолчанию. Например,
Disallow: /buy-car/ - запрещает для индексации весь раздел (включая внутренние страницы),
Disallow: /buy-car/$ - запрещает индексацию только страницы /buy-car/.

# (решетка, хештег) - нужен для комментариев. Символы в строке после решетки поисковым роботом не учитываются.

Использование спецсимволов в robots.txt

Закрыть сайт от индексации (Disallow)

Установить полный запрет на индексацию всего сайта может быть актуально для ресурсов, находящихся в процессе разработки, полных дублей или сайтов без контентного наполнения. Чтобы закрыть от индексации полностью весь сайт, пропишите в файле robots.txt правила:
Так же полный запрет (разрешено ничего) означает директива Allow, в которой не задано без какого-либо значения:

Открыть сайт для индексации (Allow)

Отсутствие запрещающего правила Disallow: / означает, что сайт открыт для индексации. Т.е. одним из вариантов открыть сайт для поисковых роботов будет исключение из файла роботс этой директивы. Также возможно указание конкретной рекомендации по индексации:
Пустое значение директивы Disallow также означает, что индексировать можно все (запрещено ничего):

Как закрыть/открыть в роботс только один раздел

Чтобы разрешить индексацию только одного раздела (страницы) используйте следующие правила:
Чтобы создать разрешающее правило только для главной страницы, используйте конструкцию:
Аналогично, для запрета индексации отдельного раздела используйте правила:

Частые ошибки в файле robots.txt (Как делать НЕ надо)

Несколько адресов папок или страниц в одном правиле
Соблюдение синтаксиса играет определяющую роль в работоспособности файла. Важно:
  • каждое правило начинается с новой строки,
  • структура правила: [Директива][двоеточие][пробел*][директория][пробел*]. Пробелы* не являются обязательными, без них работать тоже будет, но для соблюдения стандарта рекомендуем ставить.
  • должно быть не более 1 директивы в одной строке.
Основные seo ошибки в файле роботс
Некорректные команды, опечатки
Поскольку robots.txt оказывает прямое влияние на эффективность индексации сайта, важно подходить к его составлению максимально внимательно и аккуратно.
Даже небольшая ошибка может иметь крайне неприятные последствия.
Регистр написания названия директив стандартизован, но фактического влияния на индексацию не оказывает, в отличие от регистра директорий (/page.html и /Page.html будут интерпретированы как разные страницы).
Ошибки в файле robots
Некорректное название или расположение файла
Название файла robots.txt и его расположение принципиально.
Важно:
  • название файл должно быть - robots.txt, без изменения регистра, опечаток или изменения разрешения.
  • файл должен размещаться в корневой директории сайта, т.е. быть доступным по адресу /robots.txt.
Как правильно называется файл роботс
Кириллица в директориях
Поисковые роботы не понимают команды, отличные от их естественного языка, поэтому не допускается использование кириллицы в названии директорий.
Важно:
кириллица может использоваться в пользовательских комментариях (после знака #), пример корректного написания:
Disallow: /%EF%EE%E4%F3%F8%EA%E8/ #закрытие категории Подушки
Кириллица в файле роботс

Примеры robots.txt

Правила в индексном файле задаются в зависимости от конкретного случая. Ниже представлены стандартные рекомендуемые файлы для популярных CMS, которые помогут корректно обработать служебные файлы:

Robots TXT для Битрикс

Настройка файла осуществляется в разделе Маркетинг -> Поисковая оптимизация -> Настройка robots.txt.
На соответствующих вкладках задаются отдельно общие правила для всех роботов, правила для роботов Яндекс и Google.

Ниже указан пример общих правил для все роботов. Правила для Яндекс и Гугл задаются аналогично, но с нужными значениями User-agent.
Настройка robots.txt в Битриксе
User-Agent: *
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*bitrix_include_areas=
Disallow: /*clear_cache=
Disallow: /*clear_cache_session=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*ORDER_BY
Disallow: /*?action=
Disallow: /*&action=
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*print_course=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*backurl=
Disallow: /*back_url=
Disallow: /*BACKURL=
Disallow: /*BACK_URL=
Disallow: /*back_url_admin=
Disallow: /*?utm_source=
Disallow: /*/filter/
Disallow: /*sort=
Disallow: /*order=
Disallow: /*view=
Disallow: /*num=
Disallow: /*q=
Disallow: /*M_ID=
Disallow: /*/price
Disallow: /*/clear/
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Allow: /upload/*.png
Allow: /upload/*.jpg
Allow: /upload/*.jpeg
Allow: /upload/*.gif
Sitemap: https://site.ru/sitemap.xml

Robots TXT для Wordpress

Виртуальный файл robots.txt генерируется автоматически при создании сайта на WordPress. Для указания своих правил необходимо создать новый индексный файл и загрузить его в корневой каталог (root) сайта. Загруженный файл будет иметь приоритет и заменит собой виртуальный.

Для редактирования robots.txt через админ.панель используют дополнительные плагины (All in One Seo Pack, Yoast SEO).

Ниже указан пример файла с комментариями (в зависимости от конкретного случая набор инструкций может меняться).

User-agent: * # правила для всех роботов
Disallow: /cgi-bin # папка на хостинге
Disallow: /*? # все параметры запроса
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS
Disallow: *?s= # поиск
Disallow: *&s= # поиск
Disallow: /search/ # поиск
Disallow: /author/ # архив автора
Disallow: /users/ # архив авторов
Disallow: */trackback # трекбеки
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: *utm= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Allow: */uploads # открываем папку с файлами uploads

User-agent: GoogleBot # аналогичные правила для Google
Disallow: /cgi-bin
Disallow: /*?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex # правила для Яндекса
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign #указать ваши метки 
Clean-Param: openstat # аналогично

Sitemap: https://site.ru/sitemap.xml #укажите актуальный адрес для вашего сайта

Заключение

Robots.txt - основной инструмент управления индексацией сайта, поэтому важно работать с ним осознанно и внимательно.
Рекомендуем осуществлять настройку файла индексации в начале работ по поисковому продвижению и ежемесячно контролировать актуальность указанных там инструкций.

Читайте также

— Заказать консультацию

Заполняя указанную форму на сайте, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой обработки персональных данных.