Директива User-agent: примеры использования, роботы Яндекс и Google

User-agent – это директива, указывающая, для какой поисковой системы и какого конкретно робота прописываются инструкции в файле robots.txt.

С данного правила начинается любой корректный Robots. Все боты при обращении к файлу проверяют записи, начинающиеся с User-Agent, где учитываются подстроки с названиями ботов поисковиков (Yandex, Google и пр.) либо «*».

На заметку.Если строки User-agent: *, User-agent: Yandex или User-agent: Google не указаны в файле, то по умолчанию робот считает, что никаких ограничений на индексацию у него нет.

Примеры использования директивы User-agent в robots.txt

# Указывает инструкции для всех роботов всех поисковиков одновременно
User-agent: *
# Указывает директивы для всех роботов Яндекса
User-agent: Yandex
# Указывает директивы для только основного индексирующего робота Яндекса
User-agent: YandexBot
# Указывает директивы для всех роботов Google
User-agent: Googlebot

Если в файле задавать конкретного робота, то он будет следовать инструкциям, которые относятся только к нему.

Пример использования нескольких User-agent в robots.txt

# Правило указано для всех ботов Яндекса
User-agent: Yandex
Disallow: /*utm_

# Директива обращается ко всем роботам Google
User-agent: Googlebot
Disallow: /*utm_

# Будет использована всеми роботами кроме роботов Яндекса и Google
User-agent: *
Allow: /*utm_

Данная инструкция лишь обращается к определенному поисковому роботу или всем роботам, а уже под директивой прописываются непосредственно команды для него/них.

Для корректной настройки файла Robots не стоит допускать пустые строки между директивами User-agent и Disallow, Allow, идущими в пределах одной директивы User-agent, к которой они относятся.

Пример некорректного отображения строк в файле Robots:

User-agent: Yandex

Disallow: /*utm_

Allow: /*id=

User-agent: *

Disallow: /*utm_

Allow: /*id=

Пример корректного отображения строк в файле Robots:

User-agent: Yandex
Disallow: /*utm_
Allow: /*id=

User-agent: *
Disallow: /*utm_
Allow: /*id=

Как видите, директории в роботсе делятся на блоки, и в каждом из них прописываются указания для всех ботов или для определенного.

Роботы Яндекс и Google

У популярнейших поисковых систем присутствует большое количество роботов, и все они выполняют определенные функции. Благодаря robots.txt вы можете контролировать действия каждого из них. Но некоторые роботы держатся в секрете поисковыми системами. Ниже перечислены все публичные роботы Яндекса и Гугла с кратким описанием.

Роботы Яндекс:

  1. YandexBot. Это основной индексирующий робот Яндекса. Он работает с органической выдачей поисковика.
  2. YandexDirect. Робот, отвечающий за контекстную рекламу. Посещает сайты и оценивает их на основе того, в каком месте располагается контекстная реклама.
  3. YandexDirectDyn. Выполняет похожие функции, что и предыдущий бот, но с тем лишь отличием, что оценивает динамические объявления.
  4. YandexMedia. Индексирует мультимедийные файлы. Сканирует, загружает и оценивает видео, аудио.
  5. YandexImages. Обрабатывает изображения и контролирует раздел поисковика “Картинки”.
  6. YandexNews. Новостной бот, отвечающий за раздел Яндекса “Новости”. Индексирует все, что связано с изданиями новостных сайтов.
  7. YandexBlogs. Занимается постами, комментариями, ответами и прочим контентом в блогах.
  8. YandexMetrika. Как понятно из названия, это робот Яндекс Метрики, анализирующей трафик сайтов и их поведенческие факторы.
  9. YandexPagechecker. Отвечает за распознание микроразметки на сайте и ее индексацию.
  10. YandexCalendar. Бот, индексирующий все, что связано с Календарем Яндекса.
  11. YandexMarket. Робот сервиса Яндекс.Маркет, добавляющий в индекс товары, описания к ним, цены и прочую информацию, полезную для Маркета.

Роботы Google:

  1. Googlebot. Это основной робот поискового гиганта, индексирующий главный текстовый контент страниц и обеспечивающий формирование органической выдачи.
  2. GoogleBot (Google Smartphone). Главный индексирующий бот Гугла для смартфонов и планшетов.
  3. Googlebot-News. Робот, индексирующий новостные публикации сайта.
  4. Googlebot-Video. Включает в поисковую выдачу видеофайлы.
  5. Googlebot-Image. Робот, занимающийся графическим контентом веб-ресурсов.
  6. AdsBot-Google. Проверяет качество целевых страниц – скорость загрузки, релевантность контента, удобство навигации и так далее.
  7. AdsBot-Google-Mobile-Apps. Оценивает качество мобильных приложений по тому же принципу, что и предыдущий бот.
  8. Mediapartners-Google. Робот контекстной рекламы, включающий сайт в индекс и оценивающий его для дальнейшего размещения рекламных блоков.
  9. Mediapartners-Google (Google Mobile AdSense). Аналогичный предыдущему бот, только отвечает за размещение релевантной рекламы для мобильных устройств.

Зачастую в файле Robots прописывают директории сразу для всех роботов поисковиков Google и Яндекс. Но для специфических задач оптимизаторы дают указания роботам разных поисковых систем отдельно.

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Подписаться
Уведомить о
guest
2 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии
Add
Add
09.02.2022 15:33

У меня в файле robots вот, что прописано:
User-agent: *
Sitemap: https://мойсайт.com/sitemap.xml

А в консоли Google выходит уведомление:
«Проиндексировано, несмотря на блокировку в файле robots.txt»

Подскажите, в чем ошибка?

Павел
09.01.2023 22:06
Ответить на  Add
Disallow:

Пустой добавьте

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: