User-agent – это директива, указывающая, для какой поисковой системы и какого конкретно робота прописываются инструкции в файле robots.txt.
С данного правила начинается любой корректный Robots. Все боты при обращении к файлу проверяют записи, начинающиеся с User-Agent, где учитываются подстроки с названиями ботов поисковиков (Yandex, Google и пр.) либо «*».
На заметку.Если строки User-agent: *, User-agent: Yandex или User-agent: Google не указаны в файле, то по умолчанию робот считает, что никаких ограничений на индексацию у него нет.
Примеры использования директивы User-agent в robots.txt
# Указывает инструкции для всех роботов всех поисковиков одновременно
User-agent: *
# Указывает директивы для всех роботов Яндекса
User-agent: Yandex
# Указывает директивы для только основного индексирующего робота Яндекса
User-agent: YandexBot
# Указывает директивы для всех роботов Google
User-agent: Googlebot
Если в файле задавать конкретного робота, то он будет следовать инструкциям, которые относятся только к нему.
Пример использования нескольких User-agent в robots.txt
# Правило указано для всех ботов Яндекса
User-agent: Yandex
Disallow: /*utm_
# Директива обращается ко всем роботам Google
User-agent: Googlebot
Disallow: /*utm_
# Будет использована всеми роботами кроме роботов Яндекса и Google
User-agent: *
Allow: /*utm_
Данная инструкция лишь обращается к определенному поисковому роботу или всем роботам, а уже под директивой прописываются непосредственно команды для него/них.
Для корректной настройки файла Robots не стоит допускать пустые строки между директивами User-agent и Disallow, Allow, идущими в пределах одной директивы User-agent, к которой они относятся.
Пример некорректного отображения строк в файле Robots:
User-agent: Yandex
Disallow: /*utm_
Allow: /*id=
User-agent: *
Disallow: /*utm_
Allow: /*id=
Пример корректного отображения строк в файле Robots:
User-agent: Yandex
Disallow: /*utm_
Allow: /*id=
User-agent: *
Disallow: /*utm_
Allow: /*id=
Как видите, директории в роботсе делятся на блоки, и в каждом из них прописываются указания для всех ботов или для определенного.
Роботы Яндекс и Google
У популярнейших поисковых систем присутствует большое количество роботов, и все они выполняют определенные функции. Благодаря robots.txt вы можете контролировать действия каждого из них. Но некоторые роботы держатся в секрете поисковыми системами. Ниже перечислены все публичные роботы Яндекса и Гугла с кратким описанием.
Роботы Яндекс:
- YandexBot. Это основной индексирующий робот Яндекса. Он работает с органической выдачей поисковика.
- YandexDirect. Робот, отвечающий за контекстную рекламу. Посещает сайты и оценивает их на основе того, в каком месте располагается контекстная реклама.
- YandexDirectDyn. Выполняет похожие функции, что и предыдущий бот, но с тем лишь отличием, что оценивает динамические объявления.
- YandexMedia. Индексирует мультимедийные файлы. Сканирует, загружает и оценивает видео, аудио.
- YandexImages. Обрабатывает изображения и контролирует раздел поисковика “Картинки”.
- YandexNews. Новостной бот, отвечающий за раздел Яндекса “Новости”. Индексирует все, что связано с изданиями новостных сайтов.
- YandexBlogs. Занимается постами, комментариями, ответами и прочим контентом в блогах.
- YandexMetrika. Как понятно из названия, это робот Яндекс Метрики, анализирующей трафик сайтов и их поведенческие факторы.
- YandexPagechecker. Отвечает за распознание микроразметки на сайте и ее индексацию.
- YandexCalendar. Бот, индексирующий все, что связано с Календарем Яндекса.
- YandexMarket. Робот сервиса Яндекс.Маркет, добавляющий в индекс товары, описания к ним, цены и прочую информацию, полезную для Маркета.
Роботы Google:
- Googlebot. Это основной робот поискового гиганта, индексирующий главный текстовый контент страниц и обеспечивающий формирование органической выдачи.
- GoogleBot (Google Smartphone). Главный индексирующий бот Гугла для смартфонов и планшетов.
- Googlebot-News. Робот, индексирующий новостные публикации сайта.
- Googlebot-Video. Включает в поисковую выдачу видеофайлы.
- Googlebot-Image. Робот, занимающийся графическим контентом веб-ресурсов.
- AdsBot-Google. Проверяет качество целевых страниц – скорость загрузки, релевантность контента, удобство навигации и так далее.
- AdsBot-Google-Mobile-Apps. Оценивает качество мобильных приложений по тому же принципу, что и предыдущий бот.
- Mediapartners-Google. Робот контекстной рекламы, включающий сайт в индекс и оценивающий его для дальнейшего размещения рекламных блоков.
- Mediapartners-Google (Google Mobile AdSense). Аналогичный предыдущему бот, только отвечает за размещение релевантной рекламы для мобильных устройств.
Зачастую в файле Robots прописывают директории сразу для всех роботов поисковиков Google и Яндекс. Но для специфических задач оптимизаторы дают указания роботам разных поисковых систем отдельно.
У меня в файле robots вот, что прописано:
User-agent: *
Sitemap: https://мойсайт.com/sitemap.xml
А в консоли Google выходит уведомление:
«Проиндексировано, несмотря на блокировку в файле robots.txt»
Подскажите, в чем ошибка?
Пустой добавьте