Маски в файле Robots – это условные записи, содержащие названия целой группы файлов либо папок. Они обозначаются специальным символом “*” и используются для проведения групповых операций с файлами или папками.
Представьте, что у вас собрался список файлов в папке /files. В числе данных файлов присутствуют документы в формате PDF. Как же сделать так, чтобы робот поисковой системы не сканировал их и не включал в поисковую выдачу? Можно указать каждый файл в PDF формате в robots.txt самостоятельно, применив к ним директорию Disallow:
Disallow: /files/admin.pdf
Disallow: /files/r7.pdf
Disallow: /files/leto.pdf
Disallow: /files/sity.pdf
Disallow: /files/afrika.pdf
Disallow: /files/t-12.pdf
Но куда быстрее будет указать обычную маску *.pdf, с помощью которой скрыть все файлы в формате PDF в одной директиве:
Disallow: /documents/*.pdf
Данный способ забирает гораздо меньше времени, сил.
Спецсимвол “*” означает все возможные последовательности символов, в числе которых и пробел.
Примеры использования масок в robots.txt
Disallow: *.pdf
Disallow: admin*.pdf
Disallow: a*m.pdf
Disallow: /img/*.*
Disallow: img.*
Disallow: &=*
По стандарту специальный символ * должен указываться в конце всех правил.
Пример:
Disallow: /wp-admin
Disallow: /wp-admin* # означает то же, что и директива выше
В данной инструкции запрещается индексирование папки /wp-admin и всего ее содержимого, а также файлов /wp-admin.pdf, /wp-admin.html и пр. Но чтобы закрыть только /wp-admin, в конце инструкции нужно прописать специальный символ “$”.
Пример:
Disallow: /wp-admin$
Здесь к индексированию запрещен исключительно /wp-admin. Все остальные файлы с таким же названием не закрываются от роботов.
В первом примере ошибка, в отдельных строках в пути к файлу указана подкатегория /files/, а с маской откуда-то появилась /documents/
И какая разница? Это ведь просто примеры 2 разных случаев.