Вам понадобится
  • - текстовый редактор.
Инструкция
1
Составьте список роботов, для которых будут заданы особые правила исключений или использованы директивы расширенного стандарта robots.txt, а также нестандартные и специфические директивы (расширения конкретной поисковой системы). Внесите в данный список значения полей User-Agent заголовков HTTP-запросов, посылаемых выбранными роботами серверу сайта. Имена роботов также можно узнать в справочных разделах сайтов поисковых систем.
2
Выделите группы URL ресурсов сайта, к которым должен быть запрещен доступ каждому из роботов списка, составленного на первом шаге. Произведите такую же операцию по отношению ко всем остальным роботам (неопределенному множеству индексирующих ботов). Иными словами, в результате должны получиться несколько списков, содержащих ссылки на разделы сайта, группы страниц или источники медиа-контента, которые запрещены к индексации. Каждый список должен соответствовать отдельному роботу. Также должен быть список запрещенных URL для всех остальных ботов.Составляйте списки на основе сопоставления логической структуры сайта с физическим размещением данных на сервере, а также путем группировки URL страниц по их функциональному признаку. Например, можно включить в запрещающие списки содержимое каких-либо служебных каталогов (группировка по месту размещения) или все страницы пользовательских профилей (группировка по назначению).
3
Выделите признаки URL каждого из ресурсов, содержащихся в списках, составленных на втором шаге. При обработке списков исключений, предназначенных для роботов, использующих только стандартные директивы robots.txt и неопределенных роботов, выделите уникальные части URL максимальной длины. Для остальных множеств адресов можно создать шаблоны в соответствии со спецификациями конкретных поисковых машин.
4
Cоставьте файл robots.txt. Внесите в него группы директив, каждая из которых соответствует набору запрещающих правил для конкретного робота, список которых был составлен на первом шаге. Последней должна следовать группа директив для всех остальных роботов. Разделяйте группы правил одной пустой строкой.Каждый набор правил должен начинаться с директивы User-agent, идентифицирующей робота, после чего должны следовать директивы Disallow, запрещающие индексацию групп URL. Значениями директив Disallow делайте строки, полученные на третьем шаге. Директивы и их значения разделяйте двоеточием.Рассмотрите следующий пример:User-agent: YandexDisallow: /temp/data/images/User-agent: *Disallow: /temp/data/Данный набор директив предписывает основному роботу поисковой системы Яндекс не индексировать URL, в которых содержится подстрока /temp/data/images/. Он также запрещает индексацию URL, в которых содержится /temp/data/ всем остальным роботам.
5
Дополните robots.txt директивами расширенного стандарта или специфическими директивами конкретных поисковых систем. В качестве примеров подобных директив могут выступать: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.