Совет 1: Как запретить индексацию страницы

Страницы каждого сайта регулярно обходятся поисковыми роботами, которые обрабатывают находящуюся на сайте информацию, чтобы она была доступна по запросам пользователей в поисковых системах. Визиты посетителей, пришедших из поисковиков, положительно влияют на посещаемость сайта и стимулируют развитие ресурса. Но, если на сайте есть страницы, информация на которых не предназначена для интернет-аудитории (например, личные страницы пользователей или страница регистрации), то переход с поисковиков на такие страницы не нужен и эту информацию лучше запретить к индексации.
Вам понадобится
  • - иметь собственный сайт
  • - знать ссылки к страницам, индексацию которых нужно запретить.
  • - иметь хотя бы начальные знания HTML
Инструкция
1
Для того чтобы запретить поисковому роботу индексировать определенные страницы сайта, необходимо произвести изменения в файле robots.txt, если он уже есть на вашем сайте, или создать этот файл.
2
Если файл robots.txt уже залит на сайт и возможно изменять этот файл прямо из панели управления ресурсом, то откройте robots.txt через веб-сервис для редактирования.
3
Если возможности вносить изменения в нужный файл прямо из панели управления нет, то откройте robots.txt в браузере, перейдя по ссылке к этому файлу. Скопируйте все данные с открывшейся страницы и вставьте на лист в программе «Блокнот».
4
При отсутствии robots.txt на сайте, откройте программу «Блокнот», в новый документ которой нужно будет вписать необходимый код.
5
На пустом листе текстового документа напишите первую обязательную строчку:
User-agent: *
6
Затем перейдите на следующую строчку, нажав клавищу Enter, и наберите следующий код:
Disallow: /index/page3Disallow: обозначает запрет индексации, а /index/page3 - это ссылка к странице, которую не нужно индексировать. Вместо ссылки /index/page3 вставьте ссылку на страницу вашего сайта, которую нужно запретить для обработки роботами.
7
Заметьте, что в начале ссылки отсутствует само имя домена, его наличие в записи подразумевает наклонная черта. Поисковый робот при обходе сайта автоматически подставляет в такие ссылки доменное имя. Поэтому ссылки на нужные страницы пишите именно таким образом.
8
После Disallow: можно помещать не только ссылку на конкретную страницу, но и ссылку на какой-либо раздел или директорию сайта. Подобным образом можно запретить индексацию нужной части сайта.
9
При необходимости запрета обработки роботами нескольких разных участков ресурса, ссылку на каждый раздел или страницу пишите с новой строки, в начале которой не забывайте помещать запись Disallow:.
10
Чтобы завершить изменение robots.txt, нажмите кнопку «Сохранить» при редактировании файла в панели управления или сохраните текстовый документ с записями под именем robots.txt и залейте этот файл на сайт.

Совет 2: Как запретить индексацию сайта

Проиндексированные поисковиками страницы обеспечивают стабильную посещаемость ресурса. Но если в данный момент ваш сайт находится в разработке, то появление поисковых роботов на страницах ресурса крайне не желательно, так как попавшая в поиск информация о незаполненных разделах может на долгое время лишить ваш ресурс целевых посетителей. Чтобы на время оградить сайт от сканирования роботами, нужно запретить его к индексации. Для этого достаточно произвести несколько несложных изменений в коде ресурса.
Вам понадобится
  • - иметь хотя бы начальные знания HTML
  • - знать, как открыть корневую папку каталога файлов вашего сайта
Инструкция
1
Сначала проверьте, есть ли на вашем сайте файл robots.txt, который отвечает за правильную индексацию ресурса. Для этого перейдите по адресу http: ⁄ ⁄ www·site·ru ⁄ robots.txt ⁄ , заменив http: ⁄ ⁄ www·site·ru на адрес вашего сайта.
2
Если при при переходе по этой ссылке открывается запись вида "User-agent: * Disallow...", то это означает, что нужный файл присутствует на вашем сайте. В этом случае зайдите в корневую папку, где хранятся все файлы вашего сайта, и найдите файл robots.txt.
3
Если система управления вашим сайтом позволяет редактировать этот файл прямо из корневой папки, то откройте robots.txt через вспомогательный сервис. При невозможности произведения каких-либо изменений с файлом через интерфейс системы сохраните документ на компьютер, а затем откройте его через программу «Блокнот».
4
Измените первые две строчки документа на такие:
"User-agent: *
Disallow:/".
Надпись "User-agent: *" показывает, что следующие за записью правила относятся ко всем поисковым роботам, а "Disallow:/" означает запрет индексации всего сайта. После коррекции содержания сохраните файл.
5
В случае отсутствия на сайте файла robots.txt создайте новый документ в программе «Блокнот». Впишите в него те же самые две записи, располагая каждую из них на новой строчке, и сохраните файл с помощью команды «Файл-Сохранить как...» под именем robots.txt.
6
Залейте созданный документ в корневую папку вашего сайта и проверьте его функционирование, снова перейдя по ссылке http: ⁄ ⁄ www·site·ru ⁄ robots.txt ⁄ , где вместо "http: ⁄ ⁄ www·site·ru" впишите адрес вашего ресурса.
7
Другим способм запрещения индексации является вставка специальных метатегов в HTML-код страниц сайта. Для того, чтобы воспользоваться этим методом, найдите в коде одной из страниц сайта надписи "<html><head>" и поместите сразу после "<head>" строчку "<meta name="robots" content="noindex,nofollow">".
8
Если ваш сайта написан на языке HTML, то такой код необходимо вставлять на каждой странице. Для ресурса на PHP достаточно поместить такую запись в файле header.php.
Видео по теме
Источники:
  • how-tos.ru
Полезный совет
Не используйте для написания ссылок в файле robots.txt буквы верхнего регистра. Запись User-agent: * обязательно должна присутствовать в коде файла-инструкции для поисковых роботов. После каждого Disallow: указывайте ссылку на одну страницу, директорию или файл.
Источники:
  • Использование robots.txt
Поиск
Совет полезен?
Добавить комментарий к статье
Осталось символов: 500