Совет 1: Как индексирует Яндекс

Индексация – процесс сканирования файлов, расположенных на интернет-ресурсе, поисковым роботом. Данная процедура осуществляется для того, чтобы сайт был доступен в результатах поиска по различным запросам в поисковой системе. Среди наиболее крупных поисковиков на сегодняшний день является «Яндекс», который по-своему проводит данное сканирование.
Инструкция
1
Индексацией интернет-сайта занимаются специальные автоматические программы – поисковые роботы, которые автоматически отслеживают появление новых сайтов во всемирной паутине, проводя постоянное сканирование находящихся в сети интернет-страниц, файлов и ссылок на них на каждом ресурсе.
2
Для сканирования робот переходит в директорию, на которой располагается ресурс на том или ином сервере. При выборе нового сайта робот руководствуется его доступностью. Например, существует мнение, что «Яндекс» выполняет сканирование сначала сайтов, созданных в русскоязычном домене и на русском языке – ru, рф, su или ua, и лишь затем переходит в другие регионы.
3
Робот перемещается на сайт и просматривает его структуру, сначала занимаясь поиском указывающих на дальнейший поиск файлов. Например, сайт сканируется на наличие Sitemap.xml или robots.txt. В этих файлах может быть задано поведение поискового робота при сканировании. При помощи карты сайта (sitemap.xml) робот более точно получает представление о структуре ресурса. Через robots.txt веб-мастер задает файлы, которые он не хотел бы, чтобы они выдавались в результатах поиска. Например, это может быть личная информация или другие нежелательные данные.
4
Просканировав эти два документа и получив нужные инструкции, робот начинает анализировать HTML-код и обрабатывать полученные теги <meta>. По умолчанию, при отсутствии файла robots.txt поисковик начинает обрабатывать все документы, хранящиеся на сервере.
5
Переходя по ссылкам в документах, робот также получает информацию о других сайтах, которые попадают в очередь по сканированию следом за данным ресурсом. Просканированные файлы на сайте сохраняются в качестве текстовой копии и структуры на серверах в дата-центрах «Яндекса».
6
Необходимость повторного сканирования определяется также автоматически роботами. Программа сравнивает имеющийся результат сканирования с обновленной версией сайта при повторном прохождении индексации. Если полученные программой данные различаются, производится обновление копии сайта и на сервере «Яндекса».

Совет 2: Как индексировать сайт

Индексация – добавление сайта в каталог поисковой системы с целью увеличения притока посетителей. Поиск происходит по специальным поисковым запросам, содержащим ключевые слова сайта.
Инструкция
1
Популярнейшая поискавая система – “Google”. Обрабатывает около 41 345 000 запросов в месяц, индексирует свыше 8 миллиардов страниц, поддерживает поиск почти на 200 языках мира. Поиск происходит и по документам текстовых форматов. Для добавления сайта в каталог системы пройдите по первой ссылке под статьей и введите информацию о сайте.
2
Второй по популярности поисковик – “Yahoo!”. Компания основана аспирантами Стэнфордского университета Дэвидом Файло и Джерри Янгом в 1994 г. Главный офис компании находится в городе Саннивейл. Пройдите по второй ссылке и введите адрес сайта для индексации в данной системе.
3
Яндекс – седьмой в списке самых посещаемых поисковых сайтов мира. Обрабатывает около 1,892 млрд поисковых запросов в месяц. Датой основания принято считать 23 сентября 1997 года, но первое время «Яндекс» был частью компании CompTek International. Отдельной компнией «Яндекс» стал в 2000 г. Третья ссылка ведет на страницу добавления сайта в каталог системы. Введите информацию о сайте и код с картинки.
4
Поисковая система «Апорт» была впервые представлена в 1996 г и тогда проводила поиск по сайту russia.agama.com. Официальная презентация «Апорта» состоялась 11 ноября 1997 года. К тому времени сайт уже охватывал весь рунет. Чтобы добавить сайт в поисковую систему, пройдите по четвертой ссылке.
5
Рамблер - интернет-холдинг, основанный в 1996 г. В сферу его услуг входит, помимо поисковой системы, рейтинг ресурсов, информационный портал и многое другое. Сайт поддерживает поиск на русском, украинском и английском языках. На страницу индексации ведет пятая ссылка.
6
Mail.Ru —портал российского Интернета, включающий в перечень сервисов поисковую систему, систему блогов, почтовую систему и многое другое. Имеет больше 50 миллионов уникальных посещений в месяц. Основан в 1998 г. Индексируйте сайт на странице по шестой ссылке.
Видео по теме
Источники:
  • Google

Совет 3: Как составить файл robots txt

Одним из средств управления индексацией сайтов поисковыми системами является файл robots.txt. Преимущественно он используется для того, чтобы запретить всем или только определенным роботам загружать содержимое некоторых групп страниц. Это позволяет избавиться от «мусора» в выдаче поисковиков и, в некоторых случаях, существенно улучшить ранжирование ресурса. Для успешного применения важно правильно составить файл robots.txt.
Вам понадобится
  • - текстовый редактор.
Инструкция
1
Составьте список роботов, для которых будут заданы особые правила исключений или использованы директивы расширенного стандарта robots.txt, а также нестандартные и специфические директивы (расширения конкретной поисковой системы). Внесите в данный список значения полей User-Agent заголовков HTTP-запросов, посылаемых выбранными роботами серверу сайта. Имена роботов также можно узнать в справочных разделах сайтов поисковых систем.
2
Выделите группы URL ресурсов сайта, к которым должен быть запрещен доступ каждому из роботов списка, составленного на первом шаге. Произведите такую же операцию по отношению ко всем остальным роботам (неопределенному множеству индексирующих ботов). Иными словами, в результате должны получиться несколько списков, содержащих ссылки на разделы сайта, группы страниц или источники медиа-контента, которые запрещены к индексации. Каждый список должен соответствовать отдельному роботу. Также должен быть список запрещенных URL для всех остальных ботов.Составляйте списки на основе сопоставления логической структуры сайта с физическим размещением данных на сервере, а также путем группировки URL страниц по их функциональному признаку. Например, можно включить в запрещающие списки содержимое каких-либо служебных каталогов (группировка по месту размещения) или все страницы пользовательских профилей (группировка по назначению).
3
Выделите признаки URL каждого из ресурсов, содержащихся в списках, составленных на втором шаге. При обработке списков исключений, предназначенных для роботов, использующих только стандартные директивы robots.txt и неопределенных роботов, выделите уникальные части URL максимальной длины. Для остальных множеств адресов можно создать шаблоны в соответствии со спецификациями конкретных поисковых машин.
4
Cоставьте файл robots.txt. Внесите в него группы директив, каждая из которых соответствует набору запрещающих правил для конкретного робота, список которых был составлен на первом шаге. Последней должна следовать группа директив для всех остальных роботов. Разделяйте группы правил одной пустой строкой.Каждый набор правил должен начинаться с директивы User-agent, идентифицирующей робота, после чего должны следовать директивы Disallow, запрещающие индексацию групп URL. Значениями директив Disallow делайте строки, полученные на третьем шаге. Директивы и их значения разделяйте двоеточием.Рассмотрите следующий пример:User-agent: YandexDisallow: /temp/data/images/User-agent: *Disallow: /temp/data/Данный набор директив предписывает основному роботу поисковой системы Яндекс не индексировать URL, в которых содержится подстрока /temp/data/images/. Он также запрещает индексацию URL, в которых содержится /temp/data/ всем остальным роботам.
5
Дополните robots.txt директивами расширенного стандарта или специфическими директивами конкретных поисковых систем. В качестве примеров подобных директив могут выступать: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.
Видео по теме
Обратите внимание
Поисковый робот компании Rambler понимает только базовый стандарт robots.txt.

Использование robots.txt является декларативной мерой. Оно никак не оградит ваш сайт от автоматических парсеров контента.
Совет полезен?
Используйте нестандартные расширения формата robots.txt для более гибкого управления роботами Yandex и Google.
Источники:
  • A Standard for Robot Exclusion
  • An Extended Standard for Robot Exclusion
  • Использование robots.txt
  • как составить архив
Видео по теме
Полезный совет
Возможности использования директив в robots.txt определены в соответствующем разделе для веб-мастеров на сайте «Яндекса».
Поиск
Совет полезен?
Добавить комментарий к статье
Осталось символов: 500