Как индексирует Яндекс

Индексация – процесс сканирования файлов, расположенных на интернет-ресурсе, поисковым роботом. Данная процедура осуществляется для того, чтобы сайт был доступен в результатах поиска по различным запросам в поисковой системе. Среди наиболее крупных поисковиков на сегодняшний день является «Яндекс», который по-своему проводит данное сканирование.

Статьи по теме:

Вопрос «как проверить баланс сберкнижки через интернет» - 1 ответ

Инструкция

Индексацией интернет-сайта занимаются специальные автоматические программы – поисковые роботы, которые автоматически отслеживают появление новых сайтов во всемирной паутине, проводя постоянное сканирование находящихся в сети интернет-страниц, файлов и ссылок на них на каждом ресурсе.

Для сканирования робот переходит в директорию, на которой располагается ресурс на том или ином сервере. При выборе нового сайта робот руководствуется его доступностью. Например, существует мнение, что «Яндекс» выполняет сканирование сначала сайтов, созданных в русскоязычном домене и на русском языке – ru, рф, su или ua, и лишь затем переходит в другие регионы.

Робот перемещается на сайт и просматривает его структуру, сначала занимаясь поиском указывающих на дальнейший поиск файлов. Например, сайт сканируется на наличие Sitemap.xml или robots.txt. В этих файлах может быть задано поведение поискового робота при сканировании. При помощи карты сайта (sitemap.xml) робот более точно получает представление о структуре ресурса. Через robots.txt веб-мастер задает файлы, которые он не хотел бы, чтобы они выдавались в результатах поиска. Например, это может быть личная информация или другие нежелательные данные.

Просканировав эти два документа и получив нужные инструкции, робот начинает анализировать HTML-код и обрабатывать полученные теги <meta>. По умолчанию, при отсутствии файла robots.txt поисковик начинает обрабатывать все документы, хранящиеся на сервере.

Переходя по ссылкам в документах, робот также получает информацию о других сайтах, которые попадают в очередь по сканированию следом за данным ресурсом. Просканированные файлы на сайте сохраняются в качестве текстовой копии и структуры на серверах в дата-центрах «Яндекса».

Необходимость повторного сканирования определяется также автоматически роботами. Программа сравнивает имеющийся результат сканирования с обновленной версией сайта при повторном прохождении индексации. Если полученные программой данные различаются, производится обновление копии сайта и на сервере «Яндекса».