Основные принципы индексирования сайта

В начале статьи хотелось бы рассказать о нескольких занимательных фактах: в поисковой базе индексирующего робота Яндекс на текущий момент содержатся триллионы адресов различных сайтов, ежедневно робот скачивает миллиарды документов. И во всем этом большом и постоянном процессе очень важно то, как индексирующий робот проиндексирует конкретно ваш сайт и как он включит его в результаты поиска.

Как поиск находит страницу, её путь до появления в поиске.

Для начала давайте разберемся, что такое процесс индексирования сайта? В целом, это можно охарактеризовать, как процесс получения информации о страницах сайта с последующим добавлением данных в поисковую базу и результаты поиска. Данный процесс можно представить поэтапно:

Итак, начнем с самого начала: создание вашего сайта.
Вы создали сайт, разместили его на сервере, заполнили каким-либо контентом, сделали его доступным для посетителей и для индексирующего робота.

Далее для того чтобы ваш сайт начал индексироваться, робот, прежде всего, должен узнать о его существовании. После того, как появилась информация о том, что в интернете разместили новый сайт, робот планирует посетить ваш веб-ресурс, отправляет определенные запросы вашему серверу, получает контент от сервера. Полученный контент в будущем добавляет в поисковую базу и в результаты поиска.

Скорее всего, у вас появился вопрос, а откуда робот узнает о новых страницах и о сайте в целом?

Если ваш сайт существует некоторое время или давно, то вероятно, что в интернете на него присутствуют какие-либо ссылки. Например, на форумах пользователи часто обмениваются мнением о покупках в интернет-магазинах или о каких-то услугах и пересылают ссылки между собой. Если робот обнаружит такие ссылки, он начнет индексировать ваш сайт. Но если ваш сайт был создан совсем недавно, скорее всего ссылки на него отсутствуют, и робот не знает о его существовании. Для таких случаев есть сервис «Яндекс.Вебмастер» , инструмент «сообщить о новом сайте» , в котором можно добавить адрес вашего нового сайта, после этого робот начнет его индексировать.

Если мы говорим о внутренних страницах какого-либо ресурса, то естественным считается процесс обнаружения доступных ссылок на те или иные страницы. В частности, робот посещает главную страницу вашего сайта, обнаруживает какие-то доступные ссылки на внутренние страницы и добавляет информацию о них в свою базу, начиная так же их индексировать.

Существует специальный файл – sitemap, который позволяет роботу передавать информацию о станицах вашего сайта.

Также робот может получать информацию из других источников. Например, вы разрешили «Яндекс.Метрике» передавать индексирующему роботу какие-либо данные. Робот может получать информацию о новых страницах, добавлять их себе в базу, индексировать, включать в поиск.

От чего зависит скорость индексирования?

От чего зависит, как быстро индексирующий робот включит вашу страницу в поисковую выдачу? Весь процесс индексирования проходит автоматически: робот посещает все страницы вашего сайта в соответствии со своими внутренними политиками планирования. Политики планирования строятся на основании машинного обучения, и зависят от различных факторов. Со временем эти политики в отношении какого-либо сайта или страницы могут меняться, основываясь на показаниях и факторах:

Загруженность сервера, на котором находится сайт. Если на вашем сайте находится большое количество других ресурсов, и, если сервер не справляется со всеми запросами от индексирующего робота, то робот начинает посещать ваш сайт реже. Соответственно, потребуется больше времени для включения страниц в результаты поиска.
Частота обновления сайта, страниц, разделов. Если индексирующий робот видит, что на вашем сайте часто добавляется какой-либо новый контент и информация обновляется регулярно, то робот посещает ваш сайт чаще. Так как считает, что вернувшись к вам на сайт, найдет новый контент. И, наоборот, если ваш сайт давно не обновлялся, то робот будет редко заходить на него.
Интерес посетителей к сайту. Интерес посетителей вашего сайта непосредственно к материалу, который вы размещаете. То есть, если новости или информационные статьи, размещенные вами, интересны посетителям, и они задерживаются на вашем сайте, просматривая материал и продолжая переходить дальше по внутренним страницам, робот обращает на это внимание.

Теперь немного о том, как происходит запрос и получение контента от вашего сервера. Мы узнали о вашей странице, добавили ее в свою базу, дальше нужно заполучить ее с сервера. Перед началом каждого индексирования робот запрашивает файл robot.txt ( 1-2 раза в сутки), потом происходит запрос конкретной страницы.

Это видно по тому, какие заголовки высылает индексирующий робот. Среди них хочется выделить несколько: Accept Language – это то, какие языки поддерживает индексирующий робот, Accept Encoding – указывает на поддерживаемые форматы сжатия и User Agent – какой именно индексирующий робот к вам пришел, это может быть обычный индексирующий робот, как в данном примере, а также это может быть робот зеркальщик, робот картинок и др. Практически у каждого сервиса есть свой робот.

После того, как мы отправили запрос на ваш сервер, сервер дает какой-либо ответ. Начинается этот ответ с таких НТТР заголовков, в зависимости от настроек сервера их может быть больше или меньше.

Ответ сервера на запрос ПС Яндекс — Ответ сервера на запрос поисковой системы Яндекс

Вот несколько обязательных заголовков: НТТР ответа, показывающий роботу, в каком статусе находится страница, Content type покажет роботу, какой тип документа будет передаваться и Content Encoding, показывает, какое используется сжатие страниц.

Распространенные НТТР-коды:

НТТР-200 – страница доступна, её необходимо индексировать.
НТТР-301 – страница перенесена, необходимо включать цель перенаправления.
НТТР-302 – страница перенесена, необходимо включать наиболее короткий адрес.
НТТР-304 – страница не менялась с момента последнего обращения.
НТТР-404 – страница удалена.
НТТР-503 – сервер временно не доступен.

Добавление контента в базу.

Помимо НТТР ответа возвращаемого вашим сервером, сервер должен вернуть еще и содержимое самой страницы. Вот так страница выглядит для обычного посетителя:

Но в глазах робота все выглядит иначе:

Как видит контент робот Яндекса

Это начало контента, малая его часть, мы еще даже до текста не дошли. Видно большое количество скриптов, мета-тэгов, информации. Из этого всего робот делает определенную выжимку и забирает только то, что необходимо ему и, что будет использоваться при ранжировании страниц вашего сайта для добавления его в результаты поиска.

Проще говоря, робот получает НТТР-код, чтобы узнать в каком статусе находится страница, затем получает текстовое содержимое, из которого выделяет различные мета-теги и получает дополнительные исходящие ссылки на внутренние и внешние страницы, которые так же необходимо индексировать, если робот о них только узнал.

После того, как получили контент от вашего сервера, его нужно включить в результаты поиска. Ваш сайт или страница могут появиться в выдаче в разное время, это зависит от того, какой индексирующий робот посещал сайт.

Индексирующих роботов можно разделить на два типа:

Быстрый индексирующий робот – он посещает страницы новостных ресурсов, а также ресурсов, у которых информация быстро теряет свою актуальность, то есть те страницы, которые необходимо быстро проиндексировать и добавить в результаты поиска. Этот робот обходит не все ресурсы, не все страницы добавляет в поисковую выдачу. Но зато, если страница была проиндексирована быстрым роботом, то она попадает в поиск в течение нескольких минут или часов.

Основной индексирующий робот – он посещает все страницы, которые ему известны, запрашивает весь контент и включает эти страницы в результаты поисковой выдачи. Это происходит медленнее, с обновлением поисковой базы, и на это требуется около двух недель.

Как узнать, что та или иная страница появилась в поисковой выдаче?

Рекомендуем использовать «Яндекс.Вебмастер», в частности инструмент «Проверить URL». Потому что помимо данных, что страница находится в выдаче, можно получить информацию: Когда робот в последний раз посещал эту страницу, Какой документ находится в результатах поиска, а если страница отсутствует в выдаче, можно узнать по каким причинам она отсутствует. И вам дадут какие-нибудь рекомендации, как ускорить процесс обхода обновления данных. Аналогично для Google необходимо использовать сервис Google Webmaster Tools.

Также можно использовать несколько операторов для поисковой выдачи:

— Оператор URL – с его помощью можно узнать, находится та или иная страница в результатах поиска. Например, url:exaple.ru/contact вставили в строку поиска и получили результат.

— Оператор SITE – с помощью него можно узнать, какое количество страниц вашего ресурса было проиндексировано и какие страницы находятся в поиске. Например, site: example.ru

В такой ситуации мы практически не управляем поисковым роботом, т.е. он пришел, узнал какие-то страницы на нашем сайте, проиндексировал их, принял решение: включать ли их в поиск или нет.

В следующей образовательной статье мы поговорим об управляемых способах индексирования поисковыми системами вашего сайта.