Особенности индексирования сайта: что необходимо учесть для эффективного продвижения?

В этой образовательной статье мы разберем несколько актуальных моментов, которые сейчас крайне важны. Это особенности индексирования нескольких видов сайтов. В статье мы разберем, что делать с динамическим контентом, как улучшить индексирование вашего сайта, что делать, если ваш сайт работает в разных регионах, с разными языковыми версиями, какие проблемы бываю с хостингом и сервером, как выбрать хостинг и многое другое.

Во-первых, это сайты с динамическим контентом, работающие на AJAX. Тут можно выделить два частных случая, но в принципе они все сводятся к одному и тому же. Индексирующему роботу необходимо создать HTML-копии, т. е. статические копии, где уже есть весь контент, и сообщить об их существовании.

В таком случае индексирующий робот будет посещать копии, которые вы для него создали, а включаться в поиск будут динамические страницы, предназначенные для посетителей. В первом случае, если страница вашего сайта содержит хэш «#», то мы добавляем знак восклицания «!» после этого хэша и размещаем страницу по соответствующему адресу. Во-втором случае мы размещаем мета-тег в исходном коде страницы и так же добавляем HTML в копию страниц сайта. Все просто, никаких проблем не возникает. Вы включаете в поиск именно то, что вы хотели. Робот индексирует HTML-копии.

Как работает веб-сайт

Второй пример, который сейчас становится очень актуальным, – это локализованные версии на других языках. Например если у вас какой-нибудь огромный форум либо интернет-магазин и существуют различные языковые версии, то во-первых, чтобы эти языковые версии находились в поисковой выдаче, они должны быть доступны для индексирующего робота. С них нужно убрать запрещающие мета-теги, открыть их в robots.txt, убрать с них атрибут rel=»canonical. Во-вторых, мы показываем роботу, что у нас на сайте есть такие локализованные версии (версии, переведенные на другие языки, предназначенные для других стран). Делается это с помощью соответствующего атрибута hreflang, размещаемого в исходном коде всех страниц сайта, у которых есть такие переведенные версии. И уже робот принимает решение о том, что в поисковую выдачу в Турции нужно включить другую языковую версию, нежели в России.

Как продвигать сайт если у вас несколько языковых версий?

Так же, если у вас есть страница, где язык выбирается автоматически, например на основании IP-адреса посетителя, роботу тоже можно об этом сказать, это как раз последняя версия атрибута. Тоже все просто: сделали специальную разметку, робот понял, что вы от него хотите, и включил в поисковую выдачу именно те страницы, которые вам требуются.

Как можно улучшить индексирование вашего сайта и его страниц

Страшные слова для вебмастеров уже несколько лет – это «дубли страниц сайта». Что такое дубли в понятии индексирующего робота? Это одна или несколько страниц одного сайта, содержащих идентичный контент, но доступных по разным адресам. Чтобы было проще воспринимать, вот несколько примеров:

Один товар находится в нескольких категориях («Мультиварка» находится в категории «Подарки на 8 марта» и «Бытовая техника для кухни»), т. е. страница доступна по двум адресам.
Второй распространенный вариант – это страница со слешем (/) на конце или без него. Для робота это тоже дубли, он их воспринимает как абсолютно отдельные, индексирует и может включать в поиск независимо друг от друга.
Последний вариант – это страницы с какими-либо произвольными параметрами. Т. е. попробуйте у себя на сайте добавить какой-нибудь несуществующий, произвольный параметр и посмотрите. Вы увидите, что страница открывается, она доступна. Очень часто происходит так, что такие страницы доступны. Если на каком-нибудь форуме на ваш сайт поставят некорректную ссылку и робот обнаружит эту ссылку, эта страница может попасть в поисковую выдачу по запросам.

Какие проблемы вызывают дубли?

Самая большая проблема в рамках ускорения индексирования вашего сайта – это то, что робот начинает посещать множество ненужных страниц вместо индексирования корректных адресов. Количество запросов к вашему серверу растет, а при этом результаты поиска обновляются гораздо реже, чем хотелось бы. Дубли – это одна из причин.
Второе последствие появления дублей – это то, что робот может на свое усмотрение включить страницу из этих дублей в результаты поиска, и иногда происходит так, что это не ваша целевая страница. И это может повлиять каким-либо образом на позиции вашего сайта.

Как можно предотвратить или исправить это дублирование?

Во-первых, советую использовать атрибут rel=”canonical” тега <link> в таких ситуациях, когда это возможно. С его помощью роботу можно задать каноническую страницу, т. е. страницу по главному адресу, которая должна находиться в поисковой выдаче. Это очень актуально для одного товара в нескольких категориях. Указали canonical – пользователю доступны такие страницы, т. е. он может перейти в одну категорию и в другую, но робот включает в поисковую выдачу только канонический адрес.

Дублирование страниц

Во-вторых, можно использовать редирект, как раз в ситуации со слешем и без слеша. Все просто: прописали несколько строчек в htaccess и забыли, что такие дубли могут находиться и как-то влиять на ваш сайт.

Последнее, что можно использовать, – это запрещающее правило (Disallow) в robots.txt. Если у вас на сайте нет страниц с параметрами, то просто установите запрещающее правило и забудьте об этой проблеме раз и навсегда. Маленькая проблема с дублями может иметь большие последствия.

Одна из причин появления дублей – это неверное использование http— кодов ответа:

Использование http-200 на удаленных страницах сайта. Т. е. отсутствие страницы с 404 кодом на вашем сайте. Мы настоятельно рекомендуем обязательно настраивать 404 код, потому что он показывает роботу, что страница удалена с вашего сайта и ее нужно посещать реже. Таким образом, посещая ваш сайт и обращаясь к этой странице, робот видит, что код страницы не меняется, и начинает к ней обращаться гораздо реже, меньше тратить на нее свои ресурсы.
Так же в рамках HTTP-кодов и таких распространенных проблем стоит отметить установку заглушки с HTTP-503 при недоступности вашего сайта. Иногда кратковременная недоступность или наличие этой заглушки помогает предотвратить исключение страниц вашего сайта из результатов выдачи. Робот приходит, получает 503 код и видит, что на сайте проводятся какие-либо работы и нужно прийти и проиндексировать его попозже. Если ваш сайт недоступен в течение часа или нескольких часов, то это может помочь. Но гарантировать, что страницы останутся в поиске, невозможно, потому что робот не получает к ним доступа.
Использование HTTP-301 редиректа при переезде страниц внутри сайта. Т. е. именно этот код показывает роботу, что нужно страницу по старому адресу посещать реже и чаще обращаться к новым страницам.

Ускорение индексирования сайта

Давайте с вами вернемся к маленькому файлу robots.txt. Сейчас мы расскажем о приеме, которым можно иногда пользоваться.

Во-первых, связываемся с вашим хостером, получаем данные CMS и логин вашего сайта, открываем их и видим запросы от индексирующего робота. Смотрим, к чему же робот обращается. Очень часто, когда возникает проблема с актуализацией данных в поисковой выдаче, мы видим, что робот начинает обращаться к дублирующим страницам, страницам с параметрами и идентификаторами сессии и прочим. Это очень легко можно заметить, просто проверив основные 20-30 штук запросов от робота. Если все в порядке, робот обращается к нужным страницам, значит, ничего делать не нужно. Но повторить эту операцию я советую спустя какое-то время, потому что через несколько месяцев робот может обнаружить некорректную ссылку и опять начнет добавлять в базу непонятные адреса.

И последнее в актуализации файла robots.txt – это директива Crawl-Delay. У нее есть плюс: мы можем регулировать нагрузку со стороны робота. Но в последнее время мы заметили, что много популярных сайтов забывают убрать эту директиву из robots.txt, если она уже не нужна. Пример: 3 года назад ваш сайт находился на маленьком хостинге, сервере, вы открыли какой-либо новый раздел. К вам пришел робот, начал индексировать и качать страницы, вы установили директиву Crawl-Delay и отрегулировали нагрузку со стороны робота. Все в порядке, все пришло в норму. Спустя 3 года вы переносите ваш сайт на новый мощный сервер, а директиву Crawl-Delay забыли убрать. Это мешает роботу обновить информацию о ваших страницах. Т. е. робот хочет увеличить нагрузку к вашему сайту, но не может этого сделать, так как вы сами ему не позволяете. Проверьте, если вы когда-нибудь производили такой перенос.

Как быть с хостингом, сервером и их загруженностью?

Мы с вами часто говорим о хостинге, о серверах, о загруженности, теперь пару слов об этом:

Изначально при выборе хостера очень трудно сделать правильный выбор. Выбрать хостер с хорошим аптаймом, чтобы можно было дальше расширяться вне зависимости от посетителей и индексирующих роботов. Вы можете почитать отзывы о хостере на других сайтах и форумах, можете посмотреть, где хостятся крупные компании, и выбрать их. Но не всегда это подходит по бюджету. Этот выбор достаточно сложный, но мы вам советуем посматривать за доступностью вашего сайта для индексирующего робота. Это можно сделать в «Яндекс.Вебмастер», в разделе «История http-код ответа».

Хостинг

Здесь представлена ситуация, когда мы выбрали плохой хостинг. Красная область – это ошибки при подключении: видно, что за сутки их происходит несколько десятков. Похоже, что-то не так, робот не может получить доступ к вашему сайту и не может проиндексировать страницы. Это плохо, нужно идти к вашему хостеру, писать ему об этом, смотреть мониторинги, почему это происходит. Возможно, это обычный дедос (DDoS-атака, распределённая атака на вычислительную систему с целью довести её до отказа в обслуживании). Но если это происходит постоянно, то с этим нужно что-то делать: менять хостинг или переносить сайт на менее загруженный сервер. Обычно это помогает, и обход роботом сайта восстанавливается.

Вот несколько полезных ссылок, которые всегда можно изучить:

Помощь Вебмастеру. Всегда актуально и интересно.
Блог Платона Щукина.
Яндекс.Вебмастер.