Как управлять поисковым роботом Яндекса?

Как можно повлиять на робота, чтобы он индексировал то, что нам нужно или наоборот не индексировал? Это одна из самых популярных тем, которую кто только не разбирал, и в тоже время мы постоянно видим ошибки в файле robots.txt. Что же не так? Давайте разберемся.

Сам файл robots.txt – это строгий набор инструкций для индексирующего робота, показывающий, что можно индексировать, а что нет. Этот файл находится в корне вашего сайта, обязательно имеет название robots.txt и начинается со строки User-agent. Эта директива показывает какие правила, перечисленные ниже, будут использоваться для того или иного робота.

Распространенные директивы disallow/allow запрещают или разрешают индексирование страниц. Здесь можно запрещать и дублирующие страницы, и служебные, и скрипты, и все что угодно. Особенно важна эта директива, если у вас на сайте хранятся какие-то пользовательские данные: договор, адреса доставки, мобильный телефон и др. Эту информацию нужно закрыть от индексирующего робота, чтобы она не попала в результаты поиска.

Директива Clean-param позволяет удалять ненужные параметры из URL-адресов страниц, если вы их используете для отслеживания того, откуда пришел на ваш сайт индексирующий робот.

Директива Crawl-delay задает интервал между окончанием запроса одной страницы роботом и началом запроса другой. Очень эффективная директива, если вы открыли новый раздел на вашем сайте; робот пришел и начал скачивать кучу страниц, создавать дополнительную нагрузку сайту, ресурс перестает отвечать, недоступен для посетителей, и вы теряете своих клиентов.

Директива Sitemap указывает на наличие и адрес, т.е. местоположение соответствующего файла карты на вашем сайте. Директива Host указывает адрес главного зеркала.

Вот пример типичного файла robots.txt

Начинается файл с директивы User-agent: *. Где * — показывает, что используется для всех индексирующих роботов, если не указано иначе. Во втором блоке указано User-agent: Yandex. Это означает, что он предназначен только для индексирующих роботов Яндекса.

Директива Disallow:/admin указывает на то, что нужно запретить обход всех страниц, которые начинаются с admin. Disallow:*=? cart* запрещает любые действия, любые GET-параметры, содержащие этот адрес.

GET-параметры – это параметры, которые передаются серверу, когда совершается запрос. Со стороны пользователя это выглядит, как часть интернет адреса. Например, такой запрос http://www.examle.com/test?param1=value1&param2=value2&param3=value3.
Все, что идет после ? это GET-параметры. Они представляют собой список пар – ключ-значение, разделенные &. В данном случае это три пары: (param1, value1) (param2, value2) (param3, value3).

Дополнительные директивы: Clean-param: sid/ – очищает идентификатор сессии.
Crawl-delay: 0.5 – в данном случае робот будет запрашивать две страницы в 1 секунду.

Какие самые распространенные ошибки допускаются при работе с файлом robots.txt?

Ошибки в содержимом файла. Даже самые опытные вебмастера допускают такие ошибки, допускают вылета сайта из результата поиска, так как сайт становится полностью недоступен для индексирующего робота.
Код ответа НТТР отличный от кода 200. Самый распространенный случай, когда у вас есть служебный домен, и он вылез в результаты поиска. Что вы делаете? Вы закрываете Disallow all на служебном домене. И настраиваете индексирующему роботу НТТР-код ответа 403. Робот приходит, запрашивает ваш файл robots.txt и видит код ответа отличный от кода 200. Он игнорирует эту инструкцию и считает, что тут находится полностью разрешающий файл, что все адреса, которые ему известны, можно индексировать и включать в результаты поиска.
Наличие кириллических символов в файле robots.txt. Такие символы использовать нельзя, робот их проигнорирует.

Самый распространенный случай ошибки, например, если ваш сайт лютикицветочки.рф, и в директиве Host – вы его указали не в закодированном виде. Хотя нужно указывать в закодированном понекоде (Punycode).

Punycode — алгоритм, который определяет однозначное преобразование символов Юникода (символы национального алфавита, например, россия.рф) в строки ASCII-символов.

А как мы знаем, URL отправляются в интернет в ASCII-кодировке. Данная кодировка используется для передачи информации между компьютерами в интернете. ASCII расшифровывается как Американский Стандартный Код для Обмена информацией.

Файл robots.txt превышает размер 32 Кб. Робот, получая такой файл, считает, что это не файл текстового типа, а обычная страничка, и что эту страничку не нужно учитывать при обходе сайта.

Все эти ошибки можно предотвратить, если пользоваться простейшим инструментом в «Яндекс.Вебмастер» — Анализатор robots.txt.

Анализ robots.txt в панеле Яндекс.Вебмастер

Вставляете адрес вашего сайта, нажимаете загрузить robots.txt, теперь можете увидеть, то, что сейчас там находится, добавляете список URL-адресов страниц, нажимаете кнопку проверить. Можно редактировать, посмотреть, как робот воспримет то или иное изменение. Если вы вносите какие-то серьезные изменения в файл robots.txt, даже если знаете и делали это много раз, то перестрахуйтесь, воспользовавшись этим инструментом.

Что такое карта сайта и как её рисовать?

Итак, мы с вами запретили роботу посещать те или иные страницы на сайте, но теперь нужно показать, какие страницы нужно индексировать и включать в поисковую выдачу.

Для этого существует специальный файл Sitemap – карта вашего сайта. Это текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать. Ниже приведен пример файла sitemap.

Так выглядит типичная карта сайта. Sitemap

Файл должен начинаться со служебной строки, указывающей на кодировку. Обязательно стандарт, с которым он составлен, и обязательно тэг Url и Loc (location – показывает адрес страницы). Это самый простой файл, здесь всего одна страница – это «морда» (главная страница сайта). Плюс есть необязательные тэги, которые тоже можно передавать роботу, и которые робот может учитывать (lastmode – дата последнего изменения страницы , changefreq – периодичность ее изменения, priority – приоритет при обходе вашего сайта в целом).

Ошибки при работе с Sitemap

Самая распространенная ошибка, с которой сталкиваются вебмастера – это, когда индексирующему роботу указывают файл sitemap, находящийся на другом сайте. Например, если вы используете бесплатный генератор файлов sitemap, то он автоматически размещает этот файл у себя на сайте. Робот не будет обрабатывать такой файл, потому что в соответствии со стандартом, файл должен обязательно находиться на том хосте, ссылки которого указаны внутри самого сайта. То есть, если у вас есть сайт лютикицветочки.рф в нем должны находиться только эти ссылки и сам файл должен находиться только на этом сайте.
Установленное перенаправление файла sitemap – это вторая проблема. К примеру, у вас файл находится по стандартному адресу (sitemap.xml), и там находится редирект, ведущий на какую-то внутреннюю страницу, на внутренний адрес. Робот не обрабатывает такие файлы sitemap. Файл sitemap обязательно должен возвращать код ответа 200.
Критические ошибки внутри самого файла, которые тоже влияют на его обработку. Например, если отсутствует служебная строка с указанием кодировки (<?xml version=”1,0” encoding=”UTF-8”?>). Робот просто проигнорирует такой файл, и не будет использовать его при обходе.

В работе с файлом sitemap вам так же пригодится Валидатор в «Яндекс.Вебмастер», в котором можно проверить все эти ошибки, проверить ваш готовый файл, размещенный на сервере либо на компьютере. Поможет Стандарт файлов sitemap, переведенный на русский язык. И, конечно, раздел «Помощь вебмастеру».

Зеркала сайтов

Следующий вопрос, о котором хочется поговорить – это зеркала сайтов. Попробуем с ними разобраться. Как правило, любой сайт в интернете доступен по двум адресам: http://www.site.ru и http://site.ru. Для индексирующего робота это два изначально независимых ресурса, они индексируются независимо, и участвуют в поиске независимо друг от друга. Что это значит? Что у одного сайта может быть проиндексировано определенное количество страниц, они будут находиться по таким-то запросам. У второго сайта может быть совсем другая ситуация. И для того, чтобы избежать такого дублирования и перемешки, непонимания, мы используем зеркала сайтов.

Зеркала сайтов – это несколько сайтов, которые обладают одинаковым контентом. В данном случае, это сайты с www или без www, сайты по протоколу https, и адрес сайта на кириллице. Это все распространенные случаи.

Зачем все это нужно? Основная причина, по которой сейчас используются зеркала сайтов – это перенос сайта на новый адрес с сохранением характеристик старого адреса. Например, вы решили сменить доменное имя по каким-либо причинам. Потому что выбрали его 10 лет назад, и сейчас он кажется вам не современным, так как сложно писать пользователям, которые вбивают его в адресную строку, постоянно делают ошибки. Во-вторых, для того, чтобы предотвратить ошибочные переходы по другим адресам.

В первом случае, если мы совершаем переезд с использованием зеркал, мы сохраняем все характеристики старого сайта для нового. Соответственно, мы минимизируем какие-либо возможные проблемы.

Каким образом сайты можно сделать зеркалами?

Указать роботу на адрес вашего главного зеркала, который должен находиться в результатах поиска. А можно с помощью директивы Host в вашем файле robot.txt. Указали адрес, это будет прямое направление роботу, что нужно включать адрес по определенному адресу в поиск.
Сообщить роботу об изменениях, если у вас уже есть сайт с www и без www, можно с помощью соответствующего инструмента «Главное зеркало» в «Яндекс.Вебмастер». Но сам по себе инструмент не позволяет изменить адрес главного зеркала. Это делает именно директива Host.
Последний пункт, который я бы рекомендовал использовать, в крайнем случае — это северное перенаправление на главное зеркало. Например, с неглавного зеркала на новый адрес сайта. Почему? Одна из распространённых ошибок при использовании зеркал, это как раз серверное перенаправление.

Допустим ситуацию, что у нас есть два сайта: Сайт А (главное зеркало) и сайт В (не главное зеркало). Сайт А индексируется, участвует в результатах поиска, участвует по запросам. Есть сайт В, сейчас это не главное зеркало, и в выдаче мы его не видим. Мы принимаем решение, что нам нужно включать в результаты поиска именно сайт В. И устанавливаем перенаправление с сайта А на сайт В. Что происходит дальше? Главное наше зеркало (сайт А) перестает участвовать в результатах поиска, потому что сейчас на нем установлено перенаправление и его страницы не доступны для робота. Они начинают исключаться из поисковой выдачи. Сайт В при этом (поскольку является не главным зеркалом) в поиске не участвует, не индексируется и не показывается по каким-либо запросам.

А теперь немного данных из «Яндекс.Метрики». После установки редиректа буквально в течение двух недель страницы сайта начали исключаться из поисковой выдачи, и переходы на сайт снизились. Все это продолжалось до того момента, когда изменился адрес главного зеркала.

Что может произойти если не правильно настроить зеркала сайтов — Исключение страниц сайта из поисковой выдачи при неправильной работе с зеркалами сайтов.

Типичные ошибки при работе с зеркалами.

Помимо установки редиректа для смены адреса главного зеркала, допускаются еще ряд многочисленных ошибок, основные из которых:

Разное содержимое на ваших сайтах при попытке склеить их или объединить в группу зеркал. К примеру, вы хотите одновременно изменить дизайн на вашем сайте и изменить адрес главного зеркала. Чтобы сайты были зеркалами, на них для робота должен находиться один и тот же контент. В данном случае, я советую делать это поэтапно: сначала делать редизайн, потом менять главное зеркало. Либо наоборот: размещать по старому адресу старый контент, ждать склейки, потом делать редизайн сайта. Чтобы не было проблем. Если контент будет разным, вы не склеите, то потеряете время и посетителей.
Вторая распространённая проблема — это переезд вашего сайта в раздел другого ресурса. Например, у вас есть 2 сайта. Один сайт занимается роботами-пылесосами, а второй — бытовой техникой. Вы решаете, что роботы-пылесосы – это тоже бытовая техника, и что можно объединить их в один большой ресурс. Устанавливаете директиву Host, и ждете, но ничего не происходит, потому что у вас на одном адресе находится один сайт, а на другом — другой. Директива Host здесь не поможет, и объединить такие сайты в группу зеркал не получится.

В подобных ситуациях можно открывать раздел на вашем большом ресурсе, после того как эти страницы начнут индексироваться можно установить 301 редирект с вашего маленького сайта на этот раздел. К сожалению, склеить сайты в такой ситуации не получится.

Еще одна распространенная проблема — это запрет или недоступность вашего старого зеркала. Бывает так, что вебмастера забывают продлить доменное имя. Спустя какое-то время они покупают доменное имя, хотят объединить данные сайты в группы зеркал. Поскольку доступ к вашему старому сайту уже утерян, склеить такие сайты не получится. Их нельзя склеить как-то вручную, применить какие-то настройки.

Чтобы сайты могли быть склеены, они должны быть доступны для индексирования и находиться в вашем управлении.

Последнее по популярности — это противоречивые указания для индексирующего робота о том, по какому адресу сайт должен индексироваться и находиться в поисковой выдаче. Например, в директиве Host вы указали один адрес, редирект поставили по другому адресу. Робот автоматически выберет по своему усмотрению, в соответствии со своими алгоритмами, адрес главного зеркала. Иногда бывает, что это не тот адрес, который вы хотели. Поэтому тут нужно быть внимательным. Если вы решаете переехать на новый домен, все указания должны вести именно на него.