скачать книгу бесплатно
3. Со страниц, адрес которых оканчивается на «.htm», на страницы вида «.html».
4. С версии сайта «http» на версию «https».
5. С дублей главной страницы сайта (вида «index.php», «index.html», «default.html») на главную. Если такой редирект невозможен из-за особенностей системы, необходимо запретить дубли в файле robots.txt, а также проверить актуальность проблемы для других разделов сайта.
6. После настройки ЧПУ (о чем мы поговорим позже) страницы сайта могут быть доступны и по старым, техническим адресам. Если это так, необходимо настроить 301 редирект на страницы с ЧПУ.
Атрибут rel=«canonical»
Часто на сайте присутствуют группы страниц с частичным дублированием контента. Например, это могут быть карточки товаров, отличающиеся только отдельными параметрами (например, один и тот же стол с разной длиной столешницы), или страницы блога с одной и той же статьей, но разными URL-адресами.
В этом случае необходимо оптимизировать индексацию страниц сайта с использованием вспомогательного атрибута rel=«canonical»[34 - https://support.google.com/webmasters/answer/139066?hl=ru& rd=1 и https://yandex.rU/support/webmaster/controlling-robot/html.xml# canonical], с помощью которого можно указать предпочитаемый (канонический) адрес, который будет участвовать в поиске.
Правильно настроенный атрибут rel=«canonical» помогает существенно упростить настройку индексации сайта и устранить дубликаты страниц для корректного учета всех поведенческих и ссылочных метрик документов. Другими словами, поисковые системы «склеят» страницы с частично дублированным контентом вместе со всеми метриками. Особенно это актуально при проведении рекламных кампаний, например, с использованием UTM-меток[35 - https://ru.wikipedia.org/wiki/UTM-MeTKH].
Общий план действий:
1. Проанализировать сайт и определить страницы с частично дублированным контентом (страницы с параметрами в URL, дубли одной страницы в разных категориях, похожие товары и прочее).
2. Из группы похожих страниц выбрать каноническую и добавить в код неканонических страниц атрибут rel=«canonical». Желательно, чтобы атрибут ставился программным способом – это существенно облегчит администрирование сайта.
Остается добавить, что из-за несовершенства алгоритмов rel=«canonical» не всегда обрабатывается корректно. Это приводит к отсутствию «склейки» поведенческих и ссылочных факторов ранжирования. Поэтому надежнее использовать 301 редирект везде, где это только возможно.
301 редирект или rel=«canonical»?
Давайте определим, какой способ и когда лучше использовать.
301 редирект лучше:
1. Просто по умолчанию. Это более предпочтительный метод вследствие того, что rel=«canonical» не всегда обрабатывается корректно.
2. Если у страницы навсегда изменился адрес.
3. Если сайт переехал на новый домен.
4. Если администратор сайта удалил какую-то страницу, но вместо 404 ошибки хочет показать пользователям другую, схожую с удаленной, информацию (например, другой товар взамен удаленного).
rel=«canonical» лучше:
1. Когда 301 редирект не может быть реализован или его внедрение потребует слишком больших затрат.
2. Когда имеет смысл показывать частично дублированный контент пользователям. Например, несколько страниц стола с разной длиной столешницы можно показывать в расчете на более высокую конверсию, особенно если на эти страницы ведут специальные объявления из систем контекстной рекламы.
3. Когда нужно показывать страницы с почти одинаковым содержимым (например, сортировки каталога, отслеживания партнерских ссылок).
4. Для кросс-доменов, когда оба сайта похожи, но похожий контент нужно оставить на каждом из доменов. Эта ситуация может быть опасна из-за аффилирования, о чем мы поговорим в разделе, посвященном санкциям поисковых систем.
Ошибки при использовании редиректов
Закрывая тему редиректов, хочется рассказать об ошибках, которых стоит избегать:
1. Необходимо делать правильный выбор между 301 редиректом и rel=«canonical».
2. Нужно избегать любых многошаговых редиректов. Одношаговый редирект быстрее работает и сохраняет максимум ссылочного веса. Кроме того, если на сайте будут замечены многошаговые редиректы, поисковая система может решить, что ваша страница – дорвей. А это повлечет серьезнейшие санкции для сайта.
? На заметку
Дорвей[36 - https://ru.wikipedia.org/wiki/Дорвей] (от англ. doorway – входная дверь, портал) или входная страница, – один из видов поискового спама. Это веб-страница, специально оптимизированная под один или несколько поисковых запросов с целью ее проникновения на высокие места в результатах поиска и дальнейшего перенаправления посетителей на другой сайт или страницу.
Дорвей не представляет никакой ценности, и пользователь даже не успевает его рассмотреть – его сразу перенаправляют на другой сайт. Контент дорвея, как правило, лишен смысла и генерируется автоматически по специальным алгоритмам (писать руками слишком затратно). Часто это просто набор фраз, в который внедрены ключевые слова.
Дорвеи – это веб-мусор, поэтому все поисковые машины беспощадно с ними борются.
3. Нужно применять правильные виды редиректов[37 - https://yandex.ru/support/webmaster/error-dictionary/http-codes.xml#redirect-3xx?lang=ru], чтобы не запутать поискового робота.
4. При внедрении редиректа необходимо позаботиться о том, чтобы на сайте не осталось ссылок со старым URL-адресом (с которого и выполняется перенаправление).
5. Редирект желательно ставить на максимально релевантную страницу. Например, на похожую карточку товара или ветку каталога, к которому принадлежала страница. Если это невозможно, лучше выдавать 404 ошибку, о которой мы поговорим чуть позже.
6. Редирект должен вести на действующую страницу (с кодом ответа 200 ОК). Иначе нужно вернуть 404 ошибку.
Robots.txt
Robots.txt – это специальный служебный файл, расположенный в корневом каталоге сайта[38 - https://support.google.com/webmasters/answei760626087hbru], который является незаменимым помощником в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Следует обязательно создать этот файл в соответствии с рекомендациями поисковых систем[39 - https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml], а затем указать в нем страницы и данные, которые поисковым роботам не следует индексировать.
Перечислим типичные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt:
– страницы фильтраций и сортировок с дублированным контентом;
– страницы с UTM-метками;
– результаты поиска;
– тестовые страницы, поддомены и серверы;
– RSS-фиды.
В файл также следует добавить разделы с малоинформативным и служебным контентом:
– служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, подгружаемые модули и другие технические страницы;
– страницы авторизации, смены и напоминания пароля;
– «висячие узлы», то есть страницы, с которых нет ссылок на другие страницы сайта (например, версия страницы для печати);
– страницы совершения действия (добавления в корзину, оформления заказа и прочее);
– страницы с динамическими параметрами[40 - https://yandex.ru/support/webmaster/controlling-robot/robots-txt. xml#clean-param];
– неинформативные или пустые doc- и pdf-файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.
Приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и «мусорные» страницы и запрещать их к индексации.
Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.
Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.
Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковых роботов, и от пользователей.
В файле robots.txt следует указать ссылку на карту сайта с помощью директивы Sitemap[41 - https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml #sitemap].
Остается добавить, что для анализа корректности файла robots.txt нужно воспользоваться валидаторами поисковых систем[42 - https://webmaster.yandex.ru/robots.xml и https://www.google.com/ webmasters/tools/robots-testing-tool].
11. Оптимизация заголовков
При оптимизации заголовков встречается много ошибок. Давайте разберем типичные недостатки и поймем, как их избежать.
Заголовок hl
Согласно многим исследованиям, заголовок h1[43 - http://htmlbook.ru/html/h1] зачастую работает как «второй тайтл», поэтому к нему нужно относиться максимально внимательно:
1. Заголовок h1 единожды должен присутствовать на каждой странице сайта. Повторное использование тегов заголовка h1 на странице недопустимо.
2. Заголовок должен «перекликаться» с тегом <title>, допускается частичное или даже полное дублирование.
3. Заголовок должен однозначно визуально идентифицироваться на странице, чтобы пользователь сразу понимал содержание текущего раздела. Добиться выделения заголовка можно с помощью размера букв, шрифта, цвета и других приемов.
4. В теле заголовка желательно использовать ключевые слова, но переоптимизация (чрезмерное употребление) недопустима.
Рис. 3. Сайт htmlbook.ru – полезный справочник для любого вебспециалиста
Теги h2-h6
Перечислим основные рекомендации, которые помогут правильно применять второстепенные заголовки:
1. Заголовки пришли в Интернет со страниц газетных полос и по возможности должны следовать газетной традиции визуального оформления: h1 должен быть самым крупным и заметным, h2 – меньше, h3 – еще мельче. Так пользователь сможет легче понять иерархию текста на странице.
2. Оптимально использовать только теги h1-h3. Теги h4-h6 почти бесполезны для поискового продвижения, а их использование свидетельствует о проблемах с текстом на странице: он слишком подробно поделен на отдельные части и его необходимо сделать более однородным. Для больших информационных порталов (словарей, справочников и т. п.) допускается также использование h4. Теги h5-h6 лучше не использовать никогда.
3. Ключевые слова в заголовках h2 и h3 могут быть слабым сигналом релевантности, поэтому этим надо пользоваться. Нужно размещать ключевые слова в этих элементах, но не во всех, так как это может быть признаком текстовой переоптимизации, за которую поисковые системы наложат на страницу санкции.
Типичные ошибки
Перечислим типичные ошибки, которых следует избегать:
1. Тегами заголовков можно выделять только заголовки в контентной (текстовой) части страницы. Другие варианты их применения в верстке недопустимы.
Для оформления контента вне основной области страницы (шапка, левая/правая колонка, подвал сайта) можно создать и использовать специальные css-классы.
2. По возможности нужно стараться делать код заголовков более «чистым», без дополнительных тегов и классов. Идеально: <й1>Текст заголовка< /h1>. Это не влияет на продвижение сайта, но поможет придерживаться единого стиля заголовков на всем сайте.
3. Не следует перебарщивать с количеством подзаголовков h2 и h3 на странице. Их количество должно быть адекватно количеству текста (в среднем – один подзаголовок на 800-1500 символов).
Помимо технических задач, связанных с продвижением, заголовки играют большую роль в удержании пользователей и повышении конверсии. Эти аспекты мы подробно разберем в соответствующих разделах.
12. Настройка адресации
Правильная адресация помогает пользователям ориентироваться на сайте и способствует повышению позиций сайта в поисковой выдаче. Ее необходимо оптимизировать на самом раннем этапе работ, иначе можно потерять часть уже достигнутых при продвижении результатов.
ЧПУ
Как известно, к сайту можно обратиться по его URL[44 - https://ru.wikipedia.org/wiki/URL]. URL (англ. Uniform Resource Locator, «урл») – это единый указатель (адрес) ресурса. URL служит стандартизированным способом записи адреса ресурса в Интернете.
Все без исключения страницы сайта должны иметь человеко-понятный урл (ЧПУ). Так на профессиональном жаргоне называют веб-адрес, содержащий читаемые слова вместо служебных параметров, более удобных для компьютера, чем для людей (например, числовых идентификаторов страницы).
Такой адрес состоит из букв латинского (английского) алфавита, цифр и знака «-» (дефиса), который используется для отделения слов друг от друга вместо пробела. ЧПУ отражает виртуальную иерархическую структуру сайта (физически такая структура папок и файлов на сервере может и не существовать). Пример такого адреса: http://site.ru/katalog/igrushki/kubik-rubika (http://site.ru/katalog/igrushki/kubik-rubika)
В Гугле такие адреса называют простыми[45 - https://support.google.com/webmasters/answei7763297hUru]. И действительно, чтобы добиться такой адресации, структуру сайта нужно делать предельно простой, логичной и понятной. Это поможет пользователям просматривать сайт, а роботам – правильно его индексировать.
ЧПУ должен дублировать структуру сайта. Вот примеры того, как он должен выглядеть для разных разделов:
– [главная страница]
– [главная страница] + [раздел]
– [главная страница] + [раздел] + [подраздел]
– [главная страница] + [раздел] + [подраздел] + [страница]
Приведем простой алгоритм образования URL-адреса из заголовка страницы. Это оптимальный способ автоматического формирования ЧПУ, но важно соблюдать последовательность действий:
1. Преобразовать строку заголовка страницы в нижний регистр.
2. Заменить символы кириллицы согласно таблице ниже.
1. Все символы, кроме допустимых (знака тире, букв и цифр), заменить на «-» (включая пробел). Регулярное выражение для замены [^-a-zQ-9].
2. Заменить несколько идущих подряд «-» на один «-».
3. Проверить и удалить, в случае необходимости, символ «-» на первой и последней позиции в строке.
4. К полученному результату слева присоединить косую черту и ЧПУ раздела, находящегося на один уровень выше текущего. Понятно, что самым верхним уровнем будет домен сайта.
Для проверки качества ЧПУ можно провести простой тест: дать контрольной группе пользователей только URL-адрес нескольких разделов сайта и попросить описать, чему посвящены эти страницы. Если у них возникнут проблемы – стоит внести коррективы.
Важные замечания
Спам. ЧПУ не должен быть заспамлен, то есть в нем не должно быть слишком много ключевых слов (тем более они не должны повторяться!). Если ЧПУ формируется из заголовка, то сначала необходимо оптимизировать заголовки согласно ранее данным рекомендациям.