Часто бывает так, что продвижению сайтов вроде бы уделяют достаточно внимания. Но всё равно остаются очевидные моменты, которые не прорабатывают в достаточной степени. Именно поэтому хорошо иметь точные советы и рекомендации под рукой.
О технических факторах
Ошибки технической оптимизации могут приводить к тому, что даже интересный и эксклюзивный контент, отличный дизайн не спасают проект. Из-за этого ухудшается и ранжирование сайта. А пользователи переходят на другие страницы в поисках лучшей оптимизации.
Правильный Robots.txt
Служебные и ненужные разделы должны быть полностью закрытыми от индексации. Например, это касается следующих разделов:
- С версиями для печати.
- Логи.
- Кэш страниц.
- Административные разделы.
- Сортировка.
- Регистрация и авторизация.
- С результатами поиска по сайту и так далее.
User-Agent требуется задавать отдельно для поисковых систем Google и Яндекс. Но здесь важно ещё и сделать так, чтобы директивы отличались от краулеров разных поисковых систем.
В открытом доступе находятся полные инструкции относительно того, как оформить документ для каждой поисковой системы.
Проверку выполняют не только при визуальном осмотре. С этим помогает так называемый букмарклет robots.txt+meta. Можно проверять запрет на индексацию для разных страниц. Существует множество инструментов для вебмастеров, чтобы решать подобные задачи.
Правильный Sitemap.xml
Здесь важно проследить за тем, чтобы выполнялись следующие требования:
- Протокол адресов в sitemap такой же, что и реальный.
- Запрещённые к индексации страницы должны отсутствовать.
- Важно уметь корректно расставить даты последнего обновления страницы и приоритеты страниц.
- Отсутствие сообщений об ошибках со стороны анализаторов вебмастерских.
- Есть страницы, в которых представлен только код ответа сервера 200 ОК.
- Robots.txt включает ссылку на xml-версию.
Можно использовать для проверки визуальный осмотр. Но отличными дополнениями станут файлы Sitemap из Google Search Console или Яндекс.Вебмастера. Netpeak Spider — отличный инструмент, который практически сразу сообщает об ошибках.
Отсутствие технических дублей у страниц
Например, поисковые системы часто думают, что используют две страницы, хотя на самом деле она одна, но открывается по двум разным адресам. Нужно исключить такие ситуации. Такие дубли чаще всего появляются по следующим причинам:
- Для открытия части страниц используют HTTPS, в другой части опираются на HTTP.
- Если есть адрес без слэша на конце — его перенаправляют на аналогичный элемент со слэшем. Бывает и наоборот.
- У адреса главной страницы на конце встречаются такие элементы, как index.html, index.php.
- Для 301 редиректа не выставлены соответствующие настройки. Их надо корректировать, чтобы сайт снова открывал доступ к содержимому только по одному протоколу.
Редиректы настраиваются для каждого из существующих сценариев. Надо учитывать все условия, описанные выше.
Требуется некоторый запас технических знаний, чтобы правильно работать с редиректами. Если опыт отсутствует, то стоит отказаться от идеи настроить перенаправления самостоятельно.
Визуальный осмотр лучше проводить в самом браузере. Просто вводят адреса и добавляют, либо убирают соответствующие концы и элементы. После этого смотрят, что происходит на странице.
Канонические страницы и страницы пагинации
Для страниц с параметрами URL обязательно применение атрибута rel=canonical. Не обойтись без указания предпочтительного адреса. Благодаря этому поисковые системы быстро понимают, что только каноническая страница должна проходить индексацию.
Google выставляет новые требования по оформлению страниц пагинации, начиная с 2019 года. Это значит, что теперь одна страница должна содержать весь контент. JavaScript используют, чтобы поисковые роботы правильно оценивали это явление.
rel=canonical рекомендуют использовать в случае с Яндексом.
Отсутствие продвигаемых страниц среди исключений
Бывает так, что Яндекс принимает решение об отсутствии полезного контента на странице. Поэтому их исключают из поиска. Например, если качество содержимого не очень высокое или же считается, что создали дубль. Обычно это происходит с карточками товаров. Или со страницами из разных разделов сайта, на которых не очень много контента в теле. Тогда часть его считается одинаковой, из-за этого и появляются проблемы с индексацией.
Отдельно следят за тем, чтобы одинаковое количество страниц индексировалось в Яндекс и Google. Отдельного анализа заслуживают ситуации, когда разница более 10%.
Циклические и битые ссылки
В этой сфере контролируют выполнение следующих требований:
- Для каждой несуществующей страницы сайта настроены редиректы.
- Посещение 404 страниц отслеживается в счётчиках отдельно.
- Код сервера 404 отдаёт несуществующая страница.
- Отсутствуют внутренние ссылки на адреса, которые признаны несуществующими.
И страницы не должны ссылаться сами на себя. Такие элементы требуют деактивации. Для роботов их закрывают, выбирая команду <span data-href>.
Отсутствие ненужных редиректов
Есть внутренние ссылки, которые сначала ведут на одни страницы, а последние перенаправляют на другие. Но нужные ссылки можно использовать сразу, чтобы роботы не проходили через слишком длинные цепочки. Благодаря этому краулинговый бюджет будет тратиться не так активно.
Настройка заголовков
Например, роботу надо понять, изменилась страница с момента последнего посещения или нет. Для этого и применяют заголовки If-Modified-Since, либо Last Modified. Если корректировки отсутствуют, то робот с большой вероятностью получает рекомендацию отказаться от посещений. В случае с Google индексация от этого только выигрывает. Но для Яндекса такой подход не работает. Есть и другие рекомендации по техническим параметрам, которые можно отнести к важным. Но каждое из решений заслуживает отдельного рассмотрения.