Зачем производится индексация страниц?

Корректная индексация сайта одинаково важна на всех этапах продвижения сайта. Прежде чем присвоить странице позицию по определенному запросу, поисковая система анализирует данные на сайте. Проще говоря, если страница не будет проиндексирована, то ее нельзя будет найти в Google не по каким запросам.

В данном материале я расскажу:

  • Что такое индексация сайта?

  • Какие проблемы с индексацией часто бывают на больших проектах?

  • Как использовать Google Search Console для определения этих проблем

  • Что значит статус “исключено” в отчете Google Search Console

  • Как исправить проблемы индексации

  • Что это даст в продвижении проекта

Статья будет особо полезна оптимизаторам работающим с большими проектами и владельцам таких проектов.

Для чего нужна индексация страниц сайта?

Индексация страницы сайта — это процесс добавления сведений (о сайте) роботом поисковой машины в базу данных, впоследствии использующуюся для (полнотекстового) поиска информации на проиндексированных сайтах

Проще говоря, в процессе индексации поисковый бот изучает вашу страницу и только потом решает, будет ли она добавлена в поисковый индекс и впоследствии появляться в выдаче.

Поэтому индексация всех продвигаемых страниц сайта это первая задача при продвижении проекта.

Основные проблемы с индексацией на больших проектах

Здесь мы не будем рассматривать проблемы связанные с ошибками оптимизации, некорректными мета тегами или историями про забытый Robots.txt. Поговорим о том, какие неочевидные проблемы могут быть в индексации при условии, что все настроено корректно.

Самые популярные ошибки можно отнести к следующим критериям:

  • Один шаблон для всех типов страниц

  • Дублирование контента

Остановимся подробнее на каждом из них и как сделать так, чтобы Google индексировал ваш сайт

Как типовые страницы могут мешать индексации?

Предположим, что на сайте есть несколько разных каталогов. Для примера можно взять сайт автозапчастей, где страницы можно разделить на такие сущности:

  • Страница конкретной запчасти (Тормозные колодки, Ремень ГРМ)

  • Страница запчасти + фильтр бренда (Тормозные колодки Ferodo)

  • Раздел автозапчастей (Запчасти на двигатель, запчасти в салон)

  • Запчасти + марка (Запчасти Акура)

  • Запчасти + марка + модель (Запчасти Акура МДХ)

  • Конкретная запчасть + Марка / модель (тормозные колодки Ауди/ тормозные колодки Ауди 6)

Выглядит логичным, что для каждой страницы продвигается отдельный запрос, для чего потребуется написать метаданные и текст, но будет ли этого достаточно для того, чтобы Google понял какому запросу релевантна страница? Нужно убедиться в том, что Google явно отличает страницу “тормозные колодки Ауди” от “тормозных колодок Ниссан”

Оцените страницу “глазами” GoogleBot

Важно помнить, что кроме самого “SEO текста” поисковая система также анализирует весь контент страницы. Поэтому важно оценивать страницу как Гугл, чтобы понять как он будет ее индексировать.

Для того, чтобы определить — какой текст видит поисковая система на странице — можно воспользоваться следующими способами:

Оставьте настройки по-умолчанию

  • Проанализируйте полученный текст и проведите тоже самое над другой типовой страницей

  • Вариант быстрее — сделать тоже самое используя расширение “SEOquake”

  • После установки, нажмите на нужной странице на плагин и перейдите в раздел “Плотность”

  • Далее вы сможете проанализировать самые встречаемые словоформы на сайте

Что даст эта информация?

Если у вас на сайте есть очень похожие страницы с одинаковыми блоками контента и отличаются только текстом — вы можете определить схожесть этих страниц между собой.

В некоторых случаях одна или несколько таких страниц могут быть исключены из индекса, так как их текстовое содержание практически идентичное.

Решается такая проблема изменением блоков контента или расширением количества текста.

Как дубли контента мешают индексации страниц в Google?

Задача поисковой системы состоит в том, чтобы дать пользователю полезный ответ на его запрос. Дубли контента напрямую противоречат этому принципу. Если контент встречается где-то еще в интернете, то он сам по себе вряд ли является полезным.

Какие бывают дубли контента?

Дубли контента можно условно разделить исходя из причины дублей:

  • Дубли УРЛ

Допустим, если ваш сайт доступен по адресам www и без www, и так далее. Подробно рассматривать этот вопрос здесь мы не будем.

  • Дубли контента с другого сайта

Предположим, вы разместили тексты о товарах, взяв их со страниц производителя, такой контент будет являться дублем

  • “Неочевидные” внутренние дубли

Это страницы, которые могут иметь разные заголовки и даже текст, но общая масса контента у них мало отличается. Найти такие страницы можно, анализируя страницу как Google Bot.

Для чего нужен Google Search Console

Google Search Console является бесплатным инструментом, который предоставляет информацию о взаимодействии вашего сайта с поисковой системой.

Как использовать Google Search Console для определения проблем с индексацией?

Инструмент Google Search Console предоставляет отчеты по всем ключевым процессам работы с сайтом — сканированию, индексации и ранжированию.

В разделе “Покрытие” можно отследить статус индексирования страниц. Здесь вы можете увидеть работу настроенных тегов, а также в статусе “Исключено” обнаружить страницы, которые Google решил не включать в индекс. Важно определить находятся ли там действительно не нужные страницы или какие-то были занесены ошибочно.

Как проиндексировать страницы из статуса “Исключено” в Google Search Console?

Если вы обнаружили в данном отчете страницы, которые на ваш взгляд, должны быть в поиске. Следуйте следующей инструкции:

  • Экспортируйте страницы из отчета и определите их тип (продукты, каталог, пагинация и т.п)

  • Проверьте нет ли вместе с этими страницами похожих страниц с ошибками в УРЛ, например:

Если обе страницы доступны для робота и это системная ошибка, поисковая система может воспринимать корректную страницу и страницу с дополнительными параметрами как дубли. Соберите список всех ошибок и примите меры по закрытию их от индекса.

  • Сравните исключенные страницы между собой, возможно они являются неочевидными дублями, например:

Конструктор для мальчиков

Конструктор для девочек

Конструктор для малышей

Если на таких страницах уникальный контент — только текст, а все остальное одинаковое — у поисковой системы могут возникнуть проблемы с определением уникальности этих страниц.

  • Проверьте нет ли на страницах не уникального контента.

Чаще всего эта проблема относится к карточкам товара. Так как многие магазины продают товары одинаковых брендов — описание часто берется у производителя. Это нормальная практика, так как эта информация полезна для пользователя. Но если на ваших карточках товара нет больше никакой информации, кроме скопированного текста — они могут быть исключены из поиска.

Как исправить проблемы индексации — успешный пример с неуникальными карточками товара:

Скриншот из начала статьи как раз является примером исправления проблемы с дублированием текста на карточках товара. Во всех подобных случаях есть два пути исправления:

  • Убрать дублированный текст

  • Добавить уникальный контент

Использоваться могут как обе стратегии вместе, так и одновременно. Убрать текст можно путем удаления, а можно сделать так, чтобы поисковая система не видела его, но он остался на странице.

Добавить уникальный контент можно с помощью пользовательского контента (отзывов, комментариев и т.п) либо других вариантов.

В случае с примером я применил обе стратегии сразу. В итоге это позволило проиндексировать более 1 млн карточек товара.

Индексирование такого количества страниц позволило увеличить трафик на 15К в месяц, а также более эффективно использовать карточки товара в общей стратегии.

Очевидно, что не все карточки товара являются трафикогенерящими страницами, но их наличие в индекса позволяет использовать их в общей стратегии продвижения, например, размещая на них блоки перелинковки и другую информацию.

Заключение

Для корректной индексации страниц на больших проектах придерживайтесь нескольких простых пунктов:

  • Исключайте технические дубли страниц (www\без www) и т.п

  • Уникализируйте дизайн и контентные блоки страниц разных сущностей

  • Добавляйте уникальный контент там, где вынуждены использовать часть не оригинального текста

  • Закрывайте от индекса все, что не нужно включать в результаты поиска

Не хотите разбираться сами? Свяжитесь со мной: