Проверьте корректно ли настроен файл sitemap xml

Обновлено: 07.07.2024

После добавления файл попадает в очередь на обработку. Робот загрузит его в течение двух недель. Каждый добавленный файл, в том числе вложенный в файл индекса Sitemap, обрабатывается роботом отдельно.

После загрузки напротив каждого файла вы увидите один из статусов:

Напротив файла отобразится дата последней загрузки.

Проиндексированные страницы появятся в результатах поиска в течение двух недель

Проверьте, доступен ли файл для робота с помощью инструмента Проверка ответа сервера, указав полный путь к файлу.

Если файл недоступен, обратитесь к администратору сайта или сервера, на котором он расположен.

Напротив файла отобразится дата последней загрузки.

Проиндексированные страницы появятся в результатах поиска в течение двух недель

Проверьте, доступен ли файл для робота с помощью инструмента Проверка ответа сервера, указав полный путь к файлу.

Если файл недоступен, обратитесь к администратору сайта или сервера, на котором он расположен.

Обновить Sitemap

Если вы изменили добавленный в Яндекс.Вебмастер файл Sitemap , его не надо удалять и загружать снова — робот регулярно проверяет файл на обновления и ошибки.

Чтобы ускорить обход файла, нажмите значок . Если вы используете файл индекса Sitemap, можно запустить обработку каждого перечисленного в нем файла. Робот загрузит данные в течение трех дней. Использовать функцию можно до 10 раз для одного хоста.

Когда вы израсходуете все попытки, следующая будет доступна через 30 дней после первой. Точная дата отображается в интерфейсе Вебмастера.

Удалить Sitemap

Вопросы и ответы

Как правило, в Sitemap принято включать все значимые страницы сайта. Если на сайте множество страниц, вы можете удалить из Sitemap уже известные Яндексу страницы и вносить в файл только новые или часто обновляющиеся.

Если вы используете файл индекса Sitemap отметьте тегом lastmod файлы Sitemap , которые часто обновляются.

Определить, какие страницы сайта уже известны Яндексу, можно в Вебмастере на странице Индексирование  → Статистика обхода .

Sitemap отображается в сервисе как исключенная страница со статусом «Неверный формат документа»

Отображение файла Sitemap и других XML-файлов как исключенных страниц носит только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .

Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу. Не смотря на это файлы Sitemap не участвуют в поиске.

При обработке Sitemap возникла ошибка «Неизвестный тег»

Файл Sitemap может содержать только определенные XML-элементы. Если Вебмастер обнаружит в файле другие элементы, например, указание на мобильную версию, в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.

Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.

Файл Sitemap находится в статусе «Не проиндексирован»

Файл Sitemap может быть не проиндексирован по нескольким причинам:

Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap . Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.

Если проблема с доступом актуальна, обратитесь к администратору сайта или сервера, на котором он расположен. Если файл составлен корректно, он будет повторно обработан в течение двух недель с момента последнего запроса роботом. Проверить файл можно с помощью инструмента Анализ файлов Sitemap.

Файл Sitemap находится в статусе «Документ не содержит текст»

Такой статус отображается в инструменте Проверка ответа сервера и сообщает, что робот не может проиндексировать файл как обычную страницу сайта и включить его содержимое в результаты поиска. На обработку Sitemap этот статус не влияет. Чтобы проверить корректность Sitemap используйте в Вебмастере инструмент Анализ файлов Sitemap.

Файл Sitemap находится в статусе «URL запрещён к индексированию тегом noindex»

Как правило, файл Sitemap обрабатывается роботом в течение двух недель после добавления его в Вебмастер. Если этого не произошло, проверьте:

Sitemap — это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию.

Примечание. Яндекс не гарантирует, что все указанные в файле URL попадут в результаты поиска.

В каких случаях нужен файл Sitemap

Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью внутренних и внешних ссылок — переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:

Поддерживаемые Яндексом форматы

Яндекс поддерживает протокол Sitemap. Чтобы передать информацию, используйте следующие элементы:

Тег Обязательно Описание
loc Да Адрес страницы.
lastmod Нет Дата последнего обновления страницы.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Тег Обязательно Описание
loc Да Адрес страницы.
lastmod Нет Дата последнего обновления страницы.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Используйте этот формат, чтобы сообщить только об адресах страниц.

Также с помощью Sitemap вы можете передать информацию о локализованных страницах сайта и об изображениях (см. раздел Справки Яндекс.Картинок).

Чтобы передавать информацию о видео, в файле Sitemap укажите ссылки на XML-фиды (см. подробно в Справке поиска Яндекса по видео).

Ограничение. Поиск Яндекса не поддерживает передачу RSS и Atom-фидов с помощью файла Sitemap .

Требования к файлу

Используйте кодировку UTF-8. Кириллические URL робот Яндекса распознает как в закодированном виде, так и в оригинале. Максимальное количество ссылок — 50 000. Вы можете разделить Sitemap на несколько отдельных файлов и указать их в файле индекса Sitemap. Указывайте ссылки на страницы только того домена, на котором будет расположен файл. Разместите файл на том же домене, что и сайт, для которого он составлен.

Как создать файл и сообщить о нем Яндексу

Определите канонические URL для страниц, которые будут указаны в файле Sitemap . Это необходимо, если на сайте есть несколько страниц со схожей информацией. Выберите формат и с помощью одного из сторонних ресурсов сформируйте файл. Укажите ссылку на файл в robots.txt или в разделе Файлы Sitemap Яндекс.Вебмастера.

Вопросы и ответы

Как правило, в Sitemap принято включать все значимые страницы сайта. Если на сайте множество страниц, вы можете удалить из Sitemap уже известные Яндексу страницы и вносить в файл только новые или часто обновляющиеся.

Если вы используете файл индекса Sitemap отметьте тегом lastmod файлы Sitemap , которые часто обновляются.

Определить, какие страницы сайта уже известны Яндексу, можно в Вебмастере на странице Индексирование  → Статистика обхода .

Sitemap отображается в сервисе как исключенная страница со статусом «Неверный формат документа»

Отображение файла Sitemap и других XML-файлов как исключенных страниц носит только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .

Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу. Не смотря на это файлы Sitemap не участвуют в поиске.

При обработке Sitemap возникла ошибка «Неизвестный тег»

Файл Sitemap может содержать только определенные XML-элементы. Если Вебмастер обнаружит в файле другие элементы, например, указание на мобильную версию, в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.

Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.

Файл Sitemap находится в статусе «Не проиндексирован»

Файл Sitemap может быть не проиндексирован по нескольким причинам:

Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap . Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.

Если проблема с доступом актуальна, обратитесь к администратору сайта или сервера, на котором он расположен. Если файл составлен корректно, он будет повторно обработан в течение двух недель с момента последнего запроса роботом. Проверить файл можно с помощью инструмента Анализ файлов Sitemap.

Файл Sitemap находится в статусе «Документ не содержит текст»

Такой статус отображается в инструменте Проверка ответа сервера и сообщает, что робот не может проиндексировать файл как обычную страницу сайта и включить его содержимое в результаты поиска. На обработку Sitemap этот статус не влияет. Чтобы проверить корректность Sitemap используйте в Вебмастере инструмент Анализ файлов Sitemap.

Файл Sitemap находится в статусе «URL запрещён к индексированию тегом noindex»

Как правило, файл Sitemap обрабатывается роботом в течение двух недель после добавления его в Вебмастер. Если этого не произошло, проверьте:

Вы создали карту сайта, загрузили ее в Google Search Console и Яндекс.Вебмастер, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковики игнорируют ваш файл Sitemap и не собираются индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.

Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.

В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console и Яндекс.Вебмастере. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.

Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковики проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.

Исправление ошибок в отчете Sitemap

После загрузки карты сайта в Google или Яндекс в столбце «Статус» можно увидеть, удалось ли поисковикам обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно» в Google Search Console или «Ок» в Яндекс.Вебмастере. В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы» в Google, а также аналогичные «Не проиндексирован» и «Ошибка» — в Яндексе.

Проблемы со сканированием вашего файла Sitemap

Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено».

Статус карты сайта «Не получено»

В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.

Статус получения страницы в GSC

Теперь давайте разберемся, что делать, если проблема возникла в Яндекс.Вебмастере. Если Яндекс не сможет обработать ваш файл Sitemap, его статус будет «Не проиндексирован».

Статус карты сайта в Яндекс.Вебмастере

Проверка ответа сервера

Если сервер отвечает больше 10 секунд, файл не загрузится с помощью инструмента и не будет учитываться роботом при обходе.

Кроме того, как и в случае с Google Search Console, обратите внимание на файл robots.txt и плагины CMS.

Ошибка «Не получено» или «Не проиндексирован» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console и Яндекс.Вебмастер файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.

Ошибки в файле индекса Sitemap

Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.

Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса», а в Яндексе — «Число файлов Sitemap превышает заданный предел». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

Недопустимый размер файла Sitemap и ошибки сжатия

Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google и «Размер файла превышает заданный предел» в Яндексе. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap.

Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в Google. В Яндексе она звучит так — «Ответ не содержит данных».

Проблемы со сканированием URL-адресов в карте сайта

По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» в Google и аналогичная «URL запрещен в файле robots.txt» в Яндексе — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

Всю необходимую информацию ищите в разделе «Код ответа сервера».

Раздел «Код ответа сервера» в SE Ranking

Google и Яндекс также выделяют другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

Ошибка в Google «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

Ошибка в Google «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.

Раздел «Редиректы» в SE Ranking

Раздел «Безопасность сайта» в SE Ranking

Яндекс.Вебмастер отдельно выделяет ошибку «Много некорректных URL в начале файла». Эта ошибка сообщает, что стоящие подряд URL-ы расположены за пределами каталога, в котором находится файл Sitemap. Скорее всего весь файл имеет неправильный формат, поэтому Яндекс не будет продолжать сканировать такую карту.

Наконец не забывайте, что длина каждого URL в файле не должна превышать установленный предел в 1024 символа. Иначе Яндекс.Вебмастер выдаст ошибку «Слишком длинный URL».

Google считает, что вы указали неправильные URL

В Яндекс.Вебмастере вы не увидите аналогичных ошибок, но, если вы хотите чтобы поисковик просканировал нужную вам версию URL-ов, стоит придерживаться описанных выше правил.

Синтаксические ошибки в карте сайта

В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок.

Также напомню, что Яндекс распознает не все теги, с которыми работает Google. Из-за этого часто возникают проблемы в отчете Яндекс.Вебмастера.

Давайте рассмотрим все подобные ошибки детально.

  • «Недопустимое значение тега» в Google Search Console. Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0. В последнем случае Яндекс выдаст ошибку «Неверный формат приоритета URL». Также нельзя оставлять теги без значения в принципе. Если такое случится, в Яндекс.Вебмастере вы получите ошибку «Нет данных в теге».
  • «Неверное значение атрибута» в Google Search Console. Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
  • «Неправильно введена дата» в Google Search Console или «Неверное значение тега lastmod» в Яндекс.Вебмастере. Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
  • «Неправильно указано пространство имен» в Google Search Console или «Ошибка в корневом теге» в Яндекс.Вебмастере. Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.

Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8. В последнем случае Яндекс.Вебмастер выдаст ошибку «Неверная кодировка».

Ошибка «Неподдерживаемый формат файла» в GSC

Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

Отправка файла Sitemap на переобход в Яндекс.Вебмастере

Такие действия заставят Google и Яндекс повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.

Загруженные vs проиндексированные URL-адреса

Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.

Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.

Отчет об индексировании в GSC

Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.

Исключенные страницы в Яндекс.Вебмастере

Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта.

Вкладка «Сканирование» в SE Ranking

Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.

Оптимизируйте карту сайта с подсказками от Google

Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.

На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.

Варианты оптимизации карты сайта для Яндекса

В отличие от Google, Яндекс обычно учитывает пожелания вебмастеров. Поэтому если страница помечена как noindex — поисковик не будет ее индексировать. Также Яндекс, как правило, индексирует канонические страницы. Но бывают и исключения. Чтобы увидеть проиндексированные неканонические страницы, выберите на вкладке «Последние изменения» статус «Добавлено: Неканоническая».

Неканонические страницы в Яндекс.Вебмастере

Если Яндекс посчитал, что неканоническая страница лучше той, которую выбрали вы, надо разобраться, что не так с канонической. Для начала проверьте, проиндексирована ли она — если да, вам придется столкнуться с каннибализацией ключевых слов. Если же каноническая страница выпала из индекса, то она по той или иной причине не понравилась поисковику. Доработайте каноническую страницу или послушайтесь Яндекса — поменяйте теги canonical и добавьте необходимую страницу в карту сайта.

В отличие от Google, у Яндекса нет возможности быстро проверить, каких проиндексированных страниц нет в вашей карте сайта. Но их можно легко найти с помощью SE Ranking. Ниже я описала, как это сделать.

Перейдите в инструмент «Анализ сайта» и кликните на зеленую линию в графике «Индексация страниц».

Вы увидите список страниц, открытых к индексации. Добавьте колонку «В карте сайта» и отфильтруйте страницы так, чтобы видеть только те, которых нет в файле Sitemap. Выгрузите список страниц, нажав на кнопку «Экспорт» и скопируйте из таблицы URL-aдреса.

Затем перейдите в инструмент «Проверка индексации», вставьте необходимые ссылки и нажмите «Начать проверку». Через пару минут вы увидите, какие страницы в индексе, а какие нет.

Проверка индексации страниц

Результаты проверки индексации страниц

Теперь вы знаете, каких проиндексированных страниц не хватает в карте сайта. Добавьте их в файл Sitemap.

Теперь давайте вернемся в Яндекс.Вебмастер. Советую уделить внимание еще одной категории во вкладке «Последние изменения» — «Малоценные или маловостребованные страницы». Это страницы, которые были исключены из поиска по очевидной причине. Они не содержат контента, дублируют уже известные роботу страницы, или их контент не отвечает интересам пользователей. Так же как и в случае с Google, подумайте, что можно сделать, чтобы повысить ценность таких страниц.

Малоценные или маловостребованные страницы

Заключение

Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.

Что такое XML Sitemap, как его создать и проверить в Netpeak Spider

1. Что такое XML sitemap

Sitemap XML или XML-карта сайта предоставляет краулерам список страниц для индексации и сообщает о датах их последнего изменения с указанием приоритета и частоты обновлений. Благодаря файлу сканирование и индексация сайтов происходят быстрее,а особенно это касается больших сайтов.

Перед тем как создать карту сайта, удостоверьтесь, что нужен именно формат XML Sitemap, поскольку для многих ресурсов достаточно использовать HTML Sitemap.

Для небольших проектов, у которых все страницы доступны через меню, контент обновляется редко и нет таких дополнительных технологий как JavaScript, подойдет простая HTML-карта сайта в сочетании с файлом robots.txt.

Рассмотрим, в каких случаях необходимо использовать XML-карту:

  1. Ресурс очень объемный и часто обновляется, а потому поисковый робот может пропустить новые материалы.
  2. На сайте сложная структура — есть много разрозненных страниц с большим уровнем вложенности 3 и выше.
  3. На проекте активно используется JS, Flash, Ajax и прочие технологии, индексация которых вызывает затруднения у поисковиков.

Созданный для таких проектов файл Sitemap содержит следующую информацию:

Какую информацию должен содержать XML Sitemap

Какую информацию должен содержать XML Sitemap

1.1. Технические требования к Sitemap.XML

  1. Sitemap может создаваться в формате XML или в TXT, при этом необходимо указать кодировку encoding="UTF-8".
  2. Все указанные в файле страницы нельзя закрывать от индексации в robots.txt, также важен ответ сервера: только код 200 OK. Быстро проверить коды ответа сервера страниц сайта можно с помощью Netpeak Spider.

Как проверить коды ответа сервера страниц сайта можно в Netpeak Spider

2. Как создать карту сайта

Чтобы создать Sitemap XML, можно использовать различные методы — прописывать необходимые данные вручную, создать файл посредством программного кода, использовать специальные модули и программы. Мы детально рассмотрим, как создать XML вручную и с помощью инструмента «Генератор Sitemap» в Netpeak Spider.

2.1. Создание XML Sitemap вручную

Для создания небольшой по объёму XML карты сайта воспользуйтесь любым текстовым редактором. Создайте файл с именем Sitemap, поменяйте в нём расширение на .xml и пропишите в документе абсолютные URL-адреса страниц, которые необходимо индексировать.

Используйте в карте обязательные XML-теги, описанные в предыдущем разделе, при необходимости также заполните дополнительные. На выходе должен получиться файл такого вида:

XML-теги в карте сайте

Для создания объёмных XML-карт потребуются навыки программирования. В таком случае скрипт генерации Sitemap добавляется в CRON — инструмент для регулярного автоматического выполнения определённых заданий.

Чтобы максимально упростить задачу по созданию XML-карты сайта, воспользуйтесь специальными генераторами. Я покажу, как создать файл в краулере Netpeak Spider.

2.2. Генератор Sitemap в Netpeak Spider

2.2.1. Сканирование сайта

    Откройте «Настройки» → «Основные». Чтобы ускорить сканирование сайта, оставьте чекбоксы на этой вкладке пустыми.

Как сгенерировать файл Sitemap в Netpeak Spider

Как сгенерировать файл Sitemap в Netpeak Spider

2.2.2. Генерация XML карты сайта

  1. Перейдите в меню «Инструменты» → «Генератор Sitemap».
  2. Оставьте отмеченным только чекбокс возле «XML Sitemap» и установите нужные параметры: дату последнего изменения, частоту изменений и приоритет страниц. После этого нажмите «Сгенерировать».

Как сгенерировать файл Sitemap в Netpeak Spider

Загрузите созданный файл в корневую папку сайта на хостинг-провайдере. Воспользуйтесь для этого файл-менеджером:

Как загрузить XML-карту на хостинг

Затем перейдите в файл robots.txt, чтобы указать директиву Sitemap с прописанным URL-адресом загруженной карты.

Как указать XML-карту в файле robots.txt

В панели Яндекс.Вебмастера выберите в верхнем выпадающем меню справа «Анализ файлов Sitemap».

Вы получите информацию об отсутствии ошибок в файле.

Перейдите в раздел «Индексирование», выберите «Файлы Sitemap» и пропишите URL-адрес файла, затем нажмите «Добавить».

4. Как проверить XML sitemap на ошибки в Netpeak Spider

Если на проекте уже подключена карта сайта XML, но с ней возникают проблемы, проверьте существующий файл на ошибки с помощью Netpeak Spider → перейдите в меню «Инструменты» → «Валидатор XML Sitemap». Укажите URL-адрес карты и нажмите «Старт».

После валидации файла отобразятся ошибки с указанием их критичности. Инструмент проверяет карту сайта на соответствие требованиям Standard Sitemap Protocol, который поддерживают поисковые системы. Анализируется более 30 возможных ошибок. Если Netpeak Spider обнаружил ошибки в Sitemap, исправьте их и проведите валидацию повторно.

Как проверить XML sitemap на ошибки в Netpeak Spider

Мы приготовили наглядное видео о том, как проверить карту сайта на ошибки:

У Netpeak Spider есть бесплатная версия без ограничений по времени, в которой вы сможете генерировать XML-карту сайта и искать в ней ошибки. Также во Freemium-версии доступны и другие базовые функции программы.

P.S. Сразу после регистрации у вас также будет возможность потестировать весь платный функционал, а затем сравнить все наши тарифы и выбрать для себя подходящий.

При возникновении сложностей с исправлением ошибок воспользуйтесь генератором — иногда проще новый sitemap создать, а затем загрузить его на хостинг, как было описано ранее.

Подводим итоги

  1. Для больших проектов со сложной иерархической структурой важно наличие XML-карты, которая указывает поисковым системам все ссылки на контент для индексирования.
  2. Для создания XML-карты используют различные методы — создают файл самостоятельно либо привлекают программистов, применяют модули и плагины CMS или генераторы Sitemap. Создать файл без навыков программирования можно с помощью генератора Sitemap в Netpeak Spider.
  3. Чтобы URL сайта быстро и регулярно индексировались, важно проверить Sitemap на наличие ошибок. Валидатор XML от Netpeak Spider проанализирует файл и покажет, полностью ли он соответствует протоколу Standard Sitemap Protocol.

Читайте также: