Для чего предназначен файл sitemap xml

Обновлено: 03.07.2024

Sitemap — это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию.

Примечание. Яндекс не гарантирует, что все указанные в файле URL попадут в результаты поиска.

В каких случаях нужен файл Sitemap

Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью внутренних и внешних ссылок — переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:

Поддерживаемые Яндексом форматы

Яндекс поддерживает протокол Sitemap. Чтобы передать информацию, используйте следующие элементы:

Тег Обязательно Описание
loc Да Адрес страницы.
lastmod Нет Дата последнего обновления страницы.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Тег Обязательно Описание
loc Да Адрес страницы.
lastmod Нет Дата последнего обновления страницы.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Максимальный размер — 100 байтов.

Используйте этот формат, чтобы сообщить только об адресах страниц.

Также с помощью Sitemap вы можете передать информацию о локализованных страницах сайта и об изображениях (см. раздел Справки Яндекс.Картинок).

Чтобы передавать информацию о видео, в файле Sitemap укажите ссылки на XML-фиды (см. подробно в Справке поиска Яндекса по видео).

Ограничение. Поиск Яндекса не поддерживает передачу RSS и Atom-фидов с помощью файла Sitemap .

Требования к файлу

Используйте кодировку UTF-8. Кириллические URL робот Яндекса распознает как в закодированном виде, так и в оригинале. Максимальное количество ссылок — 50 000. Вы можете разделить Sitemap на несколько отдельных файлов и указать их в файле индекса Sitemap. Указывайте ссылки на страницы только того домена, на котором будет расположен файл. Разместите файл на том же домене, что и сайт, для которого он составлен.

Как создать файл и сообщить о нем Яндексу

Определите канонические URL для страниц, которые будут указаны в файле Sitemap . Это необходимо, если на сайте есть несколько страниц со схожей информацией. Выберите формат и с помощью одного из сторонних ресурсов сформируйте файл. Укажите ссылку на файл в robots.txt или в разделе Файлы Sitemap Яндекс.Вебмастера.

Вопросы и ответы

Как правило, в Sitemap принято включать все значимые страницы сайта. Если на сайте множество страниц, вы можете удалить из Sitemap уже известные Яндексу страницы и вносить в файл только новые или часто обновляющиеся.

Если вы используете файл индекса Sitemap отметьте тегом lastmod файлы Sitemap , которые часто обновляются.

Определить, какие страницы сайта уже известны Яндексу, можно в Вебмастере на странице Индексирование  → Статистика обхода .

Sitemap отображается в сервисе как исключенная страница со статусом «Неверный формат документа»

Отображение файла Sitemap и других XML-файлов как исключенных страниц носит только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .

Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу. Не смотря на это файлы Sitemap не участвуют в поиске.

При обработке Sitemap возникла ошибка «Неизвестный тег»

Файл Sitemap может содержать только определенные XML-элементы. Если Вебмастер обнаружит в файле другие элементы, например, указание на мобильную версию, в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.

Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.

Файл Sitemap находится в статусе «Не проиндексирован»

Файл Sitemap может быть не проиндексирован по нескольким причинам:

Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap . Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.

Если проблема с доступом актуальна, обратитесь к администратору сайта или сервера, на котором он расположен. Если файл составлен корректно, он будет повторно обработан в течение двух недель с момента последнего запроса роботом. Проверить файл можно с помощью инструмента Анализ файлов Sitemap.

Файл Sitemap находится в статусе «Документ не содержит текст»

Такой статус отображается в инструменте Проверка ответа сервера и сообщает, что робот не может проиндексировать файл как обычную страницу сайта и включить его содержимое в результаты поиска. На обработку Sitemap этот статус не влияет. Чтобы проверить корректность Sitemap используйте в Вебмастере инструмент Анализ файлов Sitemap.

Файл Sitemap находится в статусе «URL запрещён к индексированию тегом noindex»

Как правило, файл Sitemap обрабатывается роботом в течение двух недель после добавления его в Вебмастер. Если этого не произошло, проверьте:

В файле Sitemap содержится информация о том, как организован контент на сайте (например, веб-страницы, видеоролики и прочие ресурсы). Эта информация помогает Google и другим поисковым системам более точно индексировать ваши материалы. К примеру, в файле Sitemap можно указать, какие разделы сайта наиболее важны, и сообщить нам дополнительную информацию о них (когда страница последний раз обновлялась, существуют ли ее версии на других языках и т. д.).

Наконец, в файл Sitemap можно добавить дополнительные сведения о контенте разных типов, в том числе о видео, изображениях и новостях. Пример:

  • Для видеофайлов: продолжительность, категория, возрастное ограничение.
  • Для графических файлов: изображенный объект, тип файла и условия лицензирования.
  • Для новостей: название статьи и дата публикации.

Нужен ли мне файл Sitemap?

Если на сайте корректно указаны ссылки на различные страницы, роботы Google смогут обнаружить большую часть из них. Свяжите самые важные его разделы корректным образом, и тогда перейти к ним можно будет разными способами: как через меню сайта, так и по ссылкам на ваших страницах. В то же время с помощью файла Sitemap можно оптимизировать сканирование крупных или сложных сайтов, а также специализированных файлов.

В каких случаях вам может потребоваться файл Sitemap

  • Размер сайта очень велик. Это может привести к тому, что поисковые роботы Google пропустят недавно созданные или измененные страницы.
  • Сайт содержит большой архив страниц, которые не связаны друг с другом. Чтобы они были успешно просканированы, их можно перечислить в файле Sitemap.
  • Сайт создан недавно, и на него указывает мало внешних ссылок. Робот Googlebot и другие поисковые роботы сканируют Интернет, переходя по ссылкам с одной страницы на другую. Если на сайт указывает мало ссылок, его будет сложно найти.
  • Сайт содержит большой объем мультимедийного (видео и изображения) или новостного контента. Из файлов Sitemap поисковая система может получать дополнительную информацию для показа в результатах поиска.

В каких случаях вам не требуется файл Sitemap

Как создать файл Sitemap

Если вы пришли к выводу, что файл Sitemap принесет пользу вашему сайту, прочитайте статью о том, как создать такой файл.

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.


Карта сайта (Sitemap) – это специальный файл в формате .xml, хранящийся в корневой директории сервера. Владельцы сайтов нередко интересуются – зачем нужен Sitemap и влияет ли наличие/отсутствие этого документа на поисковое продвижение? Чтобы ответить на эти вопросы, рассмотрим назначение и структуру карты сайта.

Итак, зачем нужен xml Sitemap, что он собой представляет? Карта сайта – это своеобразный каталог, состоящий из перечня ссылок, ведущих на все разделы и страницы сайта. Файл Sitemap помогает поисковым системам более быстро и качественно индексировать интернет проект. Это особенно важно в том случае, если объем web-ресурса исчисляется тысячами или десятками тысяч страниц.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA


Это важно! В карту сайта следует включать только те страницы, которые должны быть в поисковом индексе. Документы с запрещенной к индексированию или служебной информацией не следует вносить в Sitemap. В карту сайта также не включают страницы с тегами и динамические URL-адреса.

Влияет ли Sitemap на продвижение?

Поисковики не будут пессимизировать интернет проект за отсутствие этого файла. Теоретически, робот должен самостоятельно просканировать все страницы сайта и включить их в поиск. Однако нужно учитывать, что система может дать сбой и не найти некоторые web-документы. Обычно «проблемными местами» становятся разделы, в которые можно попасть только по длинной цепочке ссылок, и динамически создаваемые URLы.

С точки зрения SEO, Sitemap имеет определенное влияние, поскольку карта сайта значительно ускоряет индексацию. К тому же повышается вероятность, что web-страницы попадут в индекс до того, как недобросовестные конкуренты успеют скопировать и опубликовать контент. Поисковые системы отдают предпочтение первоисточнику, тогда как копипаст подвергается пессимизации.

Как создать сайт мап

Файл sitemap xml – доступные директивы

  • Параметр Lastmod указывает роботу, когда документ последний раз обновлялся.
  • Тег priory указывает на приоритет документа, по отношению к другим страницам сайта.
  • Параметром loc обозначают URL адрес страницы.
  • Тег changefreq используется для обозначения динамичности страниц (документы с параметром «0» робот будет посещать очень редко).

Как сообщить поисковику о карте сайта

Чтобы оповестить Яндекс, можно добавить директиву sitemap в файл robots.txt. Код будет выглядеть следующим образом:

Кроме того, можно передать карту сайта через интерфейс Яндекс.Вебмастер. Для этого нужно перейти на вкладку «Настройка индексирования» >> «файлы Sitemap», а затем указать системе адрес карты сайта.

Аналогичным образом можно оповестить Google. В панели инструментов для вебмастеров нужно перейти на вкладку «Сканирование» >> «файлы Sitemap».


Получите профессиональный взгляд со стороны на свой проект

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

В этом документе приведено описание XML-схемы протокола Sitemap.

Формат протокола Sitemap состоит из XML-тегов. Для всех значений данных в файле Sitemap должно использоваться маскирование. В файле необходимо использовать кодировку UTF-8.

  • В начале поставьте открывающий тег <urlset> , а в конце поставьте закрывающий тег </urlset> .
  • Укажите область имен (стандарт протокола) в теге <urlset> .
  • Включите запись <url> для каждого URL-адреса как родительский тег XML.
  • Включите дочернюю запись <loc> для каждого родительского тега <url> .

Все теги необязательны. Поддержка необязательных тегов может отличаться в зависимости от поискового сервера. Чтобы получить более подробную информацию, обратитесь к документации поискового сервера.

Пример XML-файла Sitemap

Ниже приведен пример файла Sitemap, в котором содержится только один URL-адрес и использованы все необязательные теги. Необязательные теги выделены курсивом.

Определения XML-тегов

Ниже описаны доступные XML-теги.

Инкапсулирует этот файл и указывает стандарт текущего протокола.

Родительский тег для каждой записи URL-адреса. Остальные теги являются дочерними для этого тега.

Дата последнего изменения файла. Эта дата должна быть в формате W3C Datetime. Этот формат позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД.

Обратите внимание, что этот тег не имеет отношения к заголовку "If-Modified-Since (304)", который может вернуть сервер, поэтому поисковые системы могут по-разному использовать информацию из этих двух источников.

Вероятная частота изменения этой страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать точно частоте сканирования этой страницы. Допустимые значения:

Значение"всегда" должно использоваться для описания документов, которые изменяются при каждом доступе к этим документам. Значение "никогда" должно использоваться для описания архивных URL-адресов.

Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой "ежечасно" менее часто, чем указано, а страницы с пометкой "ежегодно" – более часто, чем указано. Сканеры могут периодически сканировать страницы с пометкой "никогда", чтобы отслеживать неожиданные изменения на этих страницах.

Приоритетность URL относительно других URL на Вашем сайте. Допустимый диапазон значений — от 0,0 до 1,0. Это значение не влияет на процедуру сравнения Ваших страниц со страницами на других сайтах — оно только позволяет указать поисковым системам, какие страницы, по Вашему мнению, более важны для сканеров.

Приоритет страницы по умолчанию — 0,5.

Следует учитывать, что приоритет, который Вы назначили странице, не влияет на положение Ваших URL на страницах результатов той или иной поисковой системы. Поисковые системы используют эту информацию при обработке URL, которые относятся к одному и тому же сайту, поэтому можно использовать этот тег для увеличения вероятности присутствия в поисковом индексе Ваших самых важных страниц.

Кроме того, следует учитывать, что назначение высокого приоритета всем URL на Вашем сайте не имеет смысла. Поскольку приоритетность – величина относительная, этот параметр используется для того, чтобы определить очередность обработки URL в пределах сайта.

Маскирование символов

В файле Sitemap должна использоваться кодировка UTF-8 (обычно ее можно выбрать при сохранении данного файла). В XML-файлах для всех значений данных (включая URL-адреса) должно использоваться маскирование символов, перечисленных ниже в таблице.

Символ Маскирование
Амперсанд & &amp;
Одинарные кавычки ' &apos;
Двойные кавычки " &quot;
Больше > &gt;
Меньше &lt;

Кроме того, для всех URL (включая URL из вашего файла Sitemap) должны использоваться маскирование и кодировка для удобочитаемости веб-сервером, на котором они размещаются. Однако, если для создания своих URL Вы используете какой-либо вид скрипта, инструментального средства или журнала (любой способ кроме ввода их вручную), то маскировка и кодировка применяются автоматически. Убедитесь в том, что все URL-адреса соответствуют стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI и XML-стандарту.

Ниже приведен пример URL-адреса, в котором используется символ, отличный от ASCI ( ü ), а также символ, для которого необходимо маскирование ( & ):

Ниже этот же URL-адрес приведен в кодировке ISO-8859-1 (для размещения на сервере, который использует эту кодировку) с маскированием:

Ниже этот же URL-адрес приведен в кодировке UTF-8 (для размещения на сервере, который использует эту кодировку) и с использованием маскирования:

Ниже приведен тот же URL-адрес, но с использованием маскирования:

Пример XML-файла Sitemap

В следующем примере показан файл Sitemap в XML-формате. Sitemap в этом примере содержит небольшое число URL-адресов, каждый из которых использует разное сочетание необязательных параметров.

Использование файлов индекса Sitemap (для создания группы из нескольких файлов Sitemap)

Можно предоставить несколько файлов Sitemap, однако в каждом из этих файлов должно быть не более 50000 URL, а размер каждого из этих файлов не должен превышать 50 МБ. При необходимости файл Sitemap можно сжать с помощью архиватора gzip, чтобы уменьшить требования к пропускной способности канала. Однако размер файла sitemap без сжатия не должен превышать 50 МБ. Если необходимо перечислить более 50000 URL-адресов, следует создать несколько файлов Sitemap.

Если требуется передать несколько файлов Sitemap, необходимо перечислить каждый из этих файлов в файле индекса Sitemap. В файле индекса Sitemap может быть перечислено не более 50000 файлов Sitemap. Размер этого файла не должен превышать 50 МБ (52 428 800 байт) и может быть сжат. У вас может быть несколько файлов Sitemap. Формат XML-файла индекса Sitemap очень похож на формат XML-файла Sitemap.

Файл индекса Sitemap должен:

  • В начале поставьте открывающий тег <sitemapindex> , а затем поставьте закрывающий тег </sitemapindex> .
  • Добавьте запись <sitemap> для каждого файла Sitemap как родительский XML-тег.
  • Включите дочернюю запись <loc> для каждого родительского тега <sitemap> .

Необязательный тег <lastmod> также доступен для файлов индекса Sitemap.

Пример индекса XML Sitemap

В следующем примере показан файл индекса Sitemap, который содержит два файла Sitemaps.

Примечание: для URL-адресов Sitemap, как и для всех значений в XML-файлах, должно использоваться маскирование .

Определения XML-тегов индекса Sitemap

Указывает местоположение файла Sitemap.

Этим местоположением может быть файл Sitemap, файл Atom, файл RSS или простой текстовый файл.

Указывает время изменения соответствующего файла Sitemap. Не соответствует времени изменения ни одной из страниц в этом файле Sitemap. Значение тега "lastmod" должно быть представлено в формате W3C Datetime.

Предоставляя отметку времени последнего изменения, Вы позволяете сканерам поисковой системы извлекать только часть файлов Sitemap в индексе, то есть сканер может извлекать только те файлы Sitemap, которые были изменены после определенной даты. Этот механизм частичного извлечения файлов Sitemap позволяет быстро обнаруживать новые URL на сайтах больших размеров.

Другие форматы файла Sitemap

Протокол Sitemap дает возможность обеспечить поисковые системы подробной информацией о страницах, и мы рекомендуем его использовать, поскольку при этом можно указать дополнительные сведения о страницах сайта, а не только их URL. Помимо протокола XML мы также поддерживаем каналы RSS и текстовые файлы, которые предоставляют более ограниченную информацию.

Канал синдикации

Вы можете предоставить канал RSS 2.0, Atom 0.3 или 1.0. Как правило, этот формат используется только в том случае, если на сайте уже есть канал синдикации. Обратите внимание, что в этом случае поисковые системы, возможно, не получат информацию обо всех URL на вашем сайте, поскольку данный канал предоставляет информацию только по последним URL. Однако поисковые системы могут использовать эту информацию, чтобы обнаружить другие страницы сайта, переходя по ссылкам на страницах канала в процессе обычного сканирования. Убедитесь, что канал расположен в каталоге самого высокого уровня, который должен сканироваться поисковой системой. Поисковые системы извлекают информацию из канала следующим образом.

  • поле <link> – указывает URL
  • поле даты изменения (поле <pubDate> для каналов RSS и дата <обновления> для каналов Atom) – указывает, когда каждый URL был изменен в последний раз. Использовать поле даты изменения необязательно.

Текстовый файл

Вы можете предоставить простой текстовый файл, содержащий один URL в строке. Этот текстовый файл должен соответствовать следующим требованиям.

Ниже приведен пример строк текстового файла.

Местоположение файла Sitemap

Файлы Sitemap и перекрестная отправка

Проверка файла Sitemap

Для определения элементов и атрибутов, которые могут появляться в Вашем файле Sitemap, используются следующие XML-схемы. Эту схему можно загрузить с помощью приведенных ниже ссылок.

Ряд инструментов может помочь при проверке структуры файла Sitemap на основе этой схемы. Вы можете найти список инструментов для работы с XML-файлами в каждом из следующих местоположений:

Для проверки Вашего файла Sitemap или файла индекса Sitemap по этой схеме в XML-файл нужно добавить дополнительные заголовки, как показано ниже.

Sitemap:

Файл индекса Sitemap:

Расширение протокола Sitemaps

Протокол Sitemap можно расширить с помощью Вашего собственного пространства имен. Просто укажите это пространство имен в корневом элементе. Например:

Уведомления для сканеров поисковых систем

После того как файл Sitemap создан и размещен на веб-сервере, необходимо сообщить о местонахождении этого файла поисковым системам, поддерживающим этот протокол. Это можно сделать следующим образом.

Затем поисковые системы смогут извлечь файл Sitemap и разрешить своим сканерам доступ к URL-адресам.

Передача файла Sitemap с помощью интерфейса поисковой системы

Как указать местоположение файла Sitemap в файле robots.txt

Можно указать местоположение файла Sitemap, используя файл robots.txt. Для этого просто добавьте следующую строку:

Эта инструкция не зависит от строки агента пользователя, поэтому неважно, где она размещается в файле. При наличии файла индекса Sitemap можно включить местоположение только этого файла. Перечислять каждый отдельный файл Sitemap, указанный в файле индекса, не нужно.

Можно указать несколько файлов Sitemap для каждого файла robots.txt.

Добавьте кодировку URL для всех символов после /ping?sitemap=:

Читайте также: