Настройка файла robots txt для joomla

Обновлено: 04.07.2024

Посмотрите видео по настройке и создайте идеальный файл robots .txt, открыв свой сайт на Joomla 3.x для поисковых роботов и пользователей из поисковой выдачи.

Содержание

Для чего нужен robots.txt?

Одной из важных задач в SEO-оптимизации является открытие своего сайта для роботов поисковых систем.

Представьте: вы решили продать квартиру, но всеми силами не пускаете туда покупателей, а только позволяете посмотреть в замочную скважину. Что они там увидят? Как смогут оценить подходит им ваша квартира или нет?

Поэтому в первую очередь для того, чтобы поисковые роботы видели наш сайт так же, как видят его пользователи нужно, обеспечить им доступ к сканированию с помощью файла robots.txt .

Файл robots.txt позволяет управлять сканированием страниц сайта поисковыми роботами.

К сожалению, по умолчанию, если мы ничего не делаем с файлом robots.txt для сайта на Joomla, то мы разрешаем поисковым роботам именно подглядывать в щелку и, как следствие, получаем посредственный результат.

Работы на несколько минут, но многие терпят годами и ругаются на плохие результаты продвижения сайта на Joomla.

Стандартный robots.txt в Joomla

Мало кто знает, что в стандартном файле robots.txt в Joomla до версии 3.3 поисковые роботы не видят изображений, не понимают оформления сайта и могут не видеть части контента, а иногда и вовсе не смогут переходить по сквозным ссылкам из меню.

Начиная с Joomla 3.3 разработчики изменили файл robots.txt и это похвально, но

при обновлении Джумла с предыдущей версии данный файл не перезаписывается автоматически
всё равно требуется его небольшая доработка

Правильный robots.txt для Joomla

Посмотрите видео по настройке и создайте идеальный файл robots.txt, открыв свой сайт для поисковых роботов и пользователей из поисковой выдачи:

Это была первая фишка в SEO-оптимизации Joomla. С помощью файла robots.txt также можно успешно удалять дубли страниц, которые не любят поисковые системы, но это отдельная тема, требующая погружения.

Тема настройки файла robots.txt в видеоформате максимально детально освещена в основном курсе по Joomla!. Хотите прочитать позднее, сохраните к себе на стену в социальной сети или просто поделитесь с друзьями.

Всё о Joomla в одном месте

Последняя версия
Joomla ! — 3.9.18
(от 21.04.2020)

Joomla.center is not affiliated with or endorsed by the Joomla! Project or Open Source Matters. The Joomla! name and logo is used under a limited license granted by Open Source Matters the trademark holder in the United States and other countries.

Joomla!® является торговой маркой компании Open Source Matters inc в США и др. странах. Название Joomla! и его вариации используются в рамках ограниченной лицензии, определённой компанией Open Source Matters. Проект joomla.center не относится к компании Open Source Matters или проекту Joomla! Точки зрения представленные на данном сайте не являются официальными точками зрения Joomla Project или Open Source Matters. Торговая марка Joomla® и логотип используются в рамках ограниченной лицензии, предоставленной Open Source Matters.

И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.

Давайте рассмотрим основные директивы и правила этого файла.

Директивы и правила написания файла robots.txt.

Файл начинается с наиболее важной директивы -User-agent – она содержит название поискового робота. Для всех поисковых роботов - User-agent: *, а для Яндекса добавляем в User-agent название Yandex - User-agent: Yandex.

Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.

Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.

Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).

И последняя важная директива - Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.

Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.

Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Robots.txt – это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем. В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS.

Зачем нужен robots.txt

Как я уже говорил выше – с помощью файла robots.txt мы можем ограничить доступ поисковых ботов к документам, т.е. мы напрямую влияем на индексацию сайта. Чаще всего закрывают от индексации:

Служебные файлы и папки CMS
Дубликаты
Документы, которые не несут пользу для пользователя
Не уникальные страницы

Разберем конкретный пример:

Директивы robots.txt и правила настройки

User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «YandexMedia», то общие директивы user-agent не используются для него. Пример написания:

Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую). Знак доллара означает прерывание. Примеры использования:

Директива Sitemap. Если вы используете карту сайта (sitemap.xml) – то в robots.txt она должна указываться так:

Директива Host. Как вам известно у сайтов есть зеркала (читаем, Как склеить зеркала сайта). Данное правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:

Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow/Allow.

Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно дублирующую информацию (идентификаторы сессий, рефереров, пользователей). Прописывать Clean-param следует для динамических страниц:

Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:

Мета-тег robots и как он прописывается

Данный вариант запрета страниц лучше учитывается поисковой системой Google. Яндекс одинаково хорошо учитывает оба варианта.

Директив у него 2: follow/nofollow и index/noindex. Это разрешение/запрет перехода по ссылкам и разрешение/запрет на индексацию документа. Директивы можно прописывать вместе, смотрим пример ниже.

Для любой отдельной страницы вы можете прописать в теге <head> </head> следующее:

Правильные файлы robots.txt для популярных CMS

Пример Robots.txt для WordPress

Ниже вы можете увидеть мой вариант с данного Seo блога.

Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).

Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.

Теги закрываем, если мы их не используем или нам лень их оптимизировать.

Примеры для других CMS

Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке.

Как проверить корректность работы файла

Анализ robots.txt в Яндекс Вебмастере – тут.

Читайте также: