Доступ к отправленному url заблокирован в файле robots txt как исправить

Обновлено: 06.07.2024

Вот очередное подтверждение аксиомы никогда не слушать мнения дилетантов от SEO. Здесь уже разработчик Impera CMS допустил оплошность, слепо добавив в robots.txt несколько неадекватных инструкций, не проверив перед этим, от SEO-шников какого уровня квалификации получены данные строки.

Речь идёт об инструкциях с шаблонным символом * , обозначающим некий набор знаков. Как Google понимает такой символ, так и Яндекс тоже его понимает. Однако инструкции с подобным символом должны применяться осторожно, с оглядкой на то, что менеджеры CMS-ок имеют возможность задавать страницам произвольные адреса. Ещё лучше - вообще не применяться, поскольку менеджеру позволено самостоятельно добавить в robots.txt любые инструкции, какие он считает правильными в условиях адресного пространства его сайта.

Удалите следующие строки, которые помечены ниже таким цветом . Дополнительным цветом помечены строки, блокирующие индексацию изображений, используемых в дизайне сайта.

В следующем обновлении движка указанные изменения будут внесены в файл robots.txt.

Пока нет комментариев. Будьте первым - напишите ваши соображения по материалу, изложенному выше.

Написать комментарий Ответить на выделенный комментарий

Начнём?

Если у вас есть соображение по поводу изложенного выше материала или следуемого за ним обсуждения, вы можете высказать свою мысль прямо сейчас. Понадобится пройти всего 2 шага: написать комментарий, указать своё имя.

Начать » шаг 1 из 2

Допустимые теги

При написании комментария вы можете использовать некоторые из так называемых BB-кодов. Они обозначают подстановку определённого элемента на их место.

опционально парные:

[shot=image-url] ALT text [/shot]
[link=page-url] anchor text [/link]

[quote] comment fragment [/quote]
[code] source code fragment [/code]

[youtube=video-url]

« и »

Как вас назвать Защитный код

Обратите внимание

С целью точнее идентифицировать вас перед другими участниками обсуждения, сайт может высвечивать возле вашего имени две первые цифры вашего IP-адреса, название провайдера и город, опознанные по базе географической привязки IP-адресов.

Доброго времени суток. Наблюдаю странную ситуацию. Вчера добавил новый сайт в панель вебмастера гугла, после загрузки карты сайта (sitemap.xml) появились предупреждение - Доступ к URL заблокирован в файле robots.txt. Ругается на все адреса, что указаны в карте, как будто сайт полностью заблокирован.

Вот мой robots.txt:

Как видите, сайт полностью открыт для сканирования. Ну и чего ему не нравится?!

Darksnow, команды allow в принципе не существует, разрешающая директива как бы по умолчанию на всё к чему есть доступ.

desertFox, может глюк, а может лишние непечатные символы распознал. уберите "Disallow:" вообще и посмотрите что скажет валидатор robots.txt

Цитата
desertFox, может глюк, а может лишние непечатные символы распознал. уберите "Disallow:" вообще и посмотрите что скажет валидатор robots.txt

когда проверяю урлы на доступность в разделе "Инструмент проверки файла robots.txt" пишет "ДОСТУПЕН", а в разделе "Файлы Sitemap" пишет что все урлы закрыты в robots.txt

Пройдет за пару дней, это просто левый текст про роботс выводится не в тему, у меня точно так же было с новым сайтом. Беспокоиться не о чем.

какие ещё плагины?!)) у меня самопис, сам его сделал, есть ещё три аналогичных самописа - никаких проблем с картой сайта не возникало

Цитата
Sasha Minsky пишет: Пройдет за пару дней, это просто левый текст про роботс выводится не в тему, у меня точно так же было с новым сайтом. Беспокоиться не о чем.

вот и я думаю что глюк какой-то, но всё равно беспокоюсь, на гугле на форуме задал этот же вопрос, у меня только попросили дать ссылку на сайт и пока тишина, пока никто объяснил почему эти предупреждения появились, а роботс настроен нормально ибо подобный уже используется на трёх сайтах более 2-х лет и никаких проблем

сейчас наблюдаю, что страницы сайта потихоньку начали входить в индекс, всего сутки прошли, специально сам в индекс не загонял, просто интересно стало повлияют ли эти глюченные предупреждения на индексацию или нет, ну вроде пока не влияют

Добавлено (10 Май 2015, 08:42:43)
---------------------------------------------
$Vladimir$, так что мне делать? домен домен я поменял уже месяца два назад. до этого посещаемость была 4000, после смены домена очень упала и щас вот такое ..

может поставить robots.txt вида:
User-agent: *
Disallow:

Согласно данным системы домен вы сменили 2015-04-14.

Также на страницах встречаются ссылки на старый домен, который закрыт от индексации
пример со страницы Доступно только для пользователей

$Vladimir$, так, выходит, сайт из-за этого так тупит? из-за старых ссылок? или что мне ещё нужно сделать, чтоб он поскорее восстановил трафик? подскажите, пожалуйста

vanovoevoda, вы закрыли старый домен к индексации поэтому медленнее все идет. в яндексе задержка из-за поломки зеркальщика. в гугле и яндексе из-за того, что вы закрыли к индексации стандартный домен
что у вас тупит? на переиндексацию надо около двух месяцев, на полную склейку может уйти чуть больше в вашем случае. вы наделали ошибок, не дождались даже месяца и у вас все тупит?
роботс менять не стоит. если что-то важное заблокировано в роботсе, то гугл выдаст список заблокированного
если список есть предъявите его, но не на картинке на которой ничего не видно, нужны списки конкретных урлов

webanet, так а почему Заблокировано в файле robots.txt аж 8500 ? или что это такое?

Добавлено (10 Май 2015, 20:01:29)
---------------------------------------------
webanet, может, мне поставить галочку для индексации обеих доменов? или уже смысла нет?

Добавлено (10 Май 2015, 21:46:55)
---------------------------------------------
Да и уберите кликандер - убъете сайт

barocha69, понятно. я поубирал уже ссылки те на .at.ua, просто я не думал, что это так влияет на индексацию. дизайн сам делал.

Добавлено (10 Май 2015, 22:57:52)
---------------------------------------------
barocha69, я ещё сглупил, что не поставил поначалу индексацию по обеим доменам. придурь бл..

так а почему Заблокировано в файле robots.txt аж 8500 ? или что это такое?

webanet, ссылки пустые в роботс запретил, теги внизу удалил. посмотрим. спасибо.

а вот ещё: может мне всё же поставить индексацию по обеим доменам? или уже пусть так будет? как лучше?

Добавлено (11 Май 2015, 02:58:24)
---------------------------------------------
webanet, я в роботс правильно запретил ссылки?

Добавлено (11 Май 2015, 03:06:53)
---------------------------------------------
webanet, создал и загрузил роботс файл такой же как системный, только добавил ещё пару своих ссылок.

Файлы Robots.txt — это инструмент, ограничивающий для сканеров поисковых систем доступ к определенным страницам сайта. В этой статье мы поделимся рекомендациями, касающиеся файла robots.txt.

Что такое файл Robots.txt?

Файл robots.txt сообщает поисковым роботам, какие веб-страницы сайта они могут просматривать. Бот поисковой системы (например, Googlebot) читает файл robots.txt перед началом сканирования вашего сайта, чтобы узнать, с какими веб-страницами он должен работать.

Вот так выглядит файл robots.txt.

Когда боты и другие сканеры попадают на сайт, они могут использовать большой объем серверных мощностей. Это может замедлить ваш сайт. Robots.txt решает эту проблему.

Ниже приведен пример файла Robots.txt от Google , в котором для Googlebot заблокирован доступ к определенным каталогам, разрешен доступ к /directory2/subdirectory1/. Но для других сканеров заблокирован весь сайт.

Пользовательские агенты перечислены в «группах». Каждая группа указана в отдельных строках по типу сканера. Она содержит перечень файлов, к каким он может и не может получить доступ.

Почему файлы Robots.txt важны?

Информирование поискового сканера о том, какие страницы сайта нужно сканировать, а какие нет, позволяет лучше контролировать краулинговый бюджет сайта, направляя поисковых роботов к наиболее важным его страницам.

Файла robots.txt также позволяет избежать перегрузки сервера сайта разнообразными запросами. Например, в приведенном выше примере robots.txt есть файлы, которые хранятся в папке /cgi-bin. Их блокировка в Robots.txt дает сканерам понять, что в этой папке нет ресурсов, которые нужно индексировать.

Предупреждение: веб-страницы, заблокированные в robots.txt, могут отображаться в результатах поиска Google , но без описания.

Чтобы предотвратить отображение URL-адреса в результатах поиска Google, необходимо защитить файлы на сервере паролем, использовать метатег noindex или заголовок ответа.

Если веб-страницы заблокированы для сканирования в robots.txt, то любая информация об индексировании или служебных директивах не будет найдена и будет игнорироваться.

Поисковым роботам следует разрешить сканировать важные ресурсы, необходимые для отображения содержимого страниц сайта.

Как работать с атрибутами Noindex

Google не рекомендует добавлять в файл robots.txt директиву noindex, потому что она будет игнорироваться. Вместо этого используйте одно из следующих решений:

1. Метатег Robots: <meta name=«robots» content=«noindex» />

Приведенный выше пример тега указывает поисковым системам не показывать веб-страницу в результатах поиска. Значение атрибута name= «robots» указывает, что директива применяется ко всем сканерам. Чтобы обратиться к определенному сканеру, замените значение robots атрибута name на имя сканера.

Совет: данный метатег должен указываться в разделе <head>. Если нужно заблокировать определенные страницы сайта от сканирования или индексации, используйте директиву no index .

Чтобы использовать одновременно несколько директив, их нужно указать через запятую.

14 распространенных проблем с Robots.txt

1. Отсутствует файл Robots.txt

Возможная причина проблемы: Файла robots.txt повышает уровень контроля над контентом и файлами сайта, которые может сканировать и индексировать поисковый бот. Его отсутствие означает, что Google будет индексировать весь контент сайта.

2. Добавление строк Disallow для блокировки конфиденциальной информации

Добавление строки Disallow в файл robots.txt также представляет собой угрозу безопасности. Так как определяет, где хранится закрытый от пользователей контент.

В чем проблема: Используйте проверку подлинности на стороне сервера, чтобы заблокировать доступ к личному контенту.

3. Добавление Disallow для предотвращения дублирования контента

Сайты должны быть просканированы, чтобы определить их канонический индекс. Не блокируйте содержимое с помощью robots.txt вместо canonical.

В чем проблема: В некоторых CMS достаточно сложно добавлять пользовательские теги canonical. В этом случае можно попробовать другие методы.

4. Добавление Disallow для кода, размещенного на стороннем сайте

Чтобы удалить контент со стороннего сайта, вам необходимо связаться с его владельцем.

В чем проблема: Это может привести к ошибке, когда сложно определить исходный сервер для конкретного контента.

5. Использование абсолютных URL-адресов

Директивы в файле robots.txt (за исключением «Sitemap:») действительны только для относительных путей.

В чем проблема: Сайты с несколькими подкаталогами могут использовать абсолютные адреса, но действительны только относительные URL.

6. Robots.txt размещен не в корневой папке сайта

Файл Robots.txt должен быть размещен в самом верхнем каталоге сайта.

В чем проблема: Не помещайте файл robots.txt в какую-либо другую папку.

7. Обслуживание разных файлов Robots.txt

Не рекомендуется обслуживать различные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

В чем проблема: сайты всегда должны использовать один и тот же файл robots.txt для международной аудитории.

8. Добавлена директива для блокировки всего содержимого сайта

Часто владельцы сайтов оставляют файл robots.txt, который может содержать строку disallow, блокирующую все содержимое сайта.

В чем проблема: Это происходит, когда на сайте используется версия robots.txt по умолчанию.

9. Добавление ALLOW вместо DISALLOW

На сайтах не обязательно указывать директиву allow. Директива allow позволяет переопределять директивы disallow в том же файле robots.txt.

В чем проблема: В случаях, когда директивы disallow похожи, использование allow может помочь в добавлении нескольких атрибутов, чтобы их различать.

10. Неверное расширение типа файла

В разделе справки Google Search Console рассказывается, как создавать файлы robots.txt . После того, как вы создали этот файл, можно будет проверить его с помощью тестера robots.txt .

В чем проблема: Файл должен иметь расширение .txt и создаваться в кодировке UTF-8.

11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать

Запрет на сканирование веб-страниц может привести к их удалению из индекса Google.

В чем проблема: При добавлении перед именем папки звездочки (*) это может означать что-то промежуточное. Когда она добавлена после, это указывает на необходимость заблокировать все, что включено в URL-адрес после /.

12. Блокировка доступа ко всему сайту во время разработки

В чем может быть проблема: При перемещении сайта или массовых обновлениях robots.txt может быть пустым по умолчанию для блокировки всего сайта. В данном случае он должен оставаться на месте и не быть удален во время технического обслуживания.

13. Написание директив заглавными или прописными буквами

Директивы в файле robots.txt являются чувствительными к регистру.

В чем проблема: Некоторые CMS автоматически устанавливают URL-адреса для отображения содержимого файла robots.txt в верхнем и нижнем регистре. Директивы должны соответствовать фактической структуре URL-адресов со статусом 200.

14. Использование кодов состояния сервера (например, 403) для блокировки доступа

В чем проблема: при перемещении сайта robots.txt может оказаться пустым или удаленным. Рекомендуется, чтобы он оставался на месте и не был удален во время технического обслуживания.

Как проверить, используется ли сайте X-Robots-Tag?

Чтоб проверить заголовки сервера, используйте инструмент просмотреть как робот Google в Search Console.

Заключение

Проверьте весь сайт, чтобы определить веб-страницы, которые следует заблокировать с помощью директив disallow. Убедитесь в том, что на сайте не используется автоматическое перенаправление и не изменяется файл robots.txt. Оцените эффективность сайта до и после изменений.

Пожалуйста, оставляйте свои отзывы по текущей теме материала. За комментарии, лайки, отклики, дизлайки, подписки низкий вам поклон!

Читайте также:

Доступ к отправленному url заблокирован в файле robots txt как исправить

Написать комментарий Ответить на выделенный комментарий

Начнём?

Допустимые теги

Обратите внимание

Что такое файл Robots.txt?

Почему файлы Robots.txt важны?

Рекомендованные практики Google для файлов Robots.txt

1. Блокировать определенные веб-страницы

2. Медиа-файлы

3. Файлы ресурсов

Как работать с атрибутами Noindex

1. Метатег Robots: <meta name=«robots» content=«noindex» />

14 распространенных проблем с Robots.txt

1. Отсутствует файл Robots.txt

2. Добавление строк Disallow для блокировки конфиденциальной информации

3. Добавление Disallow для предотвращения дублирования контента

4. Добавление Disallow для кода, размещенного на стороннем сайте

5. Использование абсолютных URL-адресов

6. Robots.txt размещен не в корневой папке сайта

7. Обслуживание разных файлов Robots.txt

8. Добавлена директива для блокировки всего содержимого сайта

9. Добавление ALLOW вместо DISALLOW

10. Неверное расширение типа файла

11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать

12. Блокировка доступа ко всему сайту во время разработки

13. Написание директив заглавными или прописными буквами

14. Использование кодов состояния сервера (например, 403) для блокировки доступа

Как проверить, используется ли сайте X-Robots-Tag?

Заключение

Доступ к отправленному url заблокирован в файле robots txt как исправить

Написать комментарий Ответить на выделенный комментарий

Начнём?

Допустимые теги

Обратите внимание

Что такое файл Robots.txt?

Почему файлы Robots.txt важны?

Рекомендованные практики Google для файлов Robots.txt

1. Блокировать определенные веб-страницы

2. Медиа-файлы

3. Файлы ресурсов

Как работать с атрибутами Noindex

1. Метатег Robots: <meta name=«robots» content=«noindex» />

14 распространенных проблем с Robots.txt

1. Отсутствует файл Robots.txt

2. Добавление строк Disallow для блокировки конфиденциальной информации

3. Добавление Disallow для предотвращения дублирования контента

4. Добавление Disallow для кода, размещенного на стороннем сайте

5. Использование абсолютных URL-адресов

6. Robots.txt размещен не в корневой папке сайта

7. Обслуживание разных файлов Robots.txt

8. Добавлена ​​директива для блокировки всего содержимого сайта

9. Добавление ALLOW вместо DISALLOW

10. Неверное расширение типа файла

11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать

12. Блокировка доступа ко всему сайту во время разработки

13. Написание директив заглавными или прописными буквами

14. Использование кодов состояния сервера (например, 403) для блокировки доступа

Как проверить, используется ли сайте X-Robots-Tag?

Заключение

8. Добавлена директива для блокировки всего содержимого сайта