Доступ к отправленному url заблокирован в файле robots txt как исправить

Обновлено: 06.07.2024

Вот очередное подтверждение аксиомы никогда не слушать мнения дилетантов от SEO. Здесь уже разработчик Impera CMS допустил оплошность, слепо добавив в robots.txt несколько неадекватных инструкций, не проверив перед этим, от SEO-шников какого уровня квалификации получены данные строки.

Речь идёт об инструкциях с шаблонным символом * , обозначающим некий набор знаков. Как Google понимает такой символ, так и Яндекс тоже его понимает. Однако инструкции с подобным символом должны применяться осторожно, с оглядкой на то, что менеджеры CMS-ок имеют возможность задавать страницам произвольные адреса. Ещё лучше - вообще не применяться, поскольку менеджеру позволено самостоятельно добавить в robots.txt любые инструкции, какие он считает правильными в условиях адресного пространства его сайта.

Удалите следующие строки, которые помечены ниже таким цветом . Дополнительным цветом помечены строки, блокирующие индексацию изображений, используемых в дизайне сайта.

В следующем обновлении движка указанные изменения будут внесены в файл robots.txt.

Пока нет комментариев. Будьте первым - напишите ваши соображения по материалу, изложенному выше.

Написать комментарий Ответить на выделенный комментарий

Начнём?

Если у вас есть соображение по поводу изложенного выше материала или следуемого за ним обсуждения, вы можете высказать свою мысль прямо сейчас. Понадобится пройти всего 2 шага: написать комментарий, указать своё имя.

Начать » шаг 1 из 2

Допустимые теги

При написании комментария вы можете использовать некоторые из так называемых BB-кодов. Они обозначают подстановку определённого элемента на их место.

  • опционально парные:
    • [shot=image-url] ALT text [/shot]
    • [link=page-url] anchor text [/link]
    • [quote] comment fragment [/quote]
    • [code] source code fragment [/code]
    • [youtube=video-url]
    • « и »


    Как вас назвать Защитный код

    Обратите внимание

    С целью точнее идентифицировать вас перед другими участниками обсуждения, сайт может высвечивать возле вашего имени две первые цифры вашего IP-адреса, название провайдера и город, опознанные по базе географической привязки IP-адресов.

    Доброго времени суток. Наблюдаю странную ситуацию. Вчера добавил новый сайт в панель вебмастера гугла, после загрузки карты сайта (sitemap.xml) появились предупреждение - Доступ к URL заблокирован в файле robots.txt. Ругается на все адреса, что указаны в карте, как будто сайт полностью заблокирован.

    Вот мой robots.txt:

    Как видите, сайт полностью открыт для сканирования. Ну и чего ему не нравится?!

    Darksnow, команды allow в принципе не существует, разрешающая директива как бы по умолчанию на всё к чему есть доступ.

    desertFox, может глюк, а может лишние непечатные символы распознал. уберите "Disallow:" вообще и посмотрите что скажет валидатор robots.txt

    Цитата
    desertFox, может глюк, а может лишние непечатные символы распознал. уберите "Disallow:" вообще и посмотрите что скажет валидатор robots.txt

    когда проверяю урлы на доступность в разделе "Инструмент проверки файла robots.txt" пишет "ДОСТУПЕН", а в разделе "Файлы Sitemap" пишет что все урлы закрыты в robots.txt

    Пройдет за пару дней, это просто левый текст про роботс выводится не в тему, у меня точно так же было с новым сайтом. Беспокоиться не о чем.

    какие ещё плагины?!)) у меня самопис, сам его сделал, есть ещё три аналогичных самописа - никаких проблем с картой сайта не возникало

    Цитата
    Sasha Minsky пишет:
    Пройдет за пару дней, это просто левый текст про роботс выводится не в тему, у меня точно так же было с новым сайтом. Беспокоиться не о чем.

    вот и я думаю что глюк какой-то, но всё равно беспокоюсь, на гугле на форуме задал этот же вопрос, у меня только попросили дать ссылку на сайт и пока тишина, пока никто объяснил почему эти предупреждения появились, а роботс настроен нормально ибо подобный уже используется на трёх сайтах более 2-х лет и никаких проблем

    сейчас наблюдаю, что страницы сайта потихоньку начали входить в индекс, всего сутки прошли, специально сам в индекс не загонял, просто интересно стало повлияют ли эти глюченные предупреждения на индексацию или нет, ну вроде пока не влияют

    Добавлено (10 Май 2015, 08:42:43)
    ---------------------------------------------
    $Vladimir$, так что мне делать? домен домен я поменял уже месяца два назад. до этого посещаемость была 4000, после смены домена очень упала и щас вот такое ..

    может поставить robots.txt вида:
    User-agent: *
    Disallow:


    Согласно данным системы домен вы сменили 2015-04-14.

    Также на страницах встречаются ссылки на старый домен, который закрыт от индексации
    пример со страницы Доступно только для пользователей


    $Vladimir$, так, выходит, сайт из-за этого так тупит? из-за старых ссылок? или что мне ещё нужно сделать, чтоб он поскорее восстановил трафик? подскажите, пожалуйста


    vanovoevoda, вы закрыли старый домен к индексации поэтому медленнее все идет. в яндексе задержка из-за поломки зеркальщика. в гугле и яндексе из-за того, что вы закрыли к индексации стандартный домен
    что у вас тупит? на переиндексацию надо около двух месяцев, на полную склейку может уйти чуть больше в вашем случае. вы наделали ошибок, не дождались даже месяца и у вас все тупит?
    роботс менять не стоит. если что-то важное заблокировано в роботсе, то гугл выдаст список заблокированного
    если список есть предъявите его, но не на картинке на которой ничего не видно, нужны списки конкретных урлов


    webanet, так а почему Заблокировано в файле robots.txt аж 8500 ? или что это такое?

    Добавлено (10 Май 2015, 20:01:29)
    ---------------------------------------------
    webanet, может, мне поставить галочку для индексации обеих доменов? или уже смысла нет?


    Добавлено (10 Май 2015, 21:46:55)
    ---------------------------------------------
    Да и уберите кликандер - убъете сайт


    barocha69, понятно. я поубирал уже ссылки те на .at.ua, просто я не думал, что это так влияет на индексацию. дизайн сам делал.

    Добавлено (10 Май 2015, 22:57:52)
    ---------------------------------------------
    barocha69, я ещё сглупил, что не поставил поначалу индексацию по обеим доменам. придурь бл..


    так а почему Заблокировано в файле robots.txt аж 8500 ? или что это такое?


    webanet, ссылки пустые в роботс запретил, теги внизу удалил. посмотрим. спасибо.

    а вот ещё: может мне всё же поставить индексацию по обеим доменам? или уже пусть так будет? как лучше?

    Добавлено (11 Май 2015, 02:58:24)
    ---------------------------------------------
    webanet, я в роботс правильно запретил ссылки?

    Добавлено (11 Май 2015, 03:06:53)
    ---------------------------------------------
    webanet, создал и загрузил роботс файл такой же как системный, только добавил ещё пару своих ссылок.

    Файлы Robots.txt — это инструмент, ограничивающий для сканеров поисковых систем доступ к определенным страницам сайта. В этой статье мы поделимся рекомендациями, касающиеся файла robots.txt.

    Что такое файл Robots.txt?

    Файл robots.txt сообщает поисковым роботам, какие веб-страницы сайта они могут просматривать. Бот поисковой системы (например, Googlebot) читает файл robots.txt перед началом сканирования вашего сайта, чтобы узнать, с какими веб-страницами он должен работать.

    Вот так выглядит файл robots.txt.

    Что такое файл Robots.txt?

    Когда боты и другие сканеры попадают на сайт, они могут использовать большой объем серверных мощностей. Это может замедлить ваш сайт. Robots.txt решает эту проблему.

    Ниже приведен пример файла Robots.txt от Google , в котором для Googlebot заблокирован доступ к определенным каталогам, разрешен доступ к /directory2/subdirectory1/. Но для других сканеров заблокирован весь сайт.

    Что такое файл Robots.txt? - 2

    Пользовательские агенты перечислены в «группах». Каждая группа указана в отдельных строках по типу сканера. Она содержит перечень файлов, к каким он может и не может получить доступ.

    Почему файлы Robots.txt важны?

    Информирование поискового сканера о том, какие страницы сайта нужно сканировать, а какие нет, позволяет лучше контролировать краулинговый бюджет сайта, направляя поисковых роботов к наиболее важным его страницам.

    Файла robots.txt также позволяет избежать перегрузки сервера сайта разнообразными запросами. Например, в приведенном выше примере robots.txt есть файлы, которые хранятся в папке /cgi-bin. Их блокировка в Robots.txt дает сканерам понять, что в этой папке нет ресурсов, которые нужно индексировать.

    Предупреждение: веб-страницы, заблокированные в robots.txt, могут отображаться в результатах поиска Google , но без описания.

    Почему файлы Robots.txt важны?

    Чтобы предотвратить отображение URL-адреса в результатах поиска Google, необходимо защитить файлы на сервере паролем, использовать метатег noindex или заголовок ответа.

    Если веб-страницы заблокированы для сканирования в robots.txt, то любая информация об индексировании или служебных директивах не будет найдена и будет игнорироваться.

    Поисковым роботам следует разрешить сканировать важные ресурсы, необходимые для отображения содержимого страниц сайта.

    Рекомендованные практики Google для файлов Robots.txt

    1. Блокировать определенные веб-страницы

    Файл Robots.txt можно использовать для блокирования доступа поисковых сканеров к определенным веб-страницам сайта.

    2. Медиа-файлы

    Используйте файл robots.txt для предотвращения отображения в поисковой выдаче изображений, видео и аудио файлов. Но это не помешает другим веб-страницам или пользователям ссылаться на эти ресурсы. Если другие веб-страницы или сайты ссылаются на этот контент, он все равно может появиться в результатах поиска.

    3. Файлы ресурсов

    Используйте robots.txt, чтобы заблокировать второстепенные ресурсы. Но если их отсутствие затрудняет понимание краулером конкретных веб-страниц, то не следует их блокировать.

    Как работать с атрибутами Noindex

    Google не рекомендует добавлять в файл robots.txt директиву noindex, потому что она будет игнорироваться. Вместо этого используйте одно из следующих решений:

    1. Метатег Robots: <meta name=«robots» content=«noindex» />

    Приведенный выше пример тега указывает поисковым системам не показывать веб-страницу в результатах поиска. Значение атрибута name= «robots» указывает, что директива применяется ко всем сканерам. Чтобы обратиться к определенному сканеру, замените значение robots атрибута name на имя сканера.

    Совет: данный метатег должен указываться в разделе <head>. Если нужно заблокировать определенные страницы сайта от сканирования или индексации, используйте директиву no index .

    Чтобы использовать одновременно несколько директив, их нужно указать через запятую.

    14 распространенных проблем с Robots.txt

    1. Отсутствует файл Robots.txt

    Возможная причина проблемы: Файла robots.txt повышает уровень контроля над контентом и файлами сайта, которые может сканировать и индексировать поисковый бот. Его отсутствие означает, что Google будет индексировать весь контент сайта.

    2. Добавление строк Disallow для блокировки конфиденциальной информации

    Добавление строки Disallow в файл robots.txt также представляет собой угрозу безопасности. Так как определяет, где хранится закрытый от пользователей контент.

    В чем проблема: Используйте проверку подлинности на стороне сервера, чтобы заблокировать доступ к личному контенту.

    3. Добавление Disallow для предотвращения дублирования контента

    Сайты должны быть просканированы, чтобы определить их канонический индекс. Не блокируйте содержимое с помощью robots.txt вместо canonical.

    В чем проблема: В некоторых CMS достаточно сложно добавлять пользовательские теги canonical. В этом случае можно попробовать другие методы.

    4. Добавление Disallow для кода, размещенного на стороннем сайте

    Чтобы удалить контент со стороннего сайта, вам необходимо связаться с его владельцем.

    В чем проблема: Это может привести к ошибке, когда сложно определить исходный сервер для конкретного контента.

    5. Использование абсолютных URL-адресов

    Директивы в файле robots.txt (за исключением «Sitemap:») действительны только для относительных путей.

    В чем проблема: Сайты с несколькими подкаталогами могут использовать абсолютные адреса, но действительны только относительные URL.

    6. Robots.txt размещен не в корневой папке сайта

    Файл Robots.txt должен быть размещен в самом верхнем каталоге сайта.

    В чем проблема: Не помещайте файл robots.txt в какую-либо другую папку.

    7. Обслуживание разных файлов Robots.txt

    Не рекомендуется обслуживать различные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

    В чем проблема: сайты всегда должны использовать один и тот же файл robots.txt для международной аудитории.

    8. Добавлена ​​директива для блокировки всего содержимого сайта

    Часто владельцы сайтов оставляют файл robots.txt, который может содержать строку disallow, блокирующую все содержимое сайта.

    В чем проблема: Это происходит, когда на сайте используется версия robots.txt по умолчанию.

    9. Добавление ALLOW вместо DISALLOW

    На сайтах не обязательно указывать директиву allow. Директива allow позволяет переопределять директивы disallow в том же файле robots.txt.

    В чем проблема: В случаях, когда директивы disallow похожи, использование allow может помочь в добавлении нескольких атрибутов, чтобы их различать.

    10. Неверное расширение типа файла

    В разделе справки Google Search Console рассказывается, как создавать файлы robots.txt . После того, как вы создали этот файл, можно будет проверить его с помощью тестера robots.txt .

    В чем проблема: Файл должен иметь расширение .txt и создаваться в кодировке UTF-8.

    11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать

    Запрет на сканирование веб-страниц может привести к их удалению из индекса Google.

    В чем проблема: При добавлении перед именем папки звездочки (*) это может означать что-то промежуточное. Когда она добавлена после, это указывает на необходимость заблокировать все, что включено в URL-адрес после /.

    12. Блокировка доступа ко всему сайту во время разработки

    В чем может быть проблема: При перемещении сайта или массовых обновлениях robots.txt может быть пустым по умолчанию для блокировки всего сайта. В данном случае он должен оставаться на месте и не быть удален во время технического обслуживания.

    13. Написание директив заглавными или прописными буквами

    Директивы в файле robots.txt являются чувствительными к регистру.

    В чем проблема: Некоторые CMS автоматически устанавливают URL-адреса для отображения содержимого файла robots.txt в верхнем и нижнем регистре. Директивы должны соответствовать фактической структуре URL-адресов со статусом 200.

    14. Использование кодов состояния сервера (например, 403) для блокировки доступа

    В чем проблема: при перемещении сайта robots.txt может оказаться пустым или удаленным. Рекомендуется, чтобы он оставался на месте и не был удален во время технического обслуживания.

    Как проверить, используется ли сайте X-Robots-Tag?

    Чтоб проверить заголовки сервера, используйте инструмент просмотреть как робот Google в Search Console.

    Заключение

    Проверьте весь сайт, чтобы определить веб-страницы, которые следует заблокировать с помощью директив disallow. Убедитесь в том, что на сайте не используется автоматическое перенаправление и не изменяется файл robots.txt. Оцените эффективность сайта до и после изменений.

    Пожалуйста, оставляйте свои отзывы по текущей теме материала. За комментарии, лайки, отклики, дизлайки, подписки низкий вам поклон!

    Читайте также: