проиндексировано несмотря на блокировку в файле robots txt как исправить

11.07.202211.07.2022 admin 0 Comments

Проиндексировано, несмотря на блокировку в файле robots.txt

Дата вопроса: 05.11.2018, 19:01

В новой версии инструментов для вебмастеров от гугла есть раздел «Проиндексировано, несмотря на блокировку в файле robots.txt» и там указано более 500 страниц.

Всем этим страницам мы заблокировали индексирование в robots.txt, почему они проиндексированы, ведь правила индексирования указаны? стоит ли обращать внимание на этот отчет?

Рекомендуйте нас друзьям

4 комментария

Дата сообщения: 30.01.2019, 10:05

Добрый день, ARSales.

В данном случае необходимо удалить из файла Robots.txt директивы:
Disallow: /?s=
Disallow: /*?

А на всех мусорных страницах, которые Вы закрывали при помощи данной директивы прописать мета тег meta name=»robots» content=»noindex, follow».

Дата сообщения: 01.02.2019, 16:32

Добрый день.Выдает «Проиндексировано, несмотря на блокировку в файле robots.txt» в блоггере.Что с этим делать?

Дата сообщения: 15.04.2019, 09:41

Добрый день, Татьяна! Если проиндексирована страница, закрытая в robots.txt (а мы не хотим, чтобы она индексировалась), то верным решением будет прописать в её (страницы) коде meta name=»robots» content=»noindex,follow» или meta name=»robots» content=»noindex,nofollow». Однако в вашем случае это невозможно, т.к. в блоггере нет доступа к правке кода страниц. Поэтому не остаётся ничего другого, как философски отнестись к «непослушанию» поискового робота. 🙂

Дата сообщения: 14.05.2019, 18:54

Добрый вечер, спасибо за интересный вопрос.

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

Справки поисковых систем Google и Яндекс по работе с файлом Robots.txt.

В новой Search Console появился очень интересный и полезный отчет «Проиндексировано, несмотря на блокировку в файле robots.txt», который содержит все url-адреса сайта, которые добавлены в индекс, хотя и заблокированы в файле Robots.txt.

Это является проблемой, так как проиндексированы некачественные документы. Некачественные документы в индексе поисковой системы негативно влияют на ранжирование сайта.

Следовательно данную проблему необходимо решить следующим образом:

Исходя из нашего опыта, если таких страниц в индексе очень много, то решение данной проблемы приведет к существенному улучшению ранжирования сайта в поисковой системе Google.

Источник

Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC

Share this article

В большинстве случаев, если вы заблокировали сканирование в своем файле robots.txt, это является очевидной проблемой. Но есть несколько дополнительных условий, которые могут вызвать эту проблему, поэтому давайте рассмотрим следующий процесс устранения неполадок, который поможет выявлять и исправлять существующие проблемы как можно более эффективно.

Как видите, первым делом нужно спросить себя, хотите ли вы, чтобы Google индексировал URL-адрес.

Если вы не хотите, чтобы URL-адрес индексировался…

Просто добавьте атрибут noindex в метатег robots и убедитесь, что сканирование разрешено, если адрес каноничный.

Если вы заблокируете сканирование страницы, Google все равно сможет проиндексировать ее, потому что сканирование и индексирование — это разные процессы. Если Google не может сканировать страницу, они не увидят атрибут noindex в метатеге и все равно смогут проиндексировать страницу, если на ней есть ссылки.

Если URL-адрес каноникализируется на другую страницу, не добавляйте атрибут noindex в метатег robots. Просто убедитесь, что настроены правильные сигналы каноникализации, включая атрибут canonical на канонической странице, и разрешите сканирование, чтобы сигналы проходили и консолидировались правильно.

Если вы хотите, чтобы URL-адрес индексировался…

Вам нужно выяснить, почему Google не может просканировать URL-адрес и снять блокировку.

Наиболее вероятная причина — блокировка сканирования в robots.txt. Но есть несколько других сценариев, которые могут вызывать предупреждение о том, что вы заблокированы. Давайте рассмотрим их в том порядке, в котором вам, вероятно, стоит их искать.

Проверьте наличие блокировки сканирования в robots.txt

Директива может блокировать какой-то конкретный или все user-agent. Если ваш сайт новый или был запущен недавно, вы можете поискать:

Возможно, кто-то опередил вас и уже устранил блокировку robots.txt, чем и решил проблему. Это наилучший сценарий. Однако, если проблема выглядит исправленной, но появляется снова спустя какое-то время, возможно, вы испытываете проблемы из-за периодической блокировки.

Как это исправить

Вам нужно удалить директиву disallow, вызывающую блокировку. Способ исправления проблемы зависит от используемой вами технологии.

WordPress

Если проблема затрагивает весь ваш веб-сайт, наиболее вероятная причина в том, что вы включили параметр в WordPress, отвечающий за запрет индексации. Эта ошибка часто встречается на новых веб-сайтах и после проведения миграции. Выполните следующие действия, чтобы проверить это.

WordPress с Yoast

WordPress с Rank Math

Как и Yoast, Rank Math позволяет напрямую редактировать файл robots.txt.

FTP или хостинг

Если у вас есть FTP-доступ к сайту, вы можете напрямую отредактировать файл robots.txt, чтобы удалить директиву disallow, вызывающий проблему. Ваш хостинг-провайдер также может предоставлять вам доступ к файловому менеджеру, с помощью которого вы можете напрямую обращаться к файлу robots.txt.

Проверьте наличие периодической блокировки

Периодические проблемы труднее устранить, поскольку условия, вызывающие блокировку, могут не присутствовать в момент проверки.

Я рекомендую проверить историю вашего файла robots.txt. Например, в средстве проверки robots.txt в GSC хранятся предыдущие версии файлов. Вы можете нажать на раскрывающийся список, выбрать версию и посмотреть ее содержимое.

У The Wayback Machine на archive.org также хранится история файлов robots.txt для веб-сайтов, которые они сканируют. Вы можете щелкнуть любую дату, по которой у них есть данные, и посмотреть, как выглядел файл в этот конкретный день.

Вы также можете воспользоваться бета-версией отчета “Изменения” (Changes), который позволяет легко просматривать изменения содержимого между двумя разными версиями файлов.

Как это исправить

Проверьте наличие блокировки по user-agent

Блокировка по user-agent — это блокировка, при которой сайт блокирует определенный user-agent, такого как Googlebot или AhrefsBot. Другими словами, сайт определяет конкретного бота и блокирует соответствующий user-agent.

Если вы можете просматривать страницу в своем обычном браузере, но блокируетесь после смены user-agent, это означает, что используемый вами user-agent заблокирован.

Вы можете задать конкретный user-agent с помощью инструментов разработчика Chrome. Еще один вариант — использовать расширение браузера для смены user-agent, подобное этому.

Кроме того, вы можете проверить блокировку по user-agent с помощью команды cURL. Вот как это сделать в Windows.

Как это исправить

Проверьте наличие блокировки по IP-адресу

Если вы подтвердили, что не заблокированы файлом robots.txt, и исключили блокировку по user-agent, то, скорее всего, это блокировка по IP-адресу.

Как это исправить

Блокировку по IP-адресу сложно отследить. Как и в случае с блокировкой по user-agent, лучше всего будет обратиться к вашему хостинг-провайдеру или CDN и спросить их, откуда происходит блокировка и как вы можете устранить ее.

Источник

Проиндексировано несмотря на блокировку в файле robots txt как исправить

Вы перечитайте, поймите суть проблемы.

Часто просто мы не сталкиваемся с не типичными проблемами где логики вообще нет.

Вот пример. Живет сайтик, была когда-то у него рубрика. Ну решили мы что нам она не нужна. Грохаем ее и естественно у нас все те страницы что были в рубрике теперь 404. Ну нет их больше же. Логично. Сайт живет, все норм. И скорее всего не ощутит ни каких проблем.

Но решили домен поменять, ну обычное дело, ничего криминального, клеим. УПС. На старый раздел было много ссылок из другого раздела и третьего раздела да и еще внешние ссылки имеются на удаленный раздел и попрежнему прекрасно ссылаются на него и гугл это видит.

Оформлено все по уму 404 как полагается, на ней все рекомендации гугла учтены, все как по книжке. Ну нет теперь у нас этого документа, а тот документ что ссылается говорит что было когда-то или думает что есть.

И тут начинается бред. Перечитываете хелп все что находите это смена кода ответа сервера с 404 на 410, а сама страница остается такой же.

Ну что? поможет? Если бы, на одном сайте год был фильтр. Как? Блин, за что? Где логика? Почему не убирает фильтр?

Не мучайтесь. 301 с битых ставьте на главную и пропингуйте гуглом. 7-10 дней и фильтра нет.

Что-то еще не нравиться? Ваши проблемы..

Вот он индексирует. Это не его проблема, это уже моя проблема. Он Титлы присвоил уже таким страницам. Типичный Титл который использует в ротации для сайта сейчас. А вот это уже серьезно.

Источник

Проиндексировано, несмотря на блокировку в файле robots.txt Есть решение

Google уже надоел всякими ошибками и предупреждениями. Теперь он выводит в вебмастере около 1000 страниц с предупреждением «Проиндексировано, несмотря на блокировку в файле robots.txt»

Все эти 1000 страниц мусора такого типа:

В роботсе запрещены страницы. Все эти страницы имеют

Но его это не останавливает и он продолжает их индексировать и выводить это предупреждение.

Кто нибудь знает, как решить такую проблему?

5 ответов

Возможно, этот совет поможет. Видимо, потребуется какой-то плагин для выполнения такой работы.

На самом деле в этом весь Гугл. Никакого уважения к robots.txt. Как вариант кроме robots.txt можно в index.html ввести что-то типа

Таким образом закроете сортировки в категориях. Для Yandex, кстати, лучше не закрывать, а сделать по Clean-param: sort&order.

Спасибо за помощь, поставил ваш код. Метатег появился на страницах с сортировкой.

Было бы странно, если бы не появился, но суть не в этом. Вы можете конкретизировать этот тег, заточив его под Гугл, изменив robots на указание для конкретного бота.

А уже для Yandex использовать в robots.txt более мягкий Clean-param (читайте документацию на Yandex) способ для sort&order. Из robots.txt всякие конструкции типа

можно будет убрать.

Про яндекс не совсем понятно. Во первых зачем такие страницы яндексу в поиске? Ну и он на данный момент не берет их в поиск, из за тега, который ссылается на основную категорию.

Источник

Проиндексировано, несмотря на блокировку в файле robots.txt

Публикация в группе : Warehouse

В консоле вебмастера google есть пункт меню «Основные интернет-показатели», в нем показываются ошибки и предупреждения разные, о них вы можете прочитать в помощи.

Последнее время google меняет правила очень кардинально и robots.txt уже не защитит сайт от дублей при некоторых условиях. Вот ссылочка о конкретно описываемой ситуации когда страницы будут проиндексированы, несмотря на запрет в robots.txt.

Если вы посмотрите в этот пункт меню консоли(открыв соответствующий отчет), вы можете увидеть такую картинку, конечно если ваш сайт уже продвинулся немного.

Название предупреждения: Проиндексировано, несмотря на блокировку в файле robots.txt

Растут такие страницы просто с дикой скоростью, в моем случаи большая часть ссылок имеет параметр ?action-rcl=login. Есть конечно и другие, но на этом параметре покажу пример, как избавится от таких дублей, так как и канонический урл в данном случаи не работает(маны гугла).

В файл функций вашей темы сайта надо добавить:

Возможны вариации конечно, можно вообще оставить только «?», но это уже по необходимости, как и добавить другие варианты ссылок от дополнений или плагинов.

В итоге, исходя из рекомендаций google, мы закрываем все дубли. После проделанной операции с добавлением кода, обязательно проверить, что все гладко и запрет появляется только на нужных страницах. Далее нажать на кнопку перепроверки в консоле и ошибки исчезнут со временем, придет оповещение на почту.

Таким образом индекс сайта будет чистым и не только для гугла, но и для яндекса. Единственная защита на сегодняшний день от дублей:

Источник

Что и как устроено в мире?

проиндексировано несмотря на блокировку в файле robots txt как исправить

Проиндексировано, несмотря на блокировку в файле robots.txt

4 комментария

Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC

Share this article

Если вы не хотите, чтобы URL-адрес индексировался…

Если вы хотите, чтобы URL-адрес индексировался…

Проверьте наличие блокировки сканирования в robots.txt

Как это исправить

WordPress

WordPress с Yoast

WordPress с Rank Math

FTP или хостинг

Проверьте наличие периодической блокировки

Как это исправить

Проверьте наличие блокировки по user-agent

Как это исправить

Проверьте наличие блокировки по IP-адресу

Как это исправить

Проиндексировано несмотря на блокировку в файле robots txt как исправить

Проиндексировано, несмотря на блокировку в файле robots.txt Есть решение

5 ответов

Проиндексировано, несмотря на блокировку в файле robots.txt

Добавить комментарий Отменить ответ

Проиндексировано, несмотря на блокировку в файле robots.txt

4 комментария

Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC

Share this article

Если вы не хотите, чтобы URL-адрес индексировался…

Если вы хотите, чтобы URL-адрес индексировался…

Проверьте наличие блокировки сканирования в robots.txt

Как это исправить

WordPress

WordPress с Yoast

WordPress с Rank Math

FTP или хостинг

Проверьте наличие периодической блокировки

Как это исправить

Проверьте наличие блокировки по user-agent

Как это исправить

Проверьте наличие блокировки по IP-адресу

Как это исправить

Проиндексировано несмотря на блокировку в файле robots txt как исправить

Проиндексировано, несмотря на блокировку в файле robots.txt Есть решение

5 ответов

Проиндексировано, несмотря на блокировку в файле robots.txt

Вам также понравится

что значит комби стирка в стиральной машине

как сделать openvpn сервер на windows 10

вольво s80 разбор водительской двери

Добавить комментарий Отменить ответ