сервер отвечает редиректом на запрос robots txt wordpress

11.07.202211.07.2022 admin 0 Comments

Сервер отвечает редиректом на запрос /robots.txt (яндекс)

При переезде сайтом на https
В яндекс вебмастере пишет «сервер отвечает редиректом на запрос /robots.txt »
Робот не смог получить доступ к файлу robots.txt при последнем обращении. Из-за отсутствия параметров индексирования и инструкций в поиск могут попасть нежелательные страницы.
Сервер отвечает редиректом на запрос /robots.txt

Яндесу указал на переезд сайта вот что пишет «В ближайшее время в результатах поиска вместо домена volstamp.in.ua появится https://volstamp.in.ua

Если настраивали редирект в Htaccess, сделайте исключение для robots.txt

RewriteEngine On
RewriteCond % =off
RewriteCond % !^/robots.txt
RewriteRule (.*) https://%% [QSA,L]

Спасибо, вот что сделал)

RewriteEngine On
RewriteBase /
RewriteCond % !1
RewriteCond % !robots.txt
RewriteRule ^(.*)$ https://volstamp.in.ua/$1 [R=301,L]

Директива Host известна только Яндексу

User-agent: *
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: */?sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/

User-agent: Yandex
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: */?sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/
Host: https://volstamp.in.ua

Добрый день! у меня такая же проблема, не пойму что менять в моем htaccess:

RewriteCond % ^www.odda.com.ua$ [NC]
RewriteRule ^(.*)$ http://odda.com.ua/$1 [L,R=301]

RewriteRule ^(.*)\.tpl$ [R=404]
RewriteRule ^(.*)\.zip$ [R=404]

Источник

Сервер отвечает редиректом на запрос /robots.txt

Доброго времени суток.

После установки ssl сертификата и переезда сайта с http на https в Яндекс.Вебмастере при анализе robot.txt выскакивает ошибка «Сервер отвечает редиректом на запрос /robots.txt». Как быть, чего делать?

С Уважением, Виктор.

4 ответа

Убрать редирект с робоц. Он должен быть доступен и по http и по https
Технически это делается исключением robots.txt из правила редиректа http->https чем бы они у вас не делались.

Я правильно понимаю, исключить robots.txt из правил редиректа можно через файл Htaccess, который находится в корне?

Нашел несколько вариантов директив для этого файла:

1. RewriteEngine off

2. RewriteEngine On

Подскажите пожалуйста, как правильно это сделать?

Незабываем в robots.txt дописать

Разумеется в секции User-agent: Yandex

Добавить ответ

Webasyst — это CMS нового поколения, совмещающая в себе инструменты для управления сайтом и интернет-магазином с полезными приложениями для совместной работы с коллегами и взаимодействия с клиентами. Единый центр управления бизнесом через интернет.

Платформа

Магазин Webasyst

Помощь

Мы получаем и обрабатываем персональные данные посетителей сайта в соответствии с Политикой обработки персональных данных. Отправка персональных данных с помощью любой страницы сайта подразумевает согласие со всеми пунктами Политики.

Источник

301 редирект на https: всё кроме robots.txt Есть решение

Shop-Script 7. Хостер: TimeWeb. Нужно 301 перенаправление на https всего, кроме robots.txt, который должен быть доступен и по http, и по https.

приводит к тому, что по адресу http://site.ru/robots.txt вылетает страница https://site.ru/index.php c 404 ошибкой.

11 ответов

Нет. Такой вариант уже пробовал. Уходит в циклическую переадресацию.

2) Чтобы работало исключение для robots.txt, нужно скопировать его содержимое из настроек приложения «Сайт» в файл robots.txt в корне сайта (файл robots.txt желательно сохранить в кодировке UTF-8). При этом важно помнить, что изменять файл robots.txt нужно уже не в настройках приложения Сайт, а по ftp.

Содержимое robots.txt должно быть приблизительно таким:

3) В результате имеем ответы сервера:

По URL: http://SiteName.ru/, http://www.SiteName.ru/, https://www.SiteName.ru/

По URL: http://SiteName.ru/robots.txt, http://www.SiteName.ru/robots.txt, https://www.SiteName.ru/robots.txt

Т.е. и Вы и я всё написали правильно по идее, просто загвоздка была в том, что robots.txt должен быть файлом?

Немного странно.
Все таки там , а не . Ну да ладно.

Наверняка, можно сделать чтоб и без вынесения robots.txt в файл работало, если подумать.

Это по рекомендации ТаймВеба. У других хостеров может быть по другому.

Вполне возможно что и можно. но поскольку изменения в robots.txt вносятся редко, то такой «костыль» абсолютно не критичен.

У меня такая схема работает. Хостинг SpaceWeb

RewriteRule ^(.*)$ https://мойсайт/$1 [R=301,L]

А Sitemap разве не должен быть в конце robots?

Помогите пожалуйста, у меня следующая проблема:

При обращении через http на любую страницу товаров, например «http://cifrovod.ru/category/wi-fi-adaptery/» перекидывает на Location: «https://cifrovod.ru/index.php» вместо «https://cifrovod.ru/category/wi-fi-adaptery/ из за этого в маркете получаю 404 ошибки на страницы товаров. Пробовал конфиг выше вызывает бесконечную циклическую переадресацию.

По варианту, отмеченному как правильный, у меня не вышло.
Рассказываю как получилось.

1. В инсталлере вебасиста (настройках) прописываем что сайт у нас с https

2. Robots.txt используем внутренний, от вебасиста. В корне ничего не лежит.

3. Проверяем.
http://site.ru/robots.txt при обращении перескакивает на https://site.ru/robots.txt и отображается наш введеный robots. Т.е. тут редирект работает сразу.

4. Делаем 301 редирект с помощью htaccess всего остального

Источник

Настраиваем файл robots.txt для WordPress

В этой статье пример оптимального, на мой взгляд, кода для файла robots.txt под WordPress, который вы можете использовать в своих сайтах.

Для начала, вспомним зачем нужен robots.txt — файл robots.txt нужен исключительно для поисковых роботов, чтобы «сказать» им какие разделы/страницы сайта посещать, а какие посещать не нужно. Страницы, которые закрыты от посещения не будут попадать в индекс поисковиков (Yandex, Google и т.д.).

Таким образом, если мы закрыли страницу в robots.txt, робот просто пропустит её не сделав никаких запросов на сервер. А если мы закрыли страницу в заголовке X-Robots-Tag или мета-теге, роботу нужно сначала сделать запрос к серверу, получить ответ, посмотреть что находится в заголовке или метатеге и только потом принять решения индексировать страницу или нет.

Таким образом, файл robots.txt объясняет роботу какие страницы (URL) сайта нужно просто пропускать не делая никаких запросов. Это экономит время обхода роботом всех страниц сайта и экономит ресурсы сервера.

Рассмотрим на примере. Допустим, у нас есть сайт на котором всего 10 000 страниц (не 404 URL). Из них полезных страниц с уникальным контентом всего 3000, остальное это архивы по датам, авторам, страницы пагинации и другие страницы контент на которых дублируется (например фильтры с GET параметрами). Допустим, мы хотим закрыть от индексации эти 7000 неуникальных страниц:

Несложно догадаться, что в этом случае первый вариант гораздо предпочтительнее потому что на обход сайта робот будет тратить гораздо меньше времени, а сервер будет генерировать гораздо меньше страниц.

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

В этом варианте мы контролируем все доступы. Сначала глобально запрещаем доступ к почти всему от WP ( Disallow: /wp- ), а затем открываем, там где нужно.

Этот код я пожалуй не рекомендовал бы, потому что тут закрывается все от wp- и нужно будет описать все что разрешено. Так в будущем, когда WP введет что-то новое, это новое может стать недоступно для роботов. Так например получилось с картой сайта WP.

Директивы (разбор кода)

Определяет для какого робота будет работать блок правил, который написан после этой строки. Тут возможны два варианта:

User-agent: * — указывает, что правила после этой строки будут работать для всех поисковых роботов.

Возможные роботы (боты) Яндекса:

Возможные роботы (боты) Google:

Запрещает роботам «ходить» по ссылкам, в которых встречается указанная подстрока:

Пример добавления нового правила. Допустим нам нужно закрыть от индексации все записи в категории news. Для этого добавляем правило:

Оно запретить роботам ходить по ссылками такого вида:

Подробнее изучить директивы robots.txt вы можете на странице помощи Яндекса. Имейте ввиду, что не все правила, которые описаны там, работают для Google.

ВАЖНО о кириллице: роботы не понимают кириллицу, её им нужно предоставлять в кодированном виде. Например:

ВАЖНО: Сортировка правил

Yandex и Google обрабатывает директивы Allow и Disallow не по порядку в котором они указаны, а сначала сортирует их от короткого правила к длинному, а затем обрабатывает последнее подходящее правило:

будет прочитана как:

Чтобы быстро понять и применять особенность сортировки, запомните такое правило: «чем длиннее правило, тем больший приоритет оно имеет. Если длина правил одинаковая, то приоритет отдается директиве Allow.»

Проверка robots.txt и документация

Проверить правильно ли работают правила можно по следующим ссылкам:

Google: https://www.google.com/webmasters/tools/robots-testing-tool Нужна авторизация и наличия сайта в панели веб-мастера.

robots.txt в WordPress

Изменить содержание robots.txt можно через:

Рассмотрим как использовать оба хука.

robots_txt

По умолчанию WP 5.5 создает следующий контент для страницы /robots.txt :

В результате перейдем на страницу /robots.txt и видим:

Обратите внимание, что мы дополнили родные данные ВП, а не заменили их.

do_robotstxt

Теперь, пройдя по ссылке http://site.com/robots.txt увидим:

Нестандартные Директивы

Clean-param

Google не понимаю эту директиву. Указывает роботу, что URL страницы содержит GET-параметры, которые не нужно учитывать при индексировании. Такими параметрами могут быть идентификаторы сессий, пользователей, метки UTM, т.е. все то что не влияет на содержимое страницы.

Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска. Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы, в которых параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница:

Если указать директиву следующим образом:

то робот Яндекса сведет все адреса страницы к одному:

Пример очистки нескольких параметров сразу: ref и sort :

Crawl-delay (устарела)

Google не понимает эту директиву. Таймаут его роботам можно указать в панели вебмастера.

Яндекс перестал учитывать Crawl-delay

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay в robots.txt […] Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

Для чего была нужна директива Crawl-delay

Host (устарела)

Заключение

Важно помнить, что изменения в robots.txt на уже рабочем сайте будут заметны только спустя несколько месяцев (2-3 месяца).

На сервисе avi1.ru Вы можете уже сейчас приобрести продвижение SMM более чем в 7 самых популярных социальных сетях. При этом обратите внимание на достаточно низкую стоимость всех услуг сайта.

Источник

Файл robots txt для wordpress правильный и рабочий вариант для всех сайтов

Для чего нужен robots.txt

Robots.txt создан для регулирования поведения поисковых роботов на сайтах, а именно куда им заходить можно и брать в поиск, а куда нельзя. Лет 10 назад сила данного файла была велика, по его правилам работали все поисковые системы, но сейчас он скорее как рекомендация, чем правило.

Но пока не отменили, вебмастера должны делать его и настраивать правильно исходя из структуры и иерархии сайтов. Отдельная тема это WordPress, потому что CMS содержит множество элементов, которые не нужно сканировать и отдавать в индекс. Разберемся как правильно составить robots.txt

Где лежит файл robots в WordPress

На любом из ресурсов robots.txt должен лежать в корневой папке. В случае с вордпресс, там где находится папка wp-admin и ей подобные.

Если не создавался и не загружался администратором сайта, то по умолчанию на сервере не найти. Стандартная сборка WordPress не предусматривает наличие такого объекта.

Как создать правильный robots txt

Создать правильный robots txt задача не трудная, сложнее прописать в нем правильные директивы. Сначала создадим документ, открываем программу блокнот и нажимаем сохранить как.

Сохраняем документ

В следующем окне задаем название robots, оставляем расширение txt, кодировку ANSI и нажимаем сохранить. Объект появится в папке куда произошло сохранение. Пока документ пустой и ничего не содержит в себе, давайте разберемся какие именно директивы он может поддерживать.

При желании можете сразу скачать его на сервер в корень через программу FileZilla.

Настройка команд

Выделю четыре основные команды:

Устаревшие и ненужные конфигурации:

Рабочий пример инструкций для WordPress

Дело в том что поисковой робот не любит запрещающие директивы, и все равно возьмет в оборот, что ему нужно. Запрет на индексацию должен быть объектов, которые 100% не должны быть в поиске и в базе Яндекса и Гугла. Данный рабочий пример кода помещаем в robots txt.

Разберемся с текстом и посмотрим что именно мы разрешили, а что запретили:

Остальные директивы рекомендую не вносить, после сохранения и внесения правок, загружаем стандартный robots txt в корень WordPress. Для проверки наличия открываем такой адрес https://your-domain/robots.txt, заменяем домен на свой, должно отобразится так.

Адрес в строке запроса

Как проверить работу robots.txt

Проверка документа в yandex

Ниже появится блок с ошибками, если их нет то переходим к следующему шагу, если неверно отображается команда, то исправляем и снова проверяем.

Отсутствие ошибок в валидаторе

Проверим правильно ли Яндекс обрабатывает команды, спускаемся чуть ниже, введем два запрещенных и разрешенных адреса, не забываем нажать проверить. На снимке видим что инструкция сработала, красным помечено что вход запрещен, а зеленой галочкой, что индексирование записей разрешена.

Проверили, все срабатывает, перейдем к следующему способу это настройка robots с помощью плагинов. Если процесс не понятен, то смотрите наше видео.

Плагин–генератор Virtual Robots.txt

Как выглядит Virtual Robots.txt

Переходим в админку Настройки > Virtual Robots.txt, видим знакомую конфигурацию, но нам нужно ее заменить, на нашу из статьи. Копируем и вставляем, не забываем сохранять.

Настройка Virtual Robots.txt

Роботс автоматически создастся и станет доступен по тому же адресу. При желании проверить есть он в файлах WordPress – ничего не увидим, потому что документ виртуальный и редактировать можно только из плагина, но Yandex и Google он будет виден.

Добавить с помощью Yoast SEO

Знаменитый плагин Yoast SEO предоставляет возможность добавить и изменить robots.txt из панели WordPress. Причем созданный файл появляется на сервере (а не виртуально) и находится в корне сайта, то есть после удаления или деактивации роботс остается. Переходим в Инструменты > Редактор.

Yoast SEO редактор файлов

Если robots есть, то отобразится на странице, если нет есть кнопка “создать”, нажимаем на нее.

Кнопка создания robots

Выйдет текстовая область, записываем, имеющийся текст из универсальной конфигурации и сохраняем. Можно проверить по FTP соединению документ появится.

Изменить модулем в All in One SEO

Старый плагин All in One SEO умеет изменять robots txt, чтобы активировать возможность переходим в раздел модули и находим одноименный пункт, нажимаем Activate.

Модули в All In one Seo

В меню All in One SEO появится новый раздел, заходим, видим функционал конструктора.

Модуль не удобный, создать по такому принципу валидный и корректный robots.txt трудно. Лучше используйте другие инструменты.

Правильная настройка для плагина WooCommerce

Чтобы сделать правильную настройку для плагина интернет магазина на WordPress WooCommerce, добавьте эти строки к остальным:

Делаем аналогичные действия и загружаем на сервер через FTP или плагином.

Подведем итог что нужно сделать чтобы на сайте WordPress был корректный файл для поисковиков:

Совершенствуйте свои блоги на WordPress, продвигайтесь и правильно настраивайте все параметры, а мы в этом поможем, успехов!

Источник

Сервер отвечает редиректом на запрос /robots.txt (яндекс)

Сервер отвечает редиректом на запрос /robots.txt

4 ответа

Добавить ответ

Платформа

Магазин Webasyst

Помощь

301 редирект на https: всё кроме robots.txt Есть решение

11 ответов

Настраиваем файл robots.txt для WordPress

Оптимальный код robots.txt для WordPress

Версия 1 (не строгая)

Версия 2 (строгая)

Директивы (разбор кода)

ВАЖНО: Сортировка правил

Проверка robots.txt и документация

robots.txt в WordPress

robots_txt

do_robotstxt

Рекомендации

Не рекомендуется исключать фиды: Disallow: */feed

Ошибочные рекомендации

Спорные рекомендации

Нестандартные Директивы

Clean-param

Crawl-delay (устарела)

Host (устарела)

Заключение

Файл robots txt для wordpress правильный и рабочий вариант для всех сайтов

Для чего нужен robots.txt

Где лежит файл robots в WordPress

Как создать правильный robots txt

Настройка команд

Рабочий пример инструкций для WordPress

Как проверить работу robots.txt

Плагин–генератор Virtual Robots.txt

Добавить с помощью Yoast SEO

Изменить модулем в All in One SEO

Правильная настройка для плагина WooCommerce

Вам также понравится

Safecast shared components что это за программа

какие звуки издает лось в лесу

гидроизоляция пола технониколь характеристики все

Добавить комментарий Отменить ответ