Intereting Posts

Что такое хороший robots.txt?

Что такое «лучшая» настройка для robots.txt ?
Я использую следующую структуру permalink /%category%/%postname%/ .

robots.txt мой robots.txt выглядит так (скопированный откуда-то давно):

 User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */comments 
  1. Я хочу, чтобы мои комментарии были проиндексированы. Поэтому я могу удалить это
  2. Я хочу запретить индексирование категорий из-за моей постоянной ссылки?
  3. Статья может иметь несколько тегов и быть в нескольких категориях. Это может привести к дублированию в поисковых системах, таких как Google. Как мне обойти это?

Вы изменили бы что-нибудь еще здесь?

Solutions Collecting From Web of "Что такое хороший robots.txt?"

URL-адреса FWIW, обратные ссылки перенаправляют и не имеют содержимого, поэтому они не будут индексироваться.

И рискуя не отвечать на вопрос, RE ваши баллы 2 и 3:

http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Положите иначе, я думаю, вы теряете время, беспокоясь о дублированном содержании, а ваш robots.txt должен быть ограничен:

 User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-content/cache 

Много времени с тех пор, как этот quesiton и ответ были опубликованы. С тех пор многое изменилось. Типичная рекомендация об отказе от искателей доступа к wp-content/themes , wp-content/plugins , wp-content/cache , wp-includes и любому другому каталогу, который содержит файлы CSS или js, необходимые на сайте, больше недействительны.

Например, давайте поговорим о Google. Googlebot обрабатывал веб-сайты без CSS и без js, но не на самом деле. Фактически, робот Googlebot полностью документирует и проверяет такие вещи, как отзывчивость, количество, местоположение и размер скриптов и т. Д. Таким образом, Google не любит, если вы запретите Googlebot обращаться к файлам CSS и js. Это означает, что вы не должны запрещать wp-content/themes , wp-content/plugins , wp-content/cache и wp-includes потому что все эти папки могут обслуживать файлы CSS и js.

С моей точки зрения, на самом деле лучшим файлом robots.txt является тот, который был создан WordPress по умолчанию ( нижний robots.txt является стандартным с WP 4.0 ):

 User-agent: * Disallow: /wp-admin/ 

Если у вас есть папка cgi-bin, может быть хорошей идеей запретить папку cgi-bin:

 User-agent: * Disallow: /wp-admin/ Disallow: /cgi-bin/ 

И если вы используете карту сайта, рекомендуется включить ссылку sitemap в файл robots.txt (вам все равно нужно вручную отправить карту сайта в Google и Bing для веб-мастеров, но ссылка может быть полезна другим искателям):

 User-agent: * Disallow: /wp-admin/ Disallow: /cgi-bin/ Sitemap: http://example.com/sitemap.xml 

Это вообще. Конкретным веб-сайтам может потребоваться запретить другие папки и файлы, которые следует изучать в каждом конкретном случае. Для exmaple вам может понадобиться или вы можете запретить определенную папку плагина:

 User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/plugins/plugin-folder/ 

Чтобы изменить файл robots.txt, используйте фильтр robots_txt (с использованием реального файла robots.txt WordPress не сможет обрабатывать файл robots.txt). Например:

 add_filter( 'robots_txt', function( $output ) { $output .= "Disallow: /cgi-bin/\n"; $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n"; $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n"; return $output; }); 

Вы посмотрели плагин WordPress SEO Yoast? Он определенно обрабатывает проблемы robots.txt.

Немного помогая, это теперь мины (не сильно отличающиеся от всех elses, по-видимому)

 User-agent: * Allow: / Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /cat/ Disallow: /key/ Disallow: /*? Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / #User-agent: ia_archiver-web.archive.org #Disallow: / Sitemap: YOURSITENAME.HERE 

Вы должны следовать существующему подходу Joost de Valk, где очень мало блокируется в robots.txt , но также понимают, что каждый сайт будет иметь уникальную политику, которую необходимо будет пересмотреть и изменить с течением времени.

Многие из приведенных здесь ответов датированы и приведут к саботажу SEO, поскольку Google теперь проверяет «мобильность». Сегодня googlebots пытаются загрузить все, что делает обычный браузер, в том числе шрифты, изображения, JavaScript и атрибуты CSS из / wp-content, / themes, / plugins и т. Д. ( Об этом недавно заговорил Мортен Ранд-Хендриксен).

Вы можете использовать «мобильную дружественную» проверку сайта Google, чтобы узнать, что ваш файл robots.txt саботирует ваш сайт. Если вы используете Инструменты Google для веб-мастеров, вы должны получать предупреждения и уведомления по электронной почте, если есть большая проблема.

Если вы не будете осторожны, чтобы не загружать ключевые презентационные или интерактивные ресурсы из запрещенных папок, это, вероятно, минимальный размер каждой установки WordPress:

 User-agent: * Disallow: /wp-admin 

И не забудьте добавить карту сайта:

 Sitemap: http://yoursite.com/sitemap.xml 

К сожалению, эта более открытая политика сегодня воссоздает потенциал для других проблем, которые раньше приводили людей к более ограничительным с robots.txt , таким как [разработчики плагинов и тем, включая индексируемые страницы со ссылками на свои собственные сайты]. 4 Нет ничего, что можно было бы сделать по этому поводу, если вы не сможете портить все сторонние коды с помощью тонкой гребенки и переместить или удалить вещи, которые вы не хотите индексировать.

FYI, ALWYAS начало вашей постоянной ссылки с помощью номера. По опыту он ускоряет работу страницы, потому что WordPress может быстро различать страницу и сообщение (я также читал, что где-то еще пробовал его … и его истину). поэтому http:example.com/%month%/%post% … будет в порядке

Я просто собираюсь скопировать то, что у меня есть. В этом много исследований. Это, наверное, слишком много! Это помогает Google понять, какие ключевые слова вашего сайта видны в инструменте веб-мастеров Google. Надеюсь, поможет

 User-agent: * Allow: / Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /cgi-bin/ Sitemap: Url to sitemap1 Sitemap: Url to sitemap2 User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.cgi$ Disallow: /*.wmv$ Disallow: /*.ico$ Disallow: /*.opml$ Disallow: /*.shtml$ Disallow: /*.jpg$ Disallow: /*.cgi$ Disallow: /*.xhtml$ Disallow: /wp-* Allow: /wp-content/uploads/ # allow google image bot to search all images User-agent: Googlebot-Image Allow: /* User-agent: * Disallow: /about/ Disallow: /contact-us/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp- # disallow archiving site User-agent: ia_archiver Disallow: / # disable duggmirror User-agent: duggmirror Disallow: / User-agent: Googlebot Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$ # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /*