Инструкции для роботов в файле robots.txt « presentaci.ru

Robots.txt для WordPress

Robots.txt для WordPress

Доброго времени суток, уважаемые читатели блога presentaci.ru !

Сегодня я хочу рассказать о такой важной вещи как файл robots.txt для блога на WordPress.
Для тех, кто не знает robots.txt это текстовый документ, размещенный в корне сайта, в котором заключается информация, предназначенная для поисковых роботов, которые приходят проиндексировать ваш блог.
В нём указывается, каким поисковикам, какие страницы или разделы запрещено индексировать, какие же разрешено.
Казалось бы, зачем прятать информацию о контенте от поисковиков?
Этот вопрос был бы актуален, если бы ваш сайт состоял из простых HTML страниц, что сейчас бывает довольно редко.
При использовании различных CMS,часто возникает дублирования контента, что не есть гуд. К примеру, эта статья попадёт на главную страницу, в разделы категории, тэги, архив, комментарии и т.д… При этом её «вес» рассеивается. Что бы статья имела больший «вес» в глазах поисковиков мне нужно запретить индексирование разделов category, tag, archive, comments — соответственно. Если вы используете SEO все-в-одном индексацию категорий, тэгов и архива можно запретить в настройках этого плагина.

Robots.txt можно создать в стандартном блокноте или использовать Notepad++ (более удобный вариант — не нужна дополнительная программа для загрузки файла на сервер) используя такие параметры:
User-agent — Имя робота (например Yandex или Googlebot) для которого предназначены следующие инструкции.
Allow — директории которые разрешено индексировать.
Disallow — директории которые запрещено индексировать
Host — основной домен.
Sitemap — путь к файлу sitemap.xml

Ниже пример готового robots.txt для блога на WordPress.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: presentaci.ru
Sitemap: http://presentaci.ru/sitemap.xml

Укажите свои параметры Host и Sitemap (если у Вас есть такой файл), и пользуйтесь на здоровье.
Разным поисковым роботам можно дать разные инструкции.
Для этого используется параметр User-agent
Подробнее о файле robots.txt для Яндекс можно узнать из первоисточника.
Если Вы всё таки решили создать эго сами, проверить правильность составления можно воспользовавшись анализатором файла robots.txt

Чтобы узнавать о новых статьях, предлагаю Вам подписаться на обновления по RSS или по почте! Также Вы можете следить за моим щебетом в Твиттере.

С уважением, Мышак Пётр.