Robots.txt для WordPress
Доброго времени суток, уважаемые читатели блога presentaci.ru !
Сегодня я хочу рассказать о такой важной вещи как файл robots.txt для блога на WordPress.
Для тех, кто не знает robots.txt это текстовый документ, размещенный в корне сайта, в котором заключается информация, предназначенная для поисковых роботов, которые приходят проиндексировать ваш блог.
В нём указывается, каким поисковикам, какие страницы или разделы запрещено индексировать, какие же разрешено.
Казалось бы, зачем прятать информацию о контенте от поисковиков?
Этот вопрос был бы актуален, если бы ваш сайт состоял из простых HTML страниц, что сейчас бывает довольно редко.
При использовании различных CMS,часто возникает дублирования контента, что не есть гуд. К примеру, эта статья попадёт на главную страницу, в разделы категории, тэги, архив, комментарии и т.д… При этом её «вес» рассеивается. Что бы статья имела больший «вес» в глазах поисковиков мне нужно запретить индексирование разделов category, tag, archive, comments — соответственно. Если вы используете SEO все-в-одном индексацию категорий, тэгов и архива можно запретить в настройках этого плагина.
Robots.txt можно создать в стандартном блокноте или использовать Notepad++ (более удобный вариант — не нужна дополнительная программа для загрузки файла на сервер) используя такие параметры:
User-agent — Имя робота (например Yandex или Googlebot) для которого предназначены следующие инструкции.
Allow — директории которые разрешено индексировать.
Disallow — директории которые запрещено индексировать
Host — основной домен.
Sitemap — путь к файлу sitemap.xml
Ниже пример готового robots.txt для блога на WordPress.
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Host: presentaci.ru Sitemap: http://presentaci.ru/sitemap.xml
Укажите свои параметры Host и Sitemap (если у Вас есть такой файл), и пользуйтесь на здоровье.
Разным поисковым роботам можно дать разные инструкции.
Для этого используется параметр User-agent
Подробнее о файле robots.txt для Яндекс можно узнать из первоисточника.
Если Вы всё таки решили создать эго сами, проверить правильность составления можно воспользовавшись анализатором файла robots.txt
Чтобы узнавать о новых статьях, предлагаю Вам подписаться на обновления по RSS или по почте! Также Вы можете следить за моим щебетом в Твиттере.
С уважением, Мышак Пётр.