Каноническое дублирование контента

Двое из ларца

Двое из ларца, одинаковы с лица

Доброго времени суток, уважаемые читатели блога presentaci.ru !

Недавно я писал о проблеме дублирования контента и решении её при помощи файла robots.txt Сегодня я хочу продолжить эту тему.
Представляю вашему вниманию ещё несколько, известных мне, способов показать поисковикам, по какому адресу нужно индексировать сайт.

Редирект в файле .htaccess

Для начала немного теории. Как вы знаете сервер — это удалённый компьютер на котором лежат файлы сайта. Когда пользователь хочет просмотреть какую ни будь страничку в сети, он отправляет запрос этому компьютеру. Тот, в свою очередь, обрабатывает запрос, и если запрашиваемый документ существует, присылает его пользователю.

Вроде бы всё просто, но это на первый взгляд. Так было, когда сайты состояли из статичных HTML файлов. Современные же сайты пишутся на специальных языках программирования, чаще всего это PHP (англ. Hypertext Preprocessor — препроцессор гипертекста). Пользовательские операционки не понимают этого языка. Если вы попытаетесь открыть PHP файл у себя на компьютере, то естественно кроме программного кода ничего не увидите.

Каждая HTML страница, которую вы получаете, генерируются на стороне сервера из нескольких PHP файлов, например эта сформирована как минимум из четырёх. За страницу с полним текстом этой статьи отвечает single.php, файл heder.php отвечает за формирование хедера, sidebar.php — сайтбара, а futer.php — подвала.
Превращением PHP в HTML занимается специальная программа. На девяноста процентах серверов — это Apache.
В файле .htaccess (от. англ. hypertext access — гипертекстовый доступ) прописываются некоторые настройки сервера. Точнее, ему указывается каким образом формировать странички вашего сайта, и что с ними делать.

Объяснение конечно поверхностное, но принцип, по-моему, ясен.

Давайте всё же вернёмся к нашим баранам.
И так, о каком дублировании контента идёт речь? Дело в том, что ваш сайт можно найти по нескольким адресам. Например: с тройным дабыл ю http://www.site.ru и без него http://site.ru. Для нас, как пользователей, это не имеет никакого значения, но для поисковиков это совершенно разные страницы с одинаковым контентом.

Вы не задались вопросом, откуда взялся этот префикс «www» и зачем он нужен? А возник он во времена доисторического империализма, когда компьютеры ещё были слабые. Тогда службы почты, FTP, вебсервер находились на разных компьютерах и были доступны по адресу с соответствующим префиксом — «mail», «ftp» и «www». Со временем эти службы переехали на один сервер, и потребность обязательно вводить префикс пропала.

Так вот, чтобы не возникало дублирования содержимого, достаточно в файле .htaccess прописать несколько строчек кода, который заставит сервер перенаправлять посетителей на нужный нам адрес.

Вставив в свой .htaccess этот код сервер будет перенаправлять посетителей и поисковых роботов с адреса с префиксом «www» на адрес без него:

RewriteCond %{HTTP_HOST} ^www.presentaci.ru$ [NC]
RewriteRule (.*) http://presentaci.ru/$1 [R=301,L]

И на оборот с WWW:

RewriteCond %{HTTP_HOST} ^presentaci.ru$ [NC]
RewriteRule ^(.*)$ http://www.presentaci.ru/$1 [R=301,L]

Стандартными средствами WordPress

Если вы используете WordPress, то изменять что то в .htaccess вам не обязательно — основной адрес сайта можно указать в общих настройках (движок сам будет перенаправлять посетителей на нужный домен). Если вы все-таки залезли в этот системный файл, сделайте редирект (перенаправление) на тот же домен который указали в настройках WordPress. Представьте, что произойдет, если в настройках укажете www.site.ru, а в .htaccess site.ru — блог просто не откроется.

Инструменты для вебмастеров

В панели для вебмастеров Яндекс и Гугл, вам просто нужно указать, по какому адресу индексировать сайт. Здесь нужно затронуть один момент: в инструментах для вебмастеров Гугл при выборе основного домена, вас попросят подтвердить права собственности на него. Это не ошибка. Вы ведь подтвердили право на собственность для одного сайта, например site.ru (без префикса). Теперь вам нужно добавить новый сайт www.site.ru (тот же сайт но уже с префиксом). Если для подтверждения прав на домен вы уже загружали проверочный файл, больше делать ничего не надо, сразу жмите «подтвердить» (как вы понимаете, проверочный файл будет один для обоих сайтов). Теперь можете выбрать какой домен Гугл должен считать основным.

Вот в принципе и всё о чём я хотел сегодня рассказать. До новых встреч.