Дубли страниц на сайте — это документы, у которых полностью или частично одинаковый контент. Из-за них сайт теряет позиции и трафик. В этой статье разобраны основные дубли на сайте, методы их поиска и удаления их.
Причины появления на сайте страниц, у которых разные url, но одинаковый контент могут быть самыми разными. Чаще всего так устроены cms (системы управления сайтом). Дубли — это якорь, который тянет страницы вниз и не дает попасть в ТОП. Устранение их — положительно скажется на видимости проекта.
Данная проблема актуальна как для новых сайтов, так и для старых. У двух типов сайтов могут быть основные дубли, а у старых — дубли, связанные с размещенным контентом на сайте (например, использование одинаковых title для разных материалов).
ПОИСК ДУБЛЕЙ НА САЙТЕ
1. Google webmaster — самый простой способ. В разделе «Оптимизация» – «Оптимизация HTML» вам показаны повторяющиеся мета-описания и заголовки Title.
2. Xenu — бесплатная программа, которая поможет проанализировать весь ваш сайт. После анализа необходимо лишь найти одинаковые заголовки страниц.
3. Анализ проиндексированных страниц сайта. Ручная кропотливая работа. Полезна для поиска странных и не нужных страниц в выдаче.
4. Netpeak spider — программа, которая поможет проанализировать сайт и найти дубли по Title, description..
ОСНОВНЫЕ ДУБЛИ
ДУБЛИ С WWW И БЕЗ
Вы наверняка замечали, что на большинство web-сайтов можно зайти, введя в адресную строку любой из вариантов URL-адреса (сайт с www или без): site.ru или www.site.ru. Нет истинного расположения сайта , так уж исторически сложилось, что наиболее распространенная форма записи доменного имени содержит элемент www, но многие обходятся и без него.
К сожалению, поисковые системы (как Яндекс, так и Google) считают два варианта написания имени отдельными документами. Это приводит к многочисленным проблемам, вплоть до исключения сайта из результатов поиска по причине дублирования контента и к снижению эффективности внешних ссылок. Если одни ссылки ведут на сайт site.ru, а другие — на www.site.ru, то вес ссылок распределяется по разному: пауки поисковых систем, переходящие по ним, воспринимают ваш сайт как два совершенно разных сайта. Вы можете решить данную проблему, перенаправив весь трафик только на один из вариантов написания.
КАК ПРОВЕРИТЬ САЙТ НА ДУБЛИ?
Есть ли данная проблема в вашем случае? Для этого откройте страницу поисковой системы Google (www.google.ru) и введите в строку поиска текст site:site.ru (вместо «site.ru» введите доменное имя вашего сайта). В результатах поиска вы увидите каждую страницу, которую данная поисковая система отнесла к вашему сайту. Если среди результатов вы заметите страницы с именами site.ru и www.site.ru, то проблема с разделением оценки рейтинга присутствует и у вашего сайта.
Обратите внимание на общее количество страниц, найденных поисковой системой, указанное в правом верхнем углу страницы с результатами поиска. Теперь введите в строку поиска текст site:www.site.ru (поменяв шаблон на доменное имя своего сайта, как и в первом случае). Если число найденных страниц ощутимо отличается от результатов первого поиска, то у вашего сайта однозначно присутствует проблема с разделением трафика. Учтите, что при использовании любых других поддоменов, помимо www, данный прием сравнения результатов может не сработать.
КАК УБРАТЬ ДУБЛИ С WWW И БЕЗ СО ВСЕГО САЙТА?
К счастью, перенаправление трафика с адреса site.ru на www.site.ru и наоборот делается очень просто. Для этого необходимо настроить 301 редирект в файле .htaccess, который расположен в корневом каталоге. Он сообщает веб-браузерам и поисковым системам, что данная страница навсегда перемещена из одного месторасположения в другое. Это может быть на том же самом сервере или вообще другое доменное имя. Получая такую команду, браузеры и поисковые системы сразу же переходят по указанному адресу.
Редирект 301 — отличный способ объединить дубли страниц и трафик, приходящий на разные варианты адреса вашего сайта. Популярные поисковые системы рекомендуют именно это решение. Перенаправив все ссылки и трафик только на один из вариантов написания доменного имени, вы можете ощутимо поднять общий рейтинг всего сайта. Как настроить 301 редирект, чтобы убрать дубли с www и без со всего сайта? Делается это в файле .htaccess и есть несколько вариантов:
- 301 редирект с www
- 301 редирект на www
1. Для первого варианта в файле .htaccess добавляем строки:
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]
2. Для второго варианта в файле .htaccess добавляем строки:
Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]
ДУБЛИ ГЛАВНОЙ СТРАНИЦЫ
- Очень часто доступны страницы типа site.ru/index.php или site.ru/index.html, которые дублируют главную страницу сайта site.ru. Аналогично и для сайта с www
- Дублированный контент из-за неправильной отработки 404 ошибки. Сервер отдает для таких страниц ответ 200 ок, но на них контент главной страницы
ДУБЛИ ВНУТРЕННИХ СТРАНИЦ
- Создание одинаковых страниц по невнимательности (пример — страницы с одинаковыми Title)
- Страницы со слешем на конце («/») и без него
- Страницы с окончанием /index.php ; index.html; .html и т.д.
Правило #1 — один главный домен для проекта. Если ваш домен зарегистрирован в нескольких зонах — .ru, .com, .su и так далее — необходимо применить редирект 301, чтобы все посетители попадали на основной сайт. Точно так же можно организовать переадресацию, если вам принадлежат несколько разных вариантов написания доменного имени.
Правило #2 — один документ = один url.
[…] для робота поисковых систем. Чаще всего они являются дублями. Аналогично и с http/https. Необходимо выбрать главное […]
[…] на другой идет перенаправление) Это необходимо, чтобы избежать дублей на […]