Убираем дубли страниц

Приветствую! С введением фильтров, которые налаживаю санкции на страницы с одинаковым контентом, вопрос запрета индексации дублирующих страницах стал перед веб-мастерами ребром. Многие современные системы управления сайтами (попросту движки) автоматически генерируют повторяющиеся страницы, которые видны под разными адресами. Наша задача найти такие страницы и сделать так, чтобы поисковый робот не индексировал дубликаты страниц нашего сайта.

Сайт с WWW и без WWW

Самая распространённая ошибка среди веб-мастеров – это возможность просмотреть сайта под двумя разными адресами: с www перед доменом и без тройного W. Как результат, если на Ваш сайт ссылаются другие сайты, то они так же могу поставить ссылку с WWW, а другой сайт будет ссылаться без WWW в итоге мы не получаем полноценный «вес» ссылок, которые стоят на наш сайт.

Чтобы избавиться от подобного, необходимо сперва узнать, под каким именем Яндекс видит наш сайт. Вводим в поисковую форму Великого и Могучего следующий запрос:

host:bitby.net | host:www.bitby.net

Сайт с WWW и без WWW

Так, мы видим, что Яндекс индексирует мой блог без префикса WWW.

Теперь, открывает файл htaccess и добавляем автоматический редирект с WWW на без WWW:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.bitby.net [nocase]
RewriteRule ^(.*) http://bitby.net [last,redirect=301]

Для того, чтобы поставить редирект наоборот, необходимо написать

RewriteEngine On
RewriteCond %{HTTP_HOST} ^bitby.net [nocase]
RewriteRule ^(.*) http://www.bitby.net [last,redirect=301]

Убираем слеш в конце адреса

Еще одна ошибка веб-мастеров – это не поставленный редирект со страниц которые заканчиваются слешем на страницы без слеша. При большом желании, Ваш конкурент может очень навредить Вам закупи пару тысяч гавно-ссылок на дубли страниц Вашего сайта дабы фильтры не обошли Вас стороной.

Убираем слеш

Опять-таки открываем файл htaccess и добавляем следующий редирект:

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ /$1 [R=301,L]

Данный редирект, будет перенаправлять в автоматическом режиме адрес страницы Вашего сайта с слешем на адрес без слеша.

Итак, сегодня мы узнали, как можно защитить свой сайт от лишних дублей страниц совершенно любого сайта. С весной Вас!

С Уважением, Василенко Иван! С уважением, Vasilenko Ivan!

Комментарии — 3 комментария

  1. #14819 Апокалиптик в 23:20, 13 апреля 2012: (подписался)

    Ответить | Цитировать

    Полезная фича, вроде мелочь но такая ошибка может здорово сайту навредить.

    Кстати, ты угадал какой Тиц получил мой блог и должен забрать приз в 15 wmz. Подробности в последнем посте на моем блоге.

  2. #14837 vanoID в 9:59, 15 апреля 2012:

    Ответить | Цитировать

    @ Апокалиптик:

    Спасибо большое, бартер, мы уже обсудили через почтовую переписку :)

  3. #24885 Sergey в 15:15, 25 января 2014: (подписался)

    Ответить | Цитировать

    подскажите, как отследить в автоматическом режиме дубли, у меня на портале их более 20 000. Ручками сложно. Заказал в сайтрепорт проверку, но чета она мутная показывает количество дублей общее, а местоположение нет

Добавить комментарий

имя:

e-mail:

сайт:

текст:

Subscribe without commenting