Главная / Оптимизация сайта / Как избавиться от дублей страниц

Как избавиться от дублей страниц

Удаление дублей страниц в поисковых системах Яндекс и GoogleВсем привет! В прошлой статье мы затронули важную тему — поиск дублей страниц сайта. Как показали комментарии и несколько пришедших мне на почту писем, эта тема актуальна. Дублированный контент на наших блогах, технические огрехи CMS и различные косяки шаблонов не дают нашим ресурсам полной свободы в поисковых системах. Поэтому нам приходится с ними серьезно бороться. В этой статье мы узнаем как можно убрать дубли страниц любого сайта, примеры этого руководства покажут как от них можно избавиться простым способом. От нас просто требуется использовать полученные знания и следить за последующими изменениями в индексах поисковиков.

[contents h2 h3]

Моя история борьбы с дублями

Перед тем, как мы займемся рассмотрением способов устранения дубликатов, я расскажу свою историю борьбы с дублями.

Два года назад (25 мая 2012 года) я получил в свое распоряжение учебный блог на курсах se0-специалиста. Он мне был дан для того, чтобы во время учебы практиковать полученные знания. В итоге за два месяца практики я успел наплодить пару страниц, десяток постов, кучу меток и вагон дублей. К этому составу в индекс Google в последующие полгода, когда учебный блог стал моим личным сайтом, прибавились и другие дубликаты. Это получилось по вине replytocom из-за растущего число комментариев. А вот в базе данных Яндекса количество проиндексированных страниц росло постепенно.

В начале 2013 года я заметил конкретное проседание позиций моего блога в Гугле. Тогда то я и задумался, почему так происходит. В итоге докопался до того, что обнаружил большое число дублей в этом поисковике. Конечно, я стал искать варианты их устранения. Но мои поиски информации ни к чему не привели — толковых мануалов в сети по удалению дублей страниц я не обнаружил. Но зато смог увидеть одну заметку на одном блоге о том, как можно с помощью файла robots.txt удалить дубликаты из индекса.

Первым делом я написал кучу запрещающих директив для Яндекса и Гугла по запрету сканирования определенных дублированных страниц. Потом, в середине лета 2013 года использовал один метод удаления дублей из индекса Goоgle (о нем Вы узнаете в этой статье). К тому времени в индексе этой поисковой системы накопилось более 6 000 дублей! И это имея на своем блоге всего пятерку страниц и более 120-ти постов…

Индексация страниц моего блога за все время

После того, как я реализовал свой метод удаления дублей, число их стало стремительно уменьшаться. В начале этого года я использовал еще один вариант удаления дубликатов для ускорения процесса (о нем Вы тоже узнаете). И сейчас на моем блоге число страниц в индексе Гугла приближается к идеальному — на сегодняшний день в базе данных находится около 600 страниц. Это в 10 раз меньше, чем было раньше!

Как убрать дубли страниц — основные методы

Существует несколько различных способов борьбы с дублями. Одни варианты позволяют запретить появление новых дубликатов, другие могут избавиться от старых. Конечно, самый лучший вариант — это ручной. Но для его реализации нужно отлично разбираться в CMS своего сайта и знать работу алгоритмов поисковой системы. Но и другие методы тоже хороши и не требуют специализированных знаний. О них мы сейчас и поговорим.

301 редирект

Данный способ считается самым эффективным, но и самым требовательным к знанию программирования. Дело в том, что здесь прописываются нужные правила в файле .htaccess (находиться в корне директории сайта). И если они прописываются с ошибкой, то можно не только не решить поставленную задачу удаления дублей, но и вообще убрать весь сайт из Интернета.

Как же решается задачка удаления дублей с помощью 301-го редиректа? В основу его лежит понятие переадресации поисковых роботов с одной страницы (с дубля) на другую (оригинальную). То есть робот приходит на дубликат какой-то страницы и и с помощью редиректа появляется на нужном нам оригинальном документе сайта. Его то он и начинает изучать, пропуская дубль вне поля своего зрения.

301 редирект как вариант убрать дубли страниц

Со временем после прописки всех вариантов этого редиректа, склеиваются одинаковые страницы и дубли со временем выпадает с индекса. Поэтому этот вариант отлично чистит уже проиндексированные ранее дубли страниц. Если Вы решите воспользоваться этим методом, то обязательно перед пропиской правил в файле .htaccess, изучите синтаксис создания редиректов. Например, рекомендую для изучения руководство по 301-му редиректу от Саши Алаева.

Создание канонической страницы

Данный способ используется для указания поисковой системе того документа из всего множества его дублей, который должен быть в основном индексе. То есть такая страница считается оригинальной и участвует в поисковой выдаче.

Для ее создания необходимо на всех страницах дублей прописать код с урлом оригинального документа:

<link rel= «canonical» href= «http://www.site.ru/original-page.html»>

Конечно, прописывать все это вручную тяжковато. Для этого существуют различные плагины. Например,  для своего блога, который работает на движке ВордПресс, я указал этот код с помощью плагина «All in One SEO Pack». Делается это очень просто — ставиться соответствующая галочка в настройках плагина:

Задаем каконические страницы в плагине All in One seo Pack

К сожалению, вариант с канонической страницей не удаляет дубли страниц, а только предотвращает их дальнейшее появление. Для того, чтобы избавиться от уже проиндексированных дубликатов, можно использовать следующий способ.

Директива Disallow в robots.txt

Файл robots.txt является инструкцией для поисковых систем, в которой им даются указания, как нужно индексировать наш сайт. Без этого файла поисковый робот может дотянуться практически до всех документов нашего ресурса. Но такая вольность поискового паука нам не нужна — не все страницы мы желаем видеть в индексе. Особенно это кассается дублей, которые появляются благодаря не соврешнеству шаблона сайта или наших ошибок.

Вот поэтому то и создан такой файл, в котором прописываются различные директивы запрета и допуска индексации поисковым системам. Запретить сканирование дублей страниц можно с помощью директивы Disallow:

Синтаксис и примеры работы директивы Disallow

При создании директивы тоже нужно правильно составлять запрет. Ведь если ошибиться при заполнении правил, то на выходе может получиться совсем не та блокировка страниц. Тем самым мы можем ограничить доступ к нужным страницам и дать просочиться другим дублям. Но все же здесь ошибки не так страшны, как при составлении правил редиректа в .htaccess.

Запрет на индексацию с помощью Disallow действует для всех роботов. Но не для всех эти запреты позволяют поисковой системе убирать из индекса запрещенные страницы. Например, Яндекс со временем удаляет блокированные в robots.txt дубли страниц.

А вот Google не будет очищать свой индекс от ненужного хлама, который указал веб-мастер. К тому же директива Disallow не является гарантом этой блокировки. Если на запрещенные в инструкции страницы идут внешние ссылки, то они со временем появятся в базе данных Гугла.

Избавляемся от дублей, проиндексированных в Яндексе и Google

Итак, с различными методами разобрались, пришло время узнать пошаговый план удаления дубликатов в Яндексе и Гугле. Перед тем, как проводить зачистку, необходимо найти все дубли страниц — об этом я писал в прошлой статье. Нужно перед глазами видеть, какие элементы адресов страниц отражены в дублях. Например, если это страницы с древовидными комментариями или с пагинацией, то мы фиксируем содержащие в их адресах слова «replytocom» и «page»:

Собираем информацию по дублям страниц для будущих директив Disallow

Замечу, что для случая с replytocom можно взять не это словосочетание, а просто вопросительный знак. Ведь он всегда присутствует в адресе страниц древовидных комментариев. Но тогда нужно помнить о том, что уже в урлах оригинальных новых страниц не должно быть символа «?», иначе и эти станицы уйдут под запрет.

Чистим Яндекс

Для удаления дублей в Яндексе создаем правила блокировки дубликатов с помощью директивы Disallow. Для этого совершаем следующие действия:

  1. Открываем в Яндекс Вебмастере специальный инструмент «Анализ robot.txt».
  2. Вносим в поле директив новые правила блокировки дублей страниц.
  3. В поле «список URL» вносим примеры адресов дубликатов по новым директивам.
  4. Нажимаем кнопку «Проверить» и анализируем полученные результаты.

Проверяем работоспособность новых директив Disallow в Яндекс Вебмастере

Если мы все верно сделали, то данный инструмент покажет о наличии блокировки по новым правилам. В специальном поле «Результаты проверки URL» мы должны увидеть красную надпись о запрете:

Результаты проверки работоспособности новых директив

После проверки мы должны отправить созданные директивы по дублям в настоящий файл robots.txt и переписать его в директории нашего сайта. А далее нам просто нужно подождать, пока Яндекс автоматически не выгребет из своего индекса наши дубли.

Чистим Google

Инструмент Гугл вебмастера "Параметры URL"С Гуглом не все так просто. Запретные директивы в robots.txt  не удаляют дубли в индексе этой поисковой системы. Поэтому нам придется все делать своими силами. Благо для этого есть отличный сервис Google вебмастер. А конкретно нас интересует его инструмент «Параметры URL».

Именно благодаря этому инструменту, Google позволяет владельцу сайта сообщить поисковику сведения о том, как ему нужно обрабатывать те или иные параметры в урле. Нас интересует возможность показать Гуглу те параметры адресов, страницы которых являются дублями. И именно их мы хотим удалить из индекса. Вот что нам нужно для этого сделать (для примера добавим параметр на удаление дублей с replytocom):

  1. Открываем в сервисе Гугла инструмент «Параметры URL» из раздела меню «Сканирование».
  2. Нажимаем кнопку «Добавление параметра», заполняем форму и сохраняем новый параметр:

Прописываем данные для параметра replytocom, чтобы избавиться от дублей страниц

В итоге у нас получается прописанное правило для пересмотра Гуглом своего индекса на наличие дублированных страниц. Таким образом дальше мы прописываем следующие параметры для других дубликатов, от которых хотим избавиться. Например, вот так выглядит часть моего списка с прописанными правилами для Гугла, чтобы он подкорректировал свой индекс:

Список параметров по моему блогу

На этом наша работа по чистке Гугла завершена, а мой пост подошел к концу. Надеюсь, эта статья принесет Вам практическую пользу и позволит Вам избавиться от дублей страниц Ваших ресурсов.

С уважением, Ваш Максим Довженко

P.S. Друзья, если нужно сделать видео по этой теме, то напишите мне в комментарии к этой статье.

Автор: Максим Довженко

Максим Довженко
Seo-специалист, веб-аналитик, блоггер. Совладелец кулинарного портала и видеоканала "Твой Поваренок". Специалист по работе с информацией, руководитель с 15-ти летним стажем. = Счастливый отец дочки Валерии. = :)

Check Also

Группировка семантического ядра сайта

Добрый день, уважаемые читатели! Все мы знаем, что сбор поисковых запросов — это фундамент для …

108 комментариев

  1. Аватар

    Привет, Максим. Я избавлялся от replytocom подобным образом, через 301 редирект. Также добавил параметры в панель вебмастеров Гугла.

    • Paladin

      Молодец, Василий! Видишь, все сам сделал, без каких-то подсказок! 🙂

      • Аватар

        Пришлось. Начал уделять внимание этой проблеме с декабря, после смены шаблона.
        Не знаю, связано это или нет, но после решения многих проблем с дублями, Гугл поднял посещаемость моего сайта на 30% в своей поисковой системе. А может это Панда 4.0 поработала. Она уже действует или нет?

        • Paladin

          Скорее всего это влияние дублей. Вернее, их отсутствие. Такую картину я наблюдал на многих блогах, в том числе и на своем.

  2. Аватар

    Почти все действия выполнила и с Яндексом вроде проблем нет, а вот гугл например ссылки с replytocom отправляет в сопли, то есть он их все равно индексирует, и вопрос стоит ли обращать на это внимание или нет?

    • Paladin

      Стоит обращать внимание — об этом я говорил во втором видеоролике прошлой статьи про поиск дублей.

    • Аватар

      Евгения, на это стоит обращать внимание. Дубли, которые есть в индексе можно удалять и в ручную. Правда, если дублей очень много, то это займет много времени.

      • Paladin

        Василий, не пугай коллег по блоггингу. Не так уж это много времени займет. День посидеть над составлением запрещающих параметров, прописать их в вебмастере Гугла и директивах robots.txt и все! 🙂

  3. Аватар

    Нашла новое для себя — о том как в вебмастере гугла прописать как избавиться от дублей, весьма полезная вещь. Посмотрим, даже интересно). Спасибо!

  4. Аватар

    Как-то по Яндексу все понятнее. Проверила роботс — все там верно.
    Галочку в «Каноничесике адреса» умный человек, который делал мой блог, поставил сразу (проверила).
    А вот Гугл… Как-то я вообще в нем мало понимаю, а проиндексированных страниц он выдает море… Поэтому буду потихоньку разбираться с Вебмастером Гугл..

  5. Аватар

    Согласен, что в Яндекс и Гугл можно запретить к индексации определенные строки, но вылетать они из индекса Google будут довольно долго, быстрого результата не ждите.
    Я также настраивал редирект 301 и менял robots.txt в панели вебмастеров Google и Яндекс.

  6. Аватар

    Максим, привет! Думал будет решение на уровне CMS, а то тоже Google фильтрует, как раз тоже с весны 2013 года. Но все эти запреты и canonical у меня прописаны с самого начала, они на replytocom в Google никак не влияют. Добавление параметров дает медленный результат, но тут по ходу надо снимать запрет в robots, чтобы Гугл мог переиндексировать страницу.

    А вообще, лучший способ не плодить replytocom — это изначально их не создавать, то есть, или отключать древовидные комментарии (можно использовать плагины), а лучше отредактировать файлы движка, чтобы кнопка «Ответить» не отдавала ссылку с replytocom. Например, как здесь _http://irinazaytseva.ru

    Вот если бы ты такое решение описал, цены бы не было.

    P.S. Я вообще удивляюсь, как такие умы, в лице разработчиков WordPress, не могут или не хотят устранить этот баг. Неужели не знают, что это реально проблемное место в движке?

    • Paladin

      Привет, Олег! Думаю, что создателей Вордпресса как-то не парит проблема этого бага.
      По поводу описания этой проблемы на моем блоге. Конечно, я могу сделать такой пост, но его далеко не все поймут — в коде из начинающих боллегров и веб-мастеров мало кто разбирается. Поэтому и статья эта не дает решений на уровне CMS.

      • Аватар

        Но мне было бы интересно, а то сам не программист 🙂
        Еще в плагине WordPress SEO есть галочка «Убрать replytocom», правда я ним пока не пользуюсь.

  7. Аватар

    Здравствуйте, Максим.
    Мне, кстати, тоже было бы интересно узнать как отредактировать файлы движка, чтобы кнопка “Ответить” не отдавала ссылку с replytocom.

    • Paladin

      Понял, Евгений. Запишу себе в будущий пост «Ответы на вопросы моих читателей». 🙂

  8. Аватар

    Максим, а как Вы избавились от индексации архива за 2014 год. Правило, исключающее 2012 и 2013, Вы прописали в robots.txt, если не ошибаюсь. А 2014?

  9. Аватар

    Максим, как всегда очень жизненный пост! А главное, понятный 🙂 Я уже прописала в вебмастере запрет, но количество дублей все равно увеличивалось. И вот, уже плюнув на все, отключила древовидные комментарии, но дубли все равно росли. А сегодня утром решила перепроверить и- о чудо! с 35000 они сократились до 3150!!!! Ура! Пока хотя бы так. Надеюсь со временем изучить и другие варианты)) А пока на очереди пагинация и прочие прелести.
    Спасибо тебе за те спасательные круги, которыми ты нас обеспечиваешь 🙂

    • Paladin

      Спасибо, Виолета! Рад твоим успехам — дубли приносят только проблемы нашим сайтам и нам необходимо от них избавляться!

  10. Аватар
    Алексей

    Добрый день, Максим! Спасибо за статью, после прочтения пошел проверять свои дубли и меня ждал сюрприз, начал все делать по вашей инструкции, и немного с параметрами запутался, посмотрите пожалуйста. если что поправьте все ли верно:

    site.ru/otzyvy.html?page=4 параметр page

    site.ru/korzina/view.html параметр view

    site.ru/index.php?option=com_search&searchword=%D0%BC%D0%B0%D0%BB%D1%8B%D1%88%D0%B5%D0%B9&searchphrase=all&ordering=newest параметр search или option=com_search?

    site.ru/component/users?view=registration параметр users

    site.ru/zdorove-detej.html?start=15 параметр start

    • Paladin

      Добрый день, Алексей! Все может подойти. Но учтите, если прописать директиву с ними для Disallow, то можете таким образом прикрыть от индексации нужные страницы с такими же словами в урлах (это касается Яндекса). Для Гугла все ок.

  11. Аватар
    Алексей

    Спасибо! А не будет лишним удалить дубли еще и с помощью гугловского инструмента «Удалить урл адреса» http://yadi.sk/d/CUvRuNytSaeRT про него вы не упомянули в статье

    • Paladin

      Можно, конечно. Но с помощью параметров мы программируем Гугл избавляться от дальнейших дуьлей, которые могут появиться в индексе (если конечно мы их не пропишем в robots.txt).

  12. Аватар

    Привет Макс, этого поста я ждал от тебя целый год 🙂 Лучше поздно, чем никогда. От древовидных комментариев я таким способом еще осенью избавился, но Гугл так из-под фильтра и не выпустил. 🙁

    Попробую еще другие параметры поискать…

    Скажи если в сопли попадает вот такой адрес: https://seoslim.ru/y/mchost-z.php
    в запретах я должен прописать /y/ или /y
    и надо ли одновременно убрать этот запрет из файла роботс? Спасибо.

    • Paladin

      Привет, Максим!
      Для полного удаления из Гугла ставть /y/ и прописывай в роботс — поисковик прекрасно понимает директивы запрета.

  13. Аватар

    Когда у меня были древовидные комментарии, то число страниц доходило до 10000. Я давно их отключила, сейчас Гугл показывает около 2000 страниц, из нх 21% не под фильтсром, то есть в поиске. У Яндекса тоже в поиске есть лишнее — обнаружила, что надо убирать страницы пагинации. Статья очень полезная, спасибо. Вот с редиректом не знаю, решусь ли связываться))

  14. Аватар

    Здравствуйте, Максим скажите пож. на движке вордпресс дубли собираются в категория то есть в рубриках. В моем случае ситуация такая. Все дубли в гугл написаны на английском языке, то есть заголовок статьи, в конце заголовка дубля написано вот такое слово /feed/ при нажатии на эту ссылку выходит, что-то похожее на код страницы. То есть получается, что бы удалить все эти дубли с гугла нужно в параметрах URL в гугл вебмастер добавить параметр (category то есть рубрики) я правильно понимаю?

    • Paladin

      Нет, Радик. Про feed я показывал подробно пример в видеоролике прошлой статье о том, как найти дубли. Это не категории. Для удаления feed нужно именно этот параметр и прописать в настройках вебмастера Гугла.

  15. Аватар

    Здравствуйте, Максим а можно ещё один вопросик, правда он не по теме. Как закрыть от индексации страницы навигации. Это страница об авторе, карта сайта, и так далее. То есть названия страниц, названия рубрик.

  16. Аватар

    Привет Максим, давно не заходил но вроде не пропустил ничего.
    Я тут запараноил по поводу этого знака # в урле. Так отрывается меню с рубриками теперь у меня. По сути этот знак может привязываться ко всем страницам так как меню в шапке, вот я и думаю, закрывать его или нет, проблема в том, что не могу понять как его прописать, он и со слэшем и без него попадает, например:
    http://webavtopro.ru/kuplya-prodazha#
    http://webavtopro.ru/#
    Ссылки уберите если что.
    И еще вопросик, я тут всячески пытаюсь уникализировать контент на сайте, теперь анонсы у меня уникальные, в статье не дублируются, выходит теперь нет необходимости закрывать пэйдж станицы?
    Буду рад если прокомментируете мои вопросы)

    • Paladin

      Привет, Михаил!

      В первом случае если желаете закрыть рубрики, то их можно каждую прописать в директивах роботс. Это не принесет вреда конкретным страницам, так как они у Вас 2-го уровня, а не 3-го, идущего за рубриками. В принципе, рубрики вообще можно не трогать — их у Вас мало по сравнению со страницами.
      Если теперь анонсы уникальные (скорее всего они сделаны в виде вордпрессовских цитат), то можно не закрывать пагинацию.

  17. Аватар

    УФ!! Наконец то дошли руки все проверила еще раз и оказалось, что закрывать есть.
    Во-первых нашла дубли в Яше: страницы пагинации.
    Гугл, несмотря на запрет, закинул и tag и категории в индекс. Ну и древовидные комментарии естественно.
    Интересно, что когда загоняла в вебмастер параметры на replytocom он мне пишет, что количество отслеживаемых страниц 5798, на остальные никаких цифр нету. Хотя в дополнительном поиске я их нашла

  18. Аватар
    Юлия Штрелер

    Здравствуйте, Максим! Третий день изучаю тему удаления дублей))
    Вот сегодня прочитала ваш подробнейший мануал. Теперь более менее понятно, как действовать. Еще раз спасибо за ваш труд.
    Вопрос вот какого плана. Как видно из скриншотов к статье,директивы для робота в гугл веб-мастере вы прописали в середине января. Смотрю ваш блог через РДС бар, и на сегодняшний день он показывает 38 процентов страниц в основном индексе гугла. Это процент без «соплей», как трактует РДС. Значит, по логике, «соплей» получается 62 процента?
    Или же в эти 62 процента входят и полноценные страницы, по какой-либо причине не попавшие в основной индекс, а улетевшие в дополнительный?
    Может я в чем-то ошибаюсь? Помогите разобраться, плиз

    • Paladin

      Добрый день, Юлия! 38% — это число страниц в основном индексе Гугла из общего числа документов моего блога. Остальные 62% мусор. Раньше, когда я делал установку параметра в Вебмастере (в январе), число в основе было намного меньше — около 10%.

  19. Аватар
    Юлия Штрелер

    У меня на одном из сайтов всего лишь 17 процентов общего числа проиндексированных страниц находятся в основном индексе гугла. А остальное — в соплях. Я эти сопли внимательно просмотрела, и там только нормальные полноценные страницы, «мусора» нет вообще.
    Значит ли это, что сайт воспринимается гуглом как некачественный?
    Я создавала его в качестве эксперимента. Все статьи (чуть больше сорока) — глубокий рерайт, да еще сделала пару месяцев назад платный прогон по каталогам и соц.закладкам.
    Сайт создан в узкой сезонной нише, в которой трафик более-менее приличный только летом-осенью. Посещаемость практически нулевая.
    Благодарю за ответ

    • Paladin

      И зачем Вам эти прогоны? Только деньги на ветер и негативное отношение Гугла и Яндекса…
      Скорее всего, что тут в соплях ошибки самого шаблона, которые плодят дубликаты. Они есть.

  20. Аватар
    Юлия Штрелер

    Благодарю, Максим! С прогонами я сознательно экспериментировала. Пытаюсь сделать МФА для людей, и в одном из популярных курсов прочитала про прогоны. Был небольшой эффект сначала, но потом стало хуже. Приходится учиться на собственном опыте, ведь 100 процентного рецепта успеха по сео оптимизации ресурса в интернете не найти))))

    • Paladin

      Согласен с Вами, Юлия! Многие вещи по любой теме можно получить только с помощью своих различных экспериментов или практик — не все можно найти в Интернете. 🙂

  21. Аватар
    Юлия Штрелер

    Максим, я правильно понимаю, что главное — это наличие бОльшего процента полноценных страниц сайта в основном индексе (если говорить о гугле)?
    (Ориентируясь на показания РДС бара)
    а все, что в дополнительном индексе, если процент небольшой и количество этих страниц — на это можно не обращать внимания?

    Все никак не могу понять (это что касается индексации в гугле):
    надо ли стремиться к тому, чтобы дублей не было ВООБЩЕ?
    Такое возможно в принципе или нет?

    • Paladin

      Да, можно и так сказать, Юлия!
      А дубли нужно убирать — это серьезно влияет на выдачу в Гугле. На Яндекс почти не влияет, так как русский поисковик умеет вычищать сам мусор по директивам роботс.

  22. Аватар

    Привет Максим!Тему ты поднял очень серьезную.Много копий сломано ,но истина пока не ясна.Александр Борисов например пишет, что наоборот надо Disalow /*? убирать из robots.t.xt.Еще он пишет,что в вебмастере гугла надо наоборот оставить запись -сканирование на усмотрение робота гугла.Так как он сам во всем разберется.Вот ссылка на его статью-http://isif-life.ru/blogovedenie/dubli-stranic-replytocom-wordpress-ili-kak-umerli-i-umirayut-tysyachi-blogov-dazhe-ne-podozrevaya-ob-etom.html.И он пишет после его действий сайт резко стал подниматься в выдаче.Что ты скажешь Максим?

    • Paladin

      Игорь, я уважаю труды Саши Борисова, всегда с удовольствием читаю его блог и являюсь его давнишним постоянным читателем. Если он написал статью на своем ресурсе, то он отвечает за ее содержимое. Я отвечаю за содержание своих постов. 🙂
      Но все же прокомментирую вышесказанное. Сам Гугл говорит о том, что нужно прятать ненужные вещи в Disallow. А вопрос о том, что не нужно давать уточнения — поисковик сам будет долго исправлять косяки шаблона. А вот точные указания (вариант, описанный в моей статье) уже использовались другими специалистами и все работает.
      По поводу резкого повышения трафика. Я смотрел блог Саши, мне было очень интересен этот скачок с точки зрения поискового продвижения. Я больше склоняюсь к мнению, что здесь сыграло как удаление дублей, так и работа новой Панды версии 4.0.

    • Аватар

      Вставлю и я свои пять копеек. Разбирался я с этим вопросом, даже статью написал на эту тему, раньше Борисова.

      Игорь, если у вас на сайте нет дублей страниц, то убирать директиву с вопросом из файла роботос не нужно, проблемы-то нет.

      Если проблема существует, то такие команды нужно будет убрать из файла роботс, для того, чтобы роботы переходили на дублированные страницы. А дальше они будут поступать так, как им будет указано, в зависимости от действий, которые предпринял администратор сайта.

      По поводу replytocom, лично предпринял такие действия:
      1. Удалил из файла роботс директиву с replytocomю
      2. Добавил в файл htaccess 301 редирект.
      3. Добавил код в файл functions.php (не борисовский).

      Трафик с Гугла увеличился в два раза. В панели веб-мастера Гугла у меня стоит параметр: «Никакие URL».

      Но также необходимо учитывать, что удаление дублей может не принести особого эффекта, так как это один из многих показателей, которые используют поисковые системы. Каждый сайт индивидуален. Что работает на одном, может не сработать на другом.

  23. Аватар
    Руслан

    Здравствуйте, подскажите если знаете, как можно удалить дубли, созданные архивами? Приведу пример.

    сайт.com/2014/01/21/ так выглядит ссылка архива

    сайт.com/2014/01/21/название статьи/ а такие урл имеют статьи сайта. Как запретить индексировать архивы?

    • Paladin

      Мой совет такой — сделать страницы не зависимыми от категорий (в данном случае, от архивов), тогда они будут всего второго уровня. И тогда легко убрать дубли, прописав для Яндекса disallow 2014, для Гугла — параметр 2014.

  24. Аватар
    Олегатор

    Здравствуйте Максим, подскажите пожалуйста, как мне поступить?
    Я пишу в гугл вот это «Catalog — Glen Scotia site:classicdram.com», первая страница, которая появляется в поиске нужная нам, однако я пролистал до последней страницы и выдачи и перешел в «показать скрытые результаты», первый в списке тоже был нужная страница, как это понять? В чем проблема, подскажите пожалуйста!

    • Paladin

      Все нормально, Олегатор. Это значит, что Ваша страница есть как в общем индексе Гугла (вместе с дублями), так и в основном поисковом индексе.

  25. Аватар
    Олегатор

    То, что страницы есть как в двух местах это я понял, с этим ничего делать не надо? Гугл нормально к этому относится?
    Подскажите пожалуйста вот еще что…А какие вообще страницы стоит закрывать от индексации кроме дублирующего контента?

    • Paladin

      Обычно закрывают страницы пагинации, фидов, служебные документы, иногда в блогах закрывают страницы с тегами.

  26. Аватар

    Здравствуйте, Максим. Вопрос по созданию канонической страницы: посмотрел Ваш скриншот из данной статьи, но на своём блоге в «Настройках» не нахожу плагина All in One SEO Pack. Подскажите, как быть в этой ситуации?

    • Paladin

      Добрый день, Александр! Все очень просто — этот плагин нужно устанавливать отдельно.

  27. Аватар

    Здравствуйте Максим! Я поменял ЧПУ страниц потом вернул обратно как было появились дубли с ошибкой 404. Скажите эти дубли пропадут сами или от них нужно избавляться и вобще есть от них вред?

    • Paladin

      Добрый день, Валерий! Из базы данных Яндекса они исчезнут (если файл robots.txt правильно настроен), а вот из Гугла придется удалять ручками.

  28. Аватар

    Здравствуйте, Максим подскажите пож. в гугле в параметрах URL прописал /feed/ но они все равно появляются.

  29. Аватар

    Максим /feed/ я установил 17.06.2014 г. как только прочитал вашу статью. Я, что-то пока понять не могу, не на все статьи появляются /feed/ то есть из пяти статей две могут появится с /feed/. Проверяю в расшир. поиске гугла на дубли дублей нет. Да и гугл непонятно, с начало показывает 300 страниц, тут же перепроверяешь уже 220 стр.

  30. Аватар

    Да я проверял на дубли страницы с /feed/ в расширен. поиске показывал, что дублей нет. Спасибо.

  31. Аватар

    Здравствуйте! Маленькое уточнение по поводу атрибута rel=»canonical». Стала разбираться — ставить его нужно не только на дубли страниц, но и на оригинал. В саппорте гугла написано так: «Пометьте каноническую страницу и все остальные варианты страниц атрибутом rel=»canonical». То есть прописываем этот атрибут и на оригинале и на дубликатах.

  32. Аватар

    Здравствуйте! Максим я Вас очень прошу подскажите пожалуйста вот хотел внести свой параметр в Параметры URL, зашел в Инструменты для веб-мастеров в гугл, а там стоит параметр ref на усмотрение робота Googlebot, количество отслеживаемых URL 34000. Скажите пожалуйста может стоит их восстановить или изменить? Вот скрин: http://www.kinoreal.net/ref.png, простите за ссылку это не реклама! ПРОШУ ВАС ПОМОЧЬ!

    • Paladin

      Добрый день, Руслан! Поясните, что у Вас делают страницы на сайте (какой на них контент), в адресе которых есть ref?

  33. Аватар

    Сайт http://www.kinoreal.net, резко начали падать позиции и посещаемость, после чего заметил что в истории индексации страниц в Google начали по сумасшедшему прыгать страницы — Вот скриншот: http://www.kinoreal.net/2222.png . На сайте нет нечего связанного с ref ВООБЩЕ! Заметил что стоит ref в параметрах URL — Вот примеры недавно просканированных URL: http://www.kinoreal.net/1111.png и сканирование стоит на усмотрение робота Googlebot. Максим дайте пожалуйста совет, что с этим параметром делать, изменить его стоит или восстановить или вообще оставить все как есть? Все что не нужно индексировать закрыто в robots.txt, установлен атрибут rel=»canonical»! Прошу Вас помочь!

    • Paladin

      Интересный случай, Руслан! Никогда не сталкивался с ним. Постараюсь Вам помочь.

  34. Аватар

    Спасибо огромное! Буду ждать вашего сообщения!

  35. Аватар

    google?ref=http://www.kinoreal.net//news/pershij_nacionalnij/2012-12-18-487
    google?ref=http://www.kinoreal.net/news/kanikuly_v_meksike_2_noch_na_ville_vypusk_278_01_03_2013/2013-03-02-1754
    google?ref=http://www.kinoreal.net//news/perec_dtv/2012-12-13-373
    google?ref=http://www.kinoreal.net//news/ja_tozhe_khochu_2012/2013-01-17-949
    google?ref=http://www.kinoreal.net//news/disney/2012-12-15-400
    google?ref=http://www.kinoreal.net//news/eurosport/2012-12-15-415
    google?ref=http://www.kinoreal.net//news/fakti_tizhnja_fakty_nedeli_31_08_2014/2014-08-31-16017
    google?ref=http://www.kinoreal.net//news/21_pljus/2013-01-05-754
    google?ref=http://www.kinoreal.net//news/kartochnyj_domik_house_of_cards_2013/2013-02-08-1354
    google?ref=http://www.kinoreal.net/news/uzhasy/1-0-5

    Вставьте в гугл посмотрите куда они все ведут! Что-то мне подсказывает, надо поставить что не на что они не влияют в вебмастере, или востановить

  36. Аватар

    Да нету нечего такого!

  37. Аватар

    О том, что с гуглом не все так просто, я поняла после того, как проверила в вебмастере страницы. И вроде robots был правильно написан, а они вылезли откуда-то. Я не долго думая просто скопировала неправильные адреса и добавила их в файл. ))))))))))))))))) Помогло! )) Правда на индексации гуглом, это ни как не сказалось.

  38. Аватар

    Насколько я знаю, уже не работает защита от дублей через гошу и через роботс.

    • Paladin

      Да нет, Денис, защита работает.Просто нужно запретные директивы против дублей ставить перед публикацией сайта в сети. Если этот момент прошляпить, Гугл и Яндекс успеют нахватать всякого хлама в виде дублей.

  39. Аватар

    У меня оказались два canonical, один от Платины, другой от WP.
    Один надо убрать. А как?
    Максим! Я посмотрела у Вас. Есть canonical от вашего СЕО-плагина. А куда второй спрятали? Или его изначально не было? Как можно убрать лишний?

    • Paladin

      В том плагине, которым Вы сейчас пользуетесь, ставите каноникал. Второй не помеха.

  40. Аватар

    Максим привет!
    У меня некоторые вопросы есть. В гугл вебмастере уже был параметр replytocom, я его изменила, как сказано в статье. Так же добавила еще параметры feed и page.
    Вопросы
    1. В роботсе у меня этих параметров целая куча (они остались в блоке для яндекса). Я с ними немного запуталась. Были вот такие
    Disallow: /page/
    Disallow: /page
    Disallow: */page/*
    Disallow: */feed/*
    Disallow: */feed
    Я все удалила, но оставила Disallow: */page/* или этот параметр тоже нужно удалить?
    А еще есть вот такие
    Disallow: /*?*
    Disallow: /?*
    Они мне не помешают?
    2. Максим, а еще в вебмастере гугла я увидела в параметрах вот такие
    srp 367
    srk 367
    sra 367
    983f1e 843
    ff429c 2010
    Напротив пишет количество отслеживаемых урл и сканирование на усмотрение робота. Я не знаю что это такое и что с этим делать.

    • Paladin

      Привет, Лара!
      1. В Вебмастере мы удаляем то, что просочилось в индекс Гугла до появления запрещающих директив в robots.txt. То есть удалять такие директивы не нужно — они служат запретом для гугловского робота плодить дубли в своей базе данных по нашему сайту. Поэтому рекомендую вернуть те директивы, которые ты удалила. 🙂 Параметры с ? не помешают — они блокируют возниконовение новых replytocom в индексе.
      2. И я не могу так сказать, что это. Пришли мне скриншот экрана, где ты это увидела в вебмастере.

      • Аватар

        Ой мама дараГая, вебмастер я ломастер)))) ща пойду все верну… хотя я точно у кого-то увидела, что сначала добавляем в веб мастер, а потом удаляем. Борисов говорил — Ооо, дарагой ты наш гугл, приходи и кушай что хош! ))
        Хотя я может быть не правильно все поняла. Кароч, все верну и я тебе сейчас на почту скрин пришлю

        • Paladin

          Борисов говорил. Понимаю. Если так, то почему мне задаешь вопрос? 🙂

          • Аватар

            Я всем задаю ))) Потому что хочу понять, как правильно. )

          • Paladin

            Зачем столько вопросов задавать? Нужно обратиться только один раз, к специалисту, и все. 🙂
            По поводу тех параметров (srk и т.д.) — это какие-то дубли, который создает твой блог. Поэтому поставь и для низ запрет в вебмастере.

      • Аватар

        Максим я все равно ничего не поняла, хоть и вернула все на место.
        У той же Александры Вовк
        Добавление URL в robots.txt только ограничивает доступ к странице, но поисковиком она все-равно учитывается. Вместо этого в случае с replytocom нужно:
        1. В robots.txt не добавлять никаких ограничений;
        И в твоем роботсе я тоже не вижу директиву реплитоком

        • Paladin

          Разумеется, поисковики все видят. Но запреты даются им для того, чтобы они не индексировали то, что им не нужно. Иначе зачем правила!
          У меня запрет на replytocom стоит — об этом я сказал в прошлом комментарии (» Параметры с ? не помешают…»). У меня для этго есть директива — Disallow: /*?

          • Аватар

            Точно! Про вопросик я забыла, вернее мимо своих ушей пропустила. Макс, извини. Я усе теперь поняла. ))
            Все сделала, теперь буду смотреть, уменьшатся дубли иль нет. )

          • Paladin

            Отлично, Лара!

  41. Аватар

    Ой, куда то коммент улетел!

  42. Аватар

    Добрый день!

    Спасибо за статью )
    У меня возник вопрос
    Допустим, нашла на сайте следующие дубли
    http://site.ru/usr/home/wwwsiteru/www/blog/kak-ustanovit-pgu/
    — для этих дублей устанавливаем параметр с учетом регистра
    usr
    http://site.ru/home/users1/o/oooavto/domains/site.ru/news/maz-500/
    а для этих дублей
    home

    http://mazprice.ru/catalog/maz-543202/2/?letter=%D0%BA
    параметр
    ? — знак вопроса

    также мне пока что совсем не понятно, какой подобрать параметр
    вот для такой страницы
    http://site.ru/catalog/maz-533605/ — основная
    http://site.ru/catalog/maz-533605/5/ — дубль

    Если не сложно, скажите, верны ли мои рассуждения.
    спасибо за ответ )))

    • Paladin

      Добрый день, Вера!
      В последнем случае явно требуется прописать каноническую страницу и со временем дубли исчезнут из индекса Яндекса. В гугле же этого может и не хватить — надо просто проверить, что будет после канонической.
      Параметр в виде знака вопроса не стоит ставить. Возможно, лучше взять вариант letter. Но нужно смотреть другие станицы, чтобы ничего ненароком не удалить полезного из индекса.
      В первом случае не совсем понятна структура адресов.

  43. Аватар

    Здравствуйте. Отличная статья! Все четко, понятно, а самое главное указаны причины и как их убрать. Сейчас в интернете много статей по этой теме. Но не все пишут их так хорошо. Честно говоря я уже устал искать вразумительную статью на тему дублей в интернете! Встречаешься со всякими идиотами, которые сами у такого же идиота передрали текст статьи и радуются. Советуют всякую хрень, что потом из-за их неопытности потом у тебя половина всех картинок со статей исчезает. Поэтому очень Вам благодарен Максим! У вас отличный сайт, а самое главное вы уж точно знаете о чем пишите и можете ответить и поддержать свои слова фактами. Я очень вам благодарен, что вы существуете! Спасибо!

    • Paladin

      Спасибо, Александр! Я с Вами согласен, многие начинающие блоггеры переписывают друг у друга информацию без понимания, что суть блоггинга — это не плагиат, а настоящее авторство!

  44. Аватар
    Дмитрий

    Отличная статья! Емко и понятно. Все сделал как написано и кайфую теперь какой я умный. Спасибо огромное!

  45. Аватар

    Здравствуйте, Максим.
    Благодарю за отличный материал.
    Простите если, что, я человек не из мира Seo, но постараюсь правильно сформулировать вопросы. Может сможете прокомментировать. Благодарю заранее.
    Обнаружил благодаря Вашим советом дубли, не так много, но всё же есть. С Яндексом вроде всё ясно и проще. Вот по Гугл не до конца ясно.

    1. В панели Вебмастер > Параметры URL > Нажимаем кнопку «Добавление параметра». Каждый раз, по отдельности просто вписать и сохранить слова имеющиеся в дублях страниц: page, category, feed и так далее? И это автоматически, со временем, уберёт все страницы (урлы) сайта с индекса Гугл где есть эти слова (page, category, feed)? Правильно понимаю?

    2. Robot.txt — вижу есть возможность прописать запреты в самом Гугл Вебмастер. Хватает только этого или эти запреты в Robot.txt надо ещё и на сайте прописать/залить?

    3. У меня сайт о мебели. Структура вроде самая обычная. Например:

    site.ru/мягкая-мебель
    site.ru/название-продукта
    site.ru/производители

    Но вот Вордпрес видимо сам создал таких нежеланных «парней». То есть обычный посетитель сайта на них не может прийти с самого сайта, их просто там нет, только если обнаружит такой дубль/глюк в поисковике:

    site.ru/мебель-продукты
    site.ru/мебель-страницы
    site.ru/производители-к

    Как побороть вот этих нехороших «приятелей»?

    Ещё раз спасибо.
    С уважением,

    • Paladin

      Добрый день!
      1. Да, все верно.
      2. robots.txt для этого и существует, чтобы указывать запреты на индексация служебных и не тематических страниц на сайте.
      3. В сети полно материала, где этот вопрос подробно поясняется.

  46. Аватар

    Благодарю за ответ.

  47. Аватар

    Здравствуйте, Максим,

    Разрешите задать ещё один вопрос. Странно что его вроде никто не задал 🙂

    На последней вырезке (самый низ Вашего поста) скрина есть таблица с Параметрами.

    Так вот, на таблице видно, например: Параметр: comments — Количество отслеживаемых URL 2061

    Параметр: feed —

    То есть поисковик якобы вообще не отслеживает страницы с словом feed.
    Но оно у Вас прописано в параметрах, значит предполагаю такой дубль был.

    Спрашиваю, потому, что наблюдаю у себя антологичную ситуацию.

    В индексе имеются десятки дублей например с словом/параметром page.

    Этот параметр, как и другие, более двух недель внесён в Вебмастере: Параметры URL (как и рассказано у Вас с посте).

    По всем этим внесённым параметрам в таблице как и у Вас на примере с feed, в графе Количество отслеживаемых URL, просто —

    То есть внесено около 10 параметров, а Гугл якобы страниц с такими словами/параметрами вообще не отслеживает.

    В индексе за эти две с половиной недели изменений тоже не наблюдаю.

    Как были дубли с например page, так и есть.

    Может можете прокомментировать эту ситуацию?

    Заранее благодарю.

  48. Аватар

    Здравствуйте Максим. А можно к вам обратиться за помощью? На сайте неимоверное кол-во дублей. Возникновение их не известно.. наверное из-за парсинга. Как удалить не знаем(( пожалуйста помогите..

  49. Аватар

    Отличная статья!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *