Все выпуски  

КАК СПРАВИТЬСЯ С ПРОБЛЕМОЙ ДУБЛИРОВАННОГО КОНТЕНТА И ИЗБАВИТЬСЯ ОТ ПРОЦЕНТНОГО МЫШЛЕНИЯ


АШМАНОВ и ПАРТНЕРЫ        Выпуск 130
(базовый)


ДУБЛИРОВАННЫЙ КОНТЕНТ
И ПРОЦЕНТНОЕ МЫШЛЕНИЕ
как этого избежать

События недели
Как справиться с проблемой дублированного контента и избавиться от процентного мышления
Советуем прочесть
Вопросы, ответы, темы форума
Задайте свой вопрос экспертам
О преимуществах платной подписки
СОБЫТИЯ НЕДЕЛИ

Google не планирует предоставлять услуги доступа в Интернет

КУДА ПОЙТИ УЧИТЬСЯ

12-13 июля пройдет семинар традиционный ежемесячный семинар компании "Ашманов и Партнеры" по продвижению сайтов в Интернете.

Еще осенью прошлого года в Сети появилась информация о том, что компания Google намеревается в ближайшем будущем создать собственный сервис беспроводного доступа в Интернет с использованием технологии Wi-Fi. Однако по данным, полученным от представителя Google, пожелавшего остаться неизвестным, компания пока не планирует предоставлять услуги доступа в Сеть, если не считать пробный Wi-Fi проект в Mountain View и San Francisco. По словам представителя Google, компания вкладывала и продолжает вкладывать средства в оборудование, которое требуется для обеспечения лучшей и быстрой работоспособности поисковых сервисов. Читать подробнее >>

* * *

Google за нейтралитет Интернета

Google заявила, что в случае, если провайдеры высокоскоростного доступа в Интернет будут злоупотреблять своим положением на рынке, если не будет принят закон о нейтралитете Сети, тогда компания без раздумий подаст антимонопольный иск против телекоммуникационных гигантов вроде AT&T и Verizon. Закон о нейтралитете Интернета предусматривает введение ряда ограничений, которые должны будут запретить телекоммуникационным компаниям брать дополнительную плату за высокоскоростную доставку контента, а также преднамеренно ухудшать связь с ресурсами конкурентов. Читать подробнее >>

* * *

Обновление Google Video

Пользователи Интернета благодаря обновлению видео-службы Google Video получили возможность бесплатного доступа к коммерческому контенту. Теперь с помощью бета-версии новой услуги “Спонсорское видео” можно просматривать видео-ролики, доступ к котором оплачивают компании-партнеры. Помимо этого пользователи могут оценивать по пятибалльной шкале, помечать и комментировать каждый ролик. Читать подробнее >>

* * *

Google пытается избежать суда с Kinderstart.com

Как известно, Kinderstart подал на Google иск, составленный группой юристов из Global Law Group, в калифорнийский суд, обвиняя его в том, что их сайт потерял большой объем трафика, когда необоснованно их рейтинг упал до нуля. Kinderstart.com считает, что это сделано умышленно, так как они являются конкурентами Google. Ранее ни один из исков против поисковиков не имел успеха. Основным аргументом поисковых систем становилось их право самостоятельно оценивать степень релевантности сайтов и размещать их в результатах поиска. Читать подробнее >>

* * *

Кредитор Google вложил $6 млн. в онлайн-куклы

С каждым днем растет интерес инвесторов к мультимедийным проектам в Сети. В подтверждение этого компания Sequoia Capital, которая является кредитором Google, вложила $6 млн в веб-сайт для подростков (для девочек от 7 до 17 лет) Stardoll.com, ранее известный как Paperdoll Heaven. Получив новое финансирование, компания планирует разработать новый контент для сайта, а также нанять новых разработчиков. По словам главы Stardoll Матиаса Микше (Mattias Miksche) компания будет работать в направлении увеличения рекламы брендов и интегрированной рекламы со своими партнерами. Также полученные инвестиции пойдут на новый сервис Me Doll, который в ближайшие месяцы позволит пользователям одевать собственных аватаров или самих себя. Читать подробнее >>

Как справиться с проблемой дублированного контента
и избавиться от процентного мышления

Как справиться с проблемой дублированного контента
и избавиться от процентного мышления

12.06.2006 - stuntdubl
Оригинальный текст - http://www.stuntdubl.com/2006/06/12/dupe-content/.
Перевод выполнен с разрешения правообладателя.

Уникальный контент - это ценный продукт. Несколько дней назад на форуме WMW была дискуссия по этому поводу, поэтому я подумал, что было бы неплохо написать статью на эту тему. Статья особенно интересна для тех, кто не зарегистрирован на этом форуме (хотя и должен был бы!).

Тема дублированного контента касается каждого, потому что у каждого имеются опасения, что он так или иначе имеет немного дублированного контента на своем сайте и может стать жертвой одноименного фильтра. До тех пора пока на всем вашем сайте есть хоть немного оригинального контента, шанс, что вы будете забанены или наказаны есть, но он довольно маленький. Учитывая это, я решил немного более глубоко погрузиться в эту тему, для того чтобы в будущем (не дай бог это понадобится) иметь готовый документ под рукой.

Дублированный контент - это не процентное соотношение

Все было бы очень просто, если бы можно было с уверенностью сказать, что 42% одинакового контента включают фильтр дублированного контента для сайта, тогда каждый вебмастер выкладывал на каждую страницу не более 40% такого контента и был бы счастлив. Но дело НЕ в процентах. Переменные, касающиеся процентного соотношения могут применяться в фильтре, но первым шагом на пути к пониманию, что же такое дублированный контент - перестать думать о нем как о некоем процентном соотношении.

Этот документ - Finding near-replicas of documents on the web - дает некоторое представление о том как поисковики оперируют с дублированным контентом:

Кластеризация точных копий по контрольной сумме (checksum)

Сравнение размера документа с размером страницы. Это то, как обычно люди представляют себе определение дублированного контента в рамках "процентное соотношение". До тех пор пока 20% контента будет оставаться уникальным - все будет в порядке… Пррррравильно. Это самый простой способ определения дублированного контента, который лежит в основе, но он не учитывает и другие методы, которые также могут применяться. Многие не учитывают эти другие методы, а полагаются на самый простой и таким образом попадают в ловушку процентного мышления.

Расчет по всем составляющим документа

"Разделение" документа на куски и поиск дублей среди этих кусков, которые потом маркируются для повторного просмотра.

Конечный документ разбивается, таким образом, на несколько маленьких частей...

Понимание методов определения дублированного контента - это первый шаг, для того чтобы избавиться от процентного мышления (далее в тексте - ПМ). Представьте себе 10 разных документов, которые состоят из 5 строчек текста, которые взяты из 3 документов, содержащих 20 строчек каждый. Все эти десять документов будут "уникальными" если сделать качественные перестановки. Но все они, тем не менее, будут до определенного процента подобны. А теперь, перед тем как подумать "сколько процентов подобия" будут критичными для вас, подумайте о других методах определения релевантности документа. Учтите также повторяющиеся операции для определения подобий между всеми этими документами. Теперь, как разработчик поисковых систем… как бы вы справились со всей это кучей данных?

Сортировочный подход

Сортирование и нахождение наложений (подобий).

Подход, основанный на вероятностном подсчете

Сравнение вероятности дублированного контента основываясь на маркерах (в документах) различных типов.

Работа фильтра дублированного контента

Хорошо, вы больше не думаете в рамках процентного мышления. Вы уже не думаете о том, какой процент дублированного контента допустим на сайте и решили нанять копирайтера, чтобы разместить на вашем сайте что-то стоящее. Вот еще один документ о дублированном контенте, который мне очень нравится - Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content

Из него мы можем вывести несколько положений о различных степенях строгости соответствия по отношению к дублированному контенту:

  • Первая степень - идентичность контента и структуры.
    Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.
  • Вторая степень - структурная идентичность, эквивалентный контент.
    Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.
  • Третья ступень - структурная идентичность, похожий контент.
    Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.
  • Четвертая ступень - частичное структурное соответствие, похожий контент.
    Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.
  • Пятая ступень - структурная идентичность, родственный контент.
    Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.

Несовпадение - ничего из вышеперечисленного.

Наказания, фильтры и бан за дублированный контент

Хочу отметить, что все нижеследующее основано на моем собственном опыте и догадках, так что есть большая вероятность, что на самом деле все - по-другому. Поэтому здоровый скепсис приветствуется...

Исходя из ступеней перечисленных выше:

  • 1 степень - бан
    Пример: dmoz/wiki clones
  • 2 степень - бан
    Пример: страница состоит из контента другой страницы (страницы результатов поиска).
  • 3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента
    Пример: osCommerce и описания в каталоге производителя
  • 4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.
    Пример: тот же что и в случае 3 - похожий контент и использование CMS
    Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.
  • 5 степень - не стоит волноваться -
    Два форума на vbulletin с одинаковыми категориями.

Несовпадение - лучший из возможных сценариев. Это именно то, что вам нужно. Дублирующий контент - не проиндексирован. Можно поставить запрет на индексацию дублированного контента.

Фильтр - какая-то часть контента на сайте (или на внешнем сайте) продублирована, или у вас недостаточно уникального контента. Скорей всего эти страницы будут выдаваться как дополнительные результаты. Фильтр понижает ваши позиции, из-за проблем с конкретными страницами.

Наказание - дублированный контент встречается слишком часто. Вы подсунули ботам дублированный контент столько раз, что они отказались посещать (индексировать) сайт так же часто, как и раньше (хороший пример - это календарь, или ID сессий). При наказании сайт обходится ботом не так часто или не очень глубоко (внутренние страницы не будут проиндексированы). Проблема находится на уровне страниц или сайта, с различной степенью соответствия; понижает в результатах выдачи.

Бан - скорей всего вы сразу же узнаете, когда попадете в бан. В противном случае - это всего лишь наказание или фильтр. Причин для бана, не так уж много - клоакинг чужого контента, нарушение DMCA, или другие страшные нарушения и вы точно знали о последствиях, когда делали это. Если это кто-то сделал вместо вас, то вам лучше придумать красивую историю о том, как вы стали жертвой нечестного черного оптимизатора. Бан - это замечательный повод для окружающих сообщить вам, что вас в***ли...

(Полная версия статьи опубликована в "РВ" - расширенном выпуске нашей рассылки)

Подписаться на "РВ" можно здесь - http://www.optimization.ru/subscribe/money.html

См. также Как бесплатно подписаться на РВ

Русский перевод под ред. И.Гурова

СОВЕТУЕМ ПРОЧЕСТЬ

"Яндекс": как все начиналось

Согласно статистике переходов на сайты с поисковых систем, которую ведет Liveinternet.ru, в течение последних трех месяцев "Яндекс" занимал в поисковых запросах россиян 60,5%. Популярность ведущей поисковой системы в Рунете с каждым днем растет. Однако, далеко не все многочисленные пользователи знакомы с тем, как и кто образовал компанию, каковы этапы ее становления, с какими проблемами сталкивались ее руководители и т.д. Известное медиа-издание "Эксперт" решил немного приподнять завесу тайны. Чтобы понять, как рождалась российская интернет-компания, как устроена она сегодня, каковы принятые нею бизнес-модели, какие перспективы у нее есть, "Эксперт" решил посмотреть на "Яндекс" - пионера рынка, ныне владеющего крупнейшей в России поисковой системой. Читать подробнее >>

* * *

Интервью с Алексеем Гурешовым - гендиректором Вебальты

Меньше чем за год молодая компания Webalta подготовила к публичному тестированию поисковик и проводит проверку дополнительных сервисов, в частности систему эффективной и доступной контекстной рекламы. 6 июля 2006 г. компания начала публичное тестирование собственного поисковой системы, что, безусловно должно оживить ситуацию на российском интернет-рынке, так как таких крупных проектов не было, наверно, около 4 лет. По этому поводу на несколько вопросов о сервисе и его поиске, о планах на будущее и др. ответил генеральный директор компании Webalta Алексей Гурешов. Читать интервью >>

* * *

Рост объема рекламы в Рунете

За первый квартал 2006 года наблюдался значительный рост объемов рекламы в России. Аркадий Пороховой, ссылаясь на данные исследовательских компаний и на мнения экспертов, в своей статье "Рунет забирает рекламу. Темпы роста объема рекламы в Сети стремительно растут" акцентирует внимание именно на этом. Совокупный бюджет российских рекламодателей за I квартал 2006 года составил 1,25 млрд. Долларов, что на 23% больше аналогичного показателя за прошлый год. Автор отмечает, что по-прежнему рынок телевизионной рекламы пока занимает первое места среди всех медиа, однако считает, что в скором времени все может кардинально измениться, связывая возможность этого с новым законом о рекламе, в связи с которым предложение в прайм-тайм на телевидении из-за повышения цен упадет. Читать статью >>

* * *

SEO-дайджест за июнь

Вышел очередной выпуск SEO-дайджеста на Master-X за июнь 2006 года. На этот раз дайджест привлекает своих читателей обилием новой информации за июнь и призывает их поучаствовать в обсуждении самых раскрученных и трепещущих тем за прошедший месяц. Таким образом, внимания удостоились такие обсуждения на известных мировых форумах: теряют ли имена брендов позиции в Google; может ли временный сбой сервера послужить причиной потери индексированных страниц; влияют ли изображения, хранящиеся на хостинге, на популярность ссылок; понизился ли ранкинг Google в Alexa и многое другое. Читать дайджест >>

* * *

Насколько надоедливы баннеры для пользователя?

Киа Романо (Cia Romano), основатель и генеральный директор консалтинговой компании Interface Guru, которая специализируется на оптимизации сайтов и интернет-рекламе, провела исследование того, какие же типы баннеров наиболее раздражают пользователей. Особое внимание уделяется тэйковерам (окнам, которые покрывают всю страницу сайта), Pop-up и Pop-under окнам (всплывающим поверх открытой веб-страницы или под ней) и самозапускающимся аудио и видеофайлам. В рамках исследования пользователей просили посетить сайты ABC.com, TVGuide.com, Netscape.com и MTV.com. Читать подробнее >>

* * *

Что предвещает Google Checkout для России?

На прошлой неделе Google объявила об открытии своего нового сервиса Google Checkout, который стал ее собственной платежной системой. Уже многие специалисты и аналитика прогнозируют в скором времени то, что новая служба отбросит на второй план PayPal, являющуюся сегодня самой популярной системой онлайн платежей в США. Однако стоит отметить тот факт, что пока Checkout действует только в США, но, скорее всего, вскоре он появиться и в Европе, и в России. "Компьюлента" попыталась выяснить у представителей компаний Webmoney и "Яндекс", что же может означать для российского рынка онлайновых платежей появление Google Checkout. Читать подробнее >>

* * *

Picasa Web Albums от Google

Компания Google не перестает радовать своих пользователей все новыми и новыми сервисами. На этот раз недавно поступил в открытое бета-тестирование фотохостинг Picasa Web Albums. Picasa Web за счёт интеграции с традиционной Picasa обещает стать одним из самых удобных и востребованных сервисов Google. Единственное, что пока огорчает, так это довольно суровое ограничение в 250 мегабайт, изменить которое до окончания теста не получится. После официального открытия сервиса дополнительное дисковое пространство можно будет свободно приобретать. Читать подробнее о новом сервисе >>

Обзор сделал Игорь Гуров.

ИНТЕРЕСНЫЕ ТЕМЫ ФОРУМА
Конкуренты имеют три сайта в Тор10. Что делать?.. Подробнее

Правильно в такой ситуации, к сожалению, начать делать то же самое. Если у конкурента 10 сайтов, то возможно, что в топе окажутся 1 Ваш сайт и 9 конкурентов. Даже если Ваш будет первым, такой расклад Вам невыгоден, а любые другие заведомо хуже...

Оптимизация. Аналогии с... Подробнее

Помогает ли мышление по аналогии и прежний опыт работы в других специальностях в работе оптимизатора.

Сайты с AdSense разрушают результаты поиска Подробнее

Поисковый спам сегодня – страница с никому не нужной информацией, сгенерированная автоматом, содержащая в себе рекламу той или иной рекламной сети. Больше всего этим страдает рекламная сеть Google.AdSense. Причин тут несколько – и отсутствие модерации сайтов, включаемых в рекламную сеть, и высокая стоимость кликов, и слабость поисковых алгоритмов, пропускающих сайты, содержащие информационный мусор, в верхние строки результатов поиска.

Альтернативная конкуренция Подробнее

Альтернативная конкуренция - это конкуренция со стороны "неконкурентов"... В интервью СФ Леннарт Дальгрен, долгое время возглавлявший IKEA Russia, как-то признался, что соперничество с «Шатурой» его беспокоит куда меньше, чем автомобильный рынок и индустрия путешествий. Кем могут быть наши альтернативные конкуренты? И есть ли они вообще в сео?

Поиск запроса как пользовательская поисковая технология Подробнее

Илья Сегалович искренне удивляется одному факту. Лет 20 назад никто не вводил в поисковую форму каких-то слов с целью получения какой-то информации. Сегодня это делают сотни миллионов людей, т.е. этот навык можно назвать пользовательской технологией поиска. Еще одна пользовательская технология рынку пока неизвестна, велика ли разница?..


Обсуждения в форумах - "живые". Новые сообщения могут появляться уже после просмотра вами заинтересовавшей темы. Маленький совет: если Вы хотите получать информацию о новых сообщениях в интересующих темах, сделайте две вещи.

  • Зарегистрируйтесь на форуме - http://seochase.com/profile.php?mode=register
  • Авторизуйтесь при входе и на странице с интересующей вас темой кликните по ссылке "Следить за ответами в теме". Извещения о новых ответах станут приходить вам на адрес, указанный при регистрации.

Увидимся на форуме.

КАК ЗАДАТЬ ВОПРОС ЭКСПЕРТАМ?


Cтатьи, исследования, экспертные ответы и оценки рассылки "Продвижение сайта с опытом экспертов" будут посвящены, прежде всего, тому, что больше интересует вас, наших подписчиков.

Присылайте свои вопросы и пожелания по адресу subscribe@ashmanov.com. Ждем!

Успехов Вам!

Выпуск подготовил Андрей Иванов
"Ашманов и Партнеры"


СПИСОК ЭКСПЕРТОВ | АРХИВ журнала "Продвижение сайтов" | СБОРНИКИ ДОКЛАДОВ

Компания "Ашманов и Партнеры" - услуги, проекты, статьи
Семинары по оптимизации и продвижению сайтов
Сайт-Аудитор: бесплатная программа для поисковой оптимизации


Рейтинг@Mail.ru

В избранное