Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


     Здравствуйте!

      Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1019. Тема сегодняшнего разговора - очистка базы данных и удаление некорректно зарегистрированных ссылок. Эти вопросы уже знакомы постоянным читателям рассылки, обсуждались они неоднократно, причем наиболее подробно проблемы и их решение рассматривались осенью 2004 года (вопрос был поставлен в октябре, а меры по борьбе с мусором в каталоге разъяснялись в ноябре), и в январе 2005 был подведен итог проведенной акции.
      Тогда активные действия потребовались из-за обвала некорректных регистраций, дублирующих данные в каталоге и друг друга, засорявших базу данных неполными или бессмысленными сведениями. По результатам анализа таблиц базы данных большая часть лишней информации была из нее удалена, а чтобы такое не повторялось впредь, был выработан комплекс мер по проверке заполняемой при регистрации формы, дабы исключить дублирование вводимых данных или неполное их предоставление.
      Надо сказать, что введенные усовершенствования оказались эффективны: по прошествии полутора лет содержимое каталога выглядит достаточно цельно, и несмотря на постоянный прирост количества регистраций, значительной доли мусора среди них не наблюдается. Есть, конечно, некоторые ошибки при регистрации, которые не удается отловить автоматически, но впоследствии, на страницах каталога, такие записи не бросаются в глаза из-за их малочисленности.
     

*     *     *
     
Изначально идея нынешней проверки была в другом. Попытавшись на всякий случай сохранить копию базы данных, чтобы иметь под рукой список ссылок из каталога, из-за сбоев сетевого соединения я получил неполный список, тысяч 50 ссылок вместо 60, как в каталоге. Именно этот, не совсем полный список ссылок анализировался в выпуске рассылки за декабрь 2005 года, когда мы искали наиболее часто встречающиеся в текстах описаний слова. Собственно, правильное число было известно сразу, можно посмотреть прямо на страницах каталога - в начале мая там было 65120 ссылок. После повторного скачивания недостающей части списка, объединения и аккуратного сравнения обнаружилось, что уникальных (различающихся) URL в каталоге несколько меньше, а именно 64659, то есть 461 ссылка (всего 0.7% общего числа) заведомо лишняя.
      Конечно, менее одного процента - это не криминал, однако нарушен оказывается основной принцип построения базы данных: URL (адрес ресурса) уникален и является ключевым параметром для данной ссылки. Поэтому, чтобы исключить накопление несообразностей в базе данных в дальнейшем, эти дубли также было решено проанализировать и исключить. Между прочим, большинство их - уже давно зарегистрированы, и просто были пропущены при чистке 2004 года, уникальность URL тогда принималась как аксиома.
      В результате подсчета выяснилось следующее: лидировали несколько злостных регистраторов, обеспечивших присутствие своей ссылки в 11 и 9 экземплярах, дальше - чем меньше число повторений, тем больше количество URL, так что трехкратно дублировались 37 ссылок, а по две копии имели 310 адресов. Поскольку подавляющее большинство таких повторов явно не похожи на сознательную попытку засорения каталога, эти 364 уникальные ссылки не удалены из каталога, а только избавлены от повторений, то есть оставлены в базе данных в единственном экземпляре. А уж если разные дубли описаний содержали принципиально разную информацию - тут уж извините, как кому повезло, оставлено, конечно, только по одной записи.
      Кроме того, неспешный просмотр полного списка URL позволил найти и исправить некоторое количество заведомых опечаток в адресах (интересно, как они прошли через сито автоматической проверки доступности при таких очевидных ляпах?), так что еще 30 адресов в базе данных были поправлены. Таким образом, у меня в руках оказалась полная версия дампа базы данных каталога ссылок, а сама база данных оказалась еще немного дополнена и исправлена.
     
*     *     *
     
Теперь можно было повторить проверку по принципам 2004 года, сколько сейчас дублируется заголовков и описаний сайтов. Ситуация оказалась, на первый взгляд, спорной. Забавно, что чаще всего повторяющиеся 2 заголовка сайтов тоже дублируются по 11 и 9 раз каждый - хотя теперь-то это уже разные URL! Дальше - опять же, меньше, 4 по 7 копий, 2 по 6 и так далее. Однако при внимательном сравнении стало понятно, что с этими повторами лучше ничего не делать, чтобы не обеднять список ссылок излишне строгой его чисткой. Фактически, все такие дубли разбились на три группы, и в каждом из случаев единый механизм исправления ошибки придумать затруднительно:

  • Если заголовок или описание повторяется всего два раза, то это чаще всего следствие повторной регистрации ссылки другим человеком (соавтором создателя), когда в каталог добавлялся другой URL для того же сайта. И если одну из двух ссылок удалить, то вероятность потерять правильный адрес, а оставить именно старый слишком высока. Конечно, уже полтора года такие повторы по идее блокируются, но всякая автоматика иногда дает сбои:
  • Повторение заголовка или описания несколько раз (3 - 4 копии) характерно для регистраций совершенно разных сайтов разными авторами, просто не проявившими достаточно фантазии при сочинении аннотаций к своим ресурсам. Если начинать удалять такие ссылки - это все равно что просто удалять из каталога все подряд! Такое однообразие, между прочим, тоже блокируется, но кто-то умудрился пройти сквозь сито проверки.
  • Ну а когда текстовое поле повторяется более 5 раз - это уже либо хулиганство, либо невероятное стечение обстоятельств, бывают же многократные сбои при обращении к какой-либо странице - а чем лучше форма регистрации? Другое дело, что исправлять такие аннотации пришлось бы вручную, сравнивая различающиеся поля в дублирующихся записях: Это слишком долго и бессмысленно из-за малочисленности повторов, так что можно просто оставить все как есть.

Таким образом, было принято решение полную чистку каталога не повторять, и незначительное количество ссылок с повторяющимися значениями отдельных параметров оставить в базе данных в их нынешнем состоянии.
     

*     *     *
     
Последнее, что оставалось сделать - проанализировать распределение ссылок по тем или иным параметрам, основываясь на полной копии базы данных. Разбор текстовой части, так сказать, анализ словаря "Горячих ссылок", уже проведен в декабре 2005, и повторение подсчета слов по более полному тексту вряд ли что-то изменило бы. А вот разбивка ссылок по тематическим разделам - это интересный вопрос, попробуем сделать на основе имеющихся данных новые для нас выводы.
      Казалось бы, что может быть проще - открыть каталог в режиме отображения всех ссылок, показать перечень тематических разделов в виде списка, и отсортировать его в порядке убывания числа ссылок в разделе. И вот он, рейтинг популярности разделов! Однако есть варианты. С одной стороны, более корректным кажется такая выборка по всем 60 тысячам ссылок каталога, кто куда хотел, тот туда и регистрировался. С другой стороны, если отображать только проверенные ссылки, распределение по разделам будет несколько другое - и оно тоже представляет интерес, потому что большей ценностью обладают именно эти, отборные ссылки. Так что вот он, компромиссный вариант списка (такое в каталоге увидеть невозможно!) - занятое место определяется числом ссылок и в том, и в другом варианте каталога, а влияние чисел на результат обратно пропорционально общему числу ссылок: всего их 64672, из них проверенных - 8056. Итак, вот самые популярные тематические разделы:

Раздел Общее количество ссылок Количество проверенных ссылок
Строительство и ремонт 2608 181
Фирмы и компании, техника и технология 2039 99
Интернет-магазины 1808 94
Медицина 1418 130
Бизнес, коммерция, законодательство 2162 37
Туризм 1278 115
Путешествия и странствия 1382 95
Автомобили 1483 65
Разное 1575 42
Недвижимость 1002 107

      Конечно, это ничтожная доля статистической информации, которую можно было бы извлечь из полного списка ссылок каталога. Ограничимся пока этим, а другие сравнения оставим на будущее.

     Ваш Александр Левченя
      Адрес сайта: http://hotlinks.ru
      Электронная почта: webmaster@hotlinks.ru


В избранное