Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


Информационный Канал Subscribe.Ru

Здравствуйте!

Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1099.
      Продолжая историю, начатую в предыдущем выпуске рассылки, расскажу подробно об отборе дублирующихся по тем или иным параметрам ссылках. Сегодняшний разговор фактически посвящен анализу данных таблицы 5 из прошлого выпуска, где было указано количество повторяющихся значений разных полей базы данных. Если выбрать по сотне наиболее часто употребляемых значений, получится следующая картина. Числа отличаются от старой таблицы, потому что подсчет дублирующихся описаний, например, в этот раз произведен после удаления по заголовкам, поэтому их меньше. Некоторые числа требуют дополнительного объяснения, о них будет рассказано далее.

Таблица 1

Поле Максимум повторов Повторы у 100-го в списке Удаленные ссылки
Заголовок 16 3 357+76
Описание 10 2 203+58
Домен 28 2 213+23
Почта 53 2 502+208

Для каждой из четырех процедур отсева был использован следующий общий принцип:

  • составляется список 100 "слишком частых" значений поля с выбором только непроверенных ссылок;
  • для каждого значения составляется список зарегистрированных с этим значением сайтов;
  • те из выбранных ссылок, для которых не отмечено ни одного посещения, удаляются из базы данных.
  • вся процедура проделана еще раз для списков от 100 до 1000 повторяющихся значений, конечно, с менее ошеломляющими результатами - это вторые числа после плюса в графе "удаленные ссылки".

В соответствии с таблицей 1, эта процедура повторена 4 раза, причем если отсев по заголовкам и описаниям выполнен для любых непроверенных ссылок, то отбор по доменам и почтовым адресам для более "точечного удара" выполнен только по ссылкам, зарегистрированным через форму на нашем сайте. В результате после каждой выборки в следующую группу попадало уже другое число ссылок, поэтому числа в таблице 1 изменились.
      В следующих таблицах перечислены те многократно использованные значения полей, за которые ссылки были удалены из каталога:

Таблица 2А

Заголовок Число повторов
Компакт диски почтой. Более 1850 дисков любой тематики 16
<img src="http://" width=88 height=31 border=0> 11
Каталог сайтов 11
Вентиляционное оборудование по ценам ниже заводских: 10
Профессиональный хостинг в дата-центрах США и России 9
No title 9
Татарстанский ЦНТИ 9
Доска объявлений 8
ООО 7
Компакт диски почтой. Огромный выбор 7

Таблица 2Б

Описание Число повторов
Анорт предлагает всем своим Участникам: 10
Милые женщины, здесь вы найдете: 8
HoroscopeHoroscope, daily horoscopes: 7
<br> 7
Знаменитые исторические романы 5
Бесплатная Гостевая Книга, размещенная на вебсайте: 5
Сегодня только Анорт обеспечивает: 9
Гороскоп на каждый день 4
Работа на дому по сборке авторучек: 4
Все об автомобиле ВАЗ 2104 4

Первые две таблицы (2А и 2Б) не скрывают за собой никаких хитростей, результат проверки дублирующихся заголовков и описаний - не столько акция по борьбе с обвалом регистраций этим летом через нашу форму, сколько общая "чистка" каталога. Все как обычно: регистрация разных страниц одного и того же сайта (до 9 повторов домена для некоторых заголовков и до 12 - для описаний), скорей всего, выполненная вручную для мнимого повышения посещаемости. Повторение действий раз 10 еще не тянет на попытку взлома системы.

Таблица 2В

Домен Число повторов
Russianprovince.ru 28
Ovsem.com 28
Geotop.ru 7
Urania.ru 7
Canegor.urc.ac.ru 7
V-point.ru 6
Perl.far.ru 5
E-x.ru 5
Bistro-site.ru 4
Cash.tot.ru 4

Таблица 2Г

Почта Повторы
retef@yandex.com 53
maxim@technolight.com 40
alaskavovik@yandex.com 34
maksim@siniloc.ru 31
laskavovik@yandex.com 29
maxim@technolight.ru 24
province@marsu.ru 15
juluavar2@e-mail.ru 13
regist@ovsem.com 10
Victoria@3wstyle.ru 10

А вот при анализе повторяющихся доменов (таблица 2В) уже возникли определенные подозрения, регистрировать до 22 раз одну и ту же ссылку (все-таки с варьированием некоторых полей формы) - это не всякий выдержит. И даже с учетом того, что дубли отбирались только по регистрациям через нашу форму (иначе под нож попадали многие востребованные ссылки), мусора набралось достаточно.
      Наконец, выборка вредителей по почтовым адресам (таблица 2Г) принесла плоды. На каждого "регистратора" пришлось по несколько десятков ссылок с разными URL и даже доменами, но все из них были удивительно однотипны по содержанию (несмотря на аккуратное изменение заголовков и описаний). Большинство из них попало в каталог летом текущего года, все - через форму регистрации у нас, так что вот они, конкретные виновники обвала регистраций, с которым и пришлось бороться!

*     *     *

Проведенные поиски определили методику дальнейшей борьбы с излишками информации в каталоге ресурсов, которая будет происходить сама собой. Ранее при регистрации ссылки выполнялись следующие проверки:

  • блокировка нецензурных и запрещенных слов;
  • недопустима регистрация с пустыми полями адреса, заголовка или описания;
  • проверяется система регистрации, с которой получена ссылка;
  • сайт должен быть доступен.

Теперь к существующим проверкам добавились следующие:

  • необходимо указание корректного адреса электронной почты;
  • из текста описания исключается дублирование заголовка сайта, из заголовка - дублирование URL - этот блок корректировки входных данных существовал и раньше, но он исправлен и дополнен новыми условиями обработки вводимых строковых полей;
  • нелегальное обращение к форме регистрации, если она была "украдена" и заполнена на постороннем сайта, запрещено;
  • если регистрируется новая ссылка, а не обновляются данные старой, то ни заголовок, ни описание не могут совпадать с параметрами других ссылок и должны быть уникальны;
  • обновление данных ссылки (т.е. фактически перерегистрация уже существующего в базе адреса) возможно только при обращении через форму регистрации с параметрами авторизации;
  • без пароля теперь нельзя обновлять даже непроверенную ссылку, а информация о проверенной ранее ссылке будет обновлена только после еще одной повторной проверки администрацией;
  • невозможна регистрация подряд нескольких ссылок с совпадающим доменом или адресом электронной почты;
  • перечень запрещенных значений параметров регистрации значительно расширен и дополнен "черным списком" доменов и адресов электронной почты, упоминание которых запрещено.

В черный список попали на данный момент те сто доменов и сто почтовых адресов, которые были выбраны при первой попытке нынешнего отсева. Таким образом, при будущих регистрациях будут блокироваться и отличившиеся не только через форму регистрации на нашем сайте. Некоторые из уже внесенных в базу ссылок с этими параметрами удалять из каталога не следует, потому что они востребованы посетителями. Вот как выглядит начало "черного списка", дополняющее данные таблиц 2В и 2Г - условно говоря, реальные ссылки, но уж слишком расплодившиеся:

Таблица 2Д
Домен Число повторов
Allref.ru 157
Sir35.narod.ru 114
Zhurnal.lib.ru 82
Chulkov.com 64
Info-net.com.ua 45
Antitax.ru 41
Photo.anort.com 39
Lawfirmuk.net 27
Obzor.com.ua 19
Sevpalmira.spb.ru 19
Таблица 2Е
Почтовый адрес Число повторов
Kon@ais.khstu.ru 163
Public@anort.com 126
Shum2@km.ru 112
Lipakseniya@yandex.ru 67
Ps-register@yandex.ru 61
Mail@tromex.ru 53
Offshorerussia@mail.ru 41
Index@chulkov.com 40
Maksim@siniloc.ru 32
Panarin@ukr.net 32

Эксплуатация в течение нескольких недель новой многоуровневой системы проверки регистрируемых ссылок с подробным просмотром всех отклоненных заявок показала, что наказание следовало "за дело", и все заблокированные обращения стоили того, чтобы их проигнорировать.

Как это не удивительно, после всех проведенных проверок всплеск активности летних регистраций остался заметным на странице статистики. Простой просмотр всех зарегистрированных за последние месяцы через нашу форму ссылок выявил только 24 лишних сайта из 1034 - значит, есть и какой-то положительный для каталога итог этого лета, оставленные ссылки чего-нибудь да стоят, даже если они попали к нам через украденную форму. На будущее же все-таки следует лучше защититься от таких нелегалов, не всегда количество означает качество, в нашей ситуации скорее даже наоборот.
     Кстати, попытки установить связь с администраторами пойманных в этом году четырех систем автоматической регистрации ссылок, воспользовавшихся нашей формой, так и не увенчались успехом - на письма никто не отвечает. Или считают себя выше необходимости общаться с авторами какого-то там каталога ресурсов, или чувствуют некоторый стыд за свои действия - в любом случае, их право игнорировать нас, а наше справедливое право с позором отклонять их нелегальные запросы к нашим сервисам. Подводя итог, повторяю свою мысль: никто не против регистрации новых ссылок в каталоге, но пусть они будут разнообразны, пусть указывают на оригинальные, реально существующие сайты. Сайты, подробно аннотированные, не содержащие непотребных вещей ни на своих страницах, ни в своих описаниях. Пока новых "поставщиков" таких ссылок выявить не удалось...

*     *     *

Ну а борьба со спамом в рамках каталога опять осталась на следующий раз. Дело в том, что для разумного анализа последствий произведенных изменений требуется время, которое и уйдет на сбор необходимой статистики. Так что будем ждать конкретных результатов!

Ваш Александр Левченя
      Адрес сайта: http://hotlinks.ru
      Электронная почта: webmaster@hotlinks.ru


http://subscribe.ru/
http://subscribe.ru/feedback/
Подписан адрес:
Код этой рассылки: comp.inet.news.hotlinks2
Отписаться

В избранное