Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


Информационный Канал Subscribe.Ru

Здравствуйте!

Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1053.

Продолжая начатый в прошлом месяце обзор промежуточных итогов работы каталога ресурсов, поговорим о требующей к себе внимания, как и раньше, системе проверки доступности ссылок каталога. Система действует, как и планировалось, проверка всей базы данных повторяется каждые несколько месяцев, так что самые "ранние" проверки выполнялись, можно считать, недавно:

Месяц
Число ссылок
Август
13285
Июль
14437
Июнь
14212
Май
11159

С другой стороны, четыре месяца - это уже не первая свежесть, а повод перевести систему с ежедневного плана на проверку 500 ссылок к большему их числу. Более подробные результаты оценки "производительности" системы проверки ссылок за 100 дней ее работы также вызывают некоторые подозрения:

Характеристика
Число ссылок
Комментарий
Среднее число проверок
437
Это мало, по идее должно быть 549 - ежедневная норма (500) плюс усредненное число новых ссылок (49)
Максимальное значение
581
6 мая, судя по всему, система автоматической проверки отработала полноценно - и новых ссылок в тот день было много
Минимальное число
40
19 августа, скорее всего, был сбой в автоматике, судя по низкому среднему, не единственный...

Напрашивается вывод: система работает ненадежно, проверки в какой-то момент занимают слишком много времени, и сервер просто не успевает "дождаться" ответа на запрос к проверяемому ресурсу. Так что оказываемое сейчас труднодоступным ссылкам внимание можно счесть чрезмерным и смело включить ограничение на время обработки запроса о доступности ссылки.
     Теперь рассмотрим более подробно последние результаты проверки, то есть примерно текущее состояние базы данных (напомню, итоги подведены 9 сентября). В таблице приведено распределение всех 56372 ссылок каталога по двум парам параметров, доступности-недоступности и принадлежности ссылки к "отборной" категории проверенных - то есть наличию рецензированной аннотации. Такое распределение неоднократно оценивалось в рассылке, и само по себе, может быть, оно не столь интересно, а показательно только в сопоставлении с данными на другой момент. Но нас сейчас интересует не процент "битых" ссылок в принципе, а качество работы системы, то есть вопрос о том, значительно ли число ее ошибок, и чем их наличие можно объяснить. Для этого в каждой из четырех получившихся категорий "доступности" выбиралось 5 групп по десять ссылок:

  1. последние зарегистрированные,
  2. самые популярные,
  3. первые в списке, отсортированном по номеру раздела,
  4. то же при сортировке URL по алфавиту и
  5. то же при сортировке по тексту названия сайта.
Получается, что выбранные в каждой категории 50 ссылок можно считать достаточно репрезентативной выборкой в том смысле, что отбор с одной стороны случаен, с другой стороны, каждому странному на первый взгляд результату оценки теперь легче будет найти объяснение. После того, как ссылки выбраны, по каждой из них производилась попытка обращения - простым нажатием в окне Internet Explorer (фактически самого распространенного браузера), примерно в середине дня, и не важно, посредством какого соединения с сетью Интернет - эти параметры можно считать обычными для случайного выбора. В следующей таблице перечислено, сколько ошибок было в данных проверки этих ссылок, выданных на страницы каталога автоматической системой, по сравнению с прямой проверкой:

Категория
Число ссылок
Число сбоев (на 10 попыток), то есть обнаружений реального ресурса при указании в каталоге на его недоступность, и наоборот
Новые
Лучшие
По разделу
По URL
По названию
Доступны, но не проверены
38928 (69%)
0
1
1
0
0
Доступны, проверены
7850 (14%)
1
3 (*)
2
1
2
Недоступны, не проверены
7303 (13%)
6 (**)
5
2
0
3
Недоступны, проверены
2291 (4%)
9 (***)
1
1
0
3

Некоторые подозрительные цифры из таблицы нуждаются в комментариях:
     (*) Самые популярные ссылки - они зарегистрированы достаточно давно (иначе когда бы они успели стать популярными), поэтому хотя они и проверены (это тоже уже давно сделано), сайт с тех пор мог на самом деле и закрыться, хотя теми или иными способами сообщать о своем якобы существовании.
     (**) Непроверенные ссылки часто ошибочно признаются недоступными, когда желание прорекламировать себя оказывается у разработчика сильнее возможности создать надежно работающий ресурс, поэтому сайт то доступен, то его нет - ведь раз он недавно зарегистрирован, значит, он был доступен, по крайней мере, в момент регистрации!
     (***) Кажущееся преобладание проблем в этой группе, на самом деле, ни о чем не говорит: это самая малочисленная категория, поэтому отмеченные здесь ошибки погоды не делают. Слишком все в Сети стало сложно: если документ недоступен, можно получить и так называемую ошибку 404 (сетевое сообщение, воспринимаемое нашей системой как недоступность ресурса), а можно и увидеть цветистую страницу с извинением, которую никакая автоматика не воспримет за сбой.

Вот такие, достаточно неоднозначные результаты. Тем не менее, они показывают, что система проверки ссылок имеет право на существование и несет на себе некоторую смысловую нагрузку. Главное - не воспринимать ее как универсальное средство контроля факта нормального функционирования сайта, а относиться к ней скорее как к подсказке, отражающей возможные проблемы (или наоборот, их вероятное отсутствие) с доступом к данному ресурсу.
     Отдельный вопрос - время доступа, которое также фиксируется нашей системой, но подробный анализ данных по времени доступа - тема отдельного разговора, и интереснее будет отложить его на некоторое время. Проведенный в этот раз анализ однозначно показал, что работу системы надо ускорить, увеличив число ежедневно проверяемых ссылок лучше сразу до тысячи. При этом надо по возможности гарантировать своевременное завершение ежедневной автоматической проверки, ограничив время ожидания ответа на запрос. Изменятся параметры системы, изменятся результаты проверки - через пару месяцев будет повод продолжить обсуждение!

С уважением, Ваш Александр Левченя
      Адрес сайта: http://hotlinks.ru
      Электронная почта: webmaster@hotlinks.ru


Subscribe.Ru
Поддержка подписчиков
Другие рассылки этой тематики
Другие рассылки этого автора
Подписан адрес:
Код этой рассылки: comp.inet.news.hotlinks2
Архив рассылки
Отписаться
Вспомнить пароль

В избранное