Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


Информационный Канал Subscribe.Ru

Здравствуйте!

Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1100. Последнее время наш сайт функционировал нормально, и после простоя с 4 по 15 марта серьезных проблем больше не наблюдалось. По крайней мере, в течение ближайших месяцев все так же и будет. Что касается рассылки, сегодня наше внимание будет уделено в основном рейтингам.

Новый рейтинг TopRef
Рейтинг Top20: файлы сайта
TopXX: сайты интернет
Разные обновления

Новый рейтинг TopRef

У предоставляемых нами сервисов появились новые возможности, перечисление их начну с таблицы 1: разные характеристики сервера за 18 суток его работы. Представлена статистика по тем величинам, которые еще не обсуждались в предыдущем выпуске рассылки. После таблицы обсудим подробно, что означают ее данные:

Таблица 1

 
Минимум
Максимум
Среднее
Сумма
(1) "Отборные" IP-адреса
38
246
147
2648
(2) Доля "отборных" IP-адресов
2%
5%
3%
 
(3) Распознанные хосты
14
144
59
1002
(4) Доля распознанных хостов
1%
85%
27%
 

Итак, сегодня я начну с рейтинга клиентов нашего сервера TopRef, которому и "посвящена" данная таблица. "Отборными" (1) считаются запросы к текстовым файлам, т.е. гипертексту или скриптам. Остальные, которых (судя по (2)) в примерно 30 раз больше, видят только логотип нашего проекта. Именно это разделение клиентов и выбрано в качестве критерия помещения участника рейтинга в общую или Gold-категорию.

Все IP-адреса, запросы с которых регистрирует сервер, попадают в основную категорию, и их там получается очень много. Даже если группировать их по повторяющимся первым числам (назовем это "тройной IP-зоной"), данных рейтинга все равно было бы много, и объем информации все время слишком быстро бы увеличивался. В таблице 2 представлено распределение по числу зон "разного уровня" после недели работы рейтинга в тестовом режиме:

Таблица 2

Принцип группировки
Общее количество (доля максимально возможного числа)
В среднем на одну "старшую" зону
(I) Все IP-адреса *.*.*.*
44865 (ничтожно мало)
 
(II) "Тройные" зоны *.*.*
18577 (0,1%)
2,42
(III) "Двойные" зоны *.*
4016 (6%)
4,63
(IV) Зоны первого уровня *
91 (36%)
44,1

В течение нескольких суток на странице рейтинга отображалась информация по всем IP-адресам (I). Потом из-за непомерного роста объема информации рейтинг был переведен на учет только "тройных" зон, учитывалось количество уникальных IP в пределах одной зоны. Оказалось, что такой способ учета так же неэффективен, что видно по строке (II) таблицы 2: "экономится" в среднем половина участников рейтинга, а информации по каждой зоне надо хранить много. И конца этим данным тоже не видно, собрать их можно в сотни раз больше. В таблице 3А перечислены лидирующие по числу уникальных IP 10 "тройных" зон, а в среднем их, напоминаю, всего 2,42.

Таблица 3А

"Тройная" зона
Число уникальных IP
66.196.72
100
81.2.57
78
213.33.245
78
212.46.236
77
62.118.138
74
212.46.254
73
212.46.255
73
212.48.199
72
62.118.135
70
212.120.171
70

Таблица 3Б

"Двойная" зона
Число уникальных IP
62.118
1996
212.46
962
195.239
906
195.131
766
194.158
757
195.5
629
213.59
599
217.107
542
213.33
491
194.186
469

Таким образом, хранить информацию обо всех "тройных" зонах с уникальными IP в каждой было бы слишком расточительно. Поэтому было принято решение хранить список "двойных" зон вида (III) и считать, сколько "тройных" зон попадает в каждую из них. В таблице 3Б перечислены лидирующие по числу IP "двойные" зоны, в среднем их получается 11,2. Конечно, данные по зонам "первого уровня" (IV) были бы еще компактнее, но это уже слишком ограниченный вариант рейтинга.

В результате на странице основной категории рейтинга TopRef отображаются:

  • перечень "двойных" IP-зон с указанием в раскрывающемся списке выбора учитываемых "тройных" IP-зон. Список выбора тройной зоны не имеет никакого смысла и отображается только для компактности представления данных.
  • Суммарное число запросов с IP-адресов данной "двойной" зоны. Поскольку подавляющее большинство участников общей категории рейтинга скачивают только один и тот же файл логотипа, учитывать трафик и тем более его среднее значение нет никакого смысла.
  • Общее количество "собственных" тройных зон.

Такие же проблемы с выбором представляемой информации проявились и в Gold-категории рейтинга. Поскольку ее новых участников ("настоящих" посетителей сайта) каждый день появляется не очень много, время позволяет попробовать определить домен для каждого клиента. Напоминаю, (это указывалось в предыдущем выпуске рассылки) что процедура определения домена по IP-адресу работает заметное время, и когда их несколько десятков, это время надо учитывать. Тут мы, наконец, добрались до строк (3) и (4) таблицы 1: получается, что в среднем удается распознать треть доменов. В таблице 4 указаны разные характеристики собранных таким образом данных отборной категории (это результат тех же нескольких суток работы, что и для общей категории, т.е. данных таблиц 2 - 3):

Таблица 4

Принцип группировки
Общее количество
Участники Gold-категории
797
Число разных доменных имен
718
Число разных доменов второго уровня
306

Если в выборе данных для общей категории основной проблемой был объем учитываемой информации, то здесь важнее уже соображения дизайна: что показывать на странице рейтинга, разница в размере хранимой информации все равно будет небольшая. Если отображать отдельно все доменные имена, то список лидеров будет слишком однообразен. Дело в том, что домен второго уровня (окончание доменного имени) у лидеров рейтинга часто повторяется. В таблицах 5А и 5Б представлены списки доменов второго уровня, занимающих первые места по числу упоминаний в рейтинге, перечислены лидеры по числу разных IP или разных "тройных" IP-зон:

Таблица 5А

Домен второго уровня
Число IP
inktomisearch.com
72
googlebot.com
57
aol.com
32
rol.ru
25
mtu-net.ru
22
t-dialin.net
21
rr.com
12
wplus.net
11
attbi.com
10
sovintel.ru
5

Таблица 5Б

Домен второго уровня
Число зон
rol.ru
24
t-dialin.net
20
mtu-net.ru
15
aol.com
10
rr.com
9
attbi.com
9
Comcast.ne
7
cox.net
7
wplus.net
7
wanadoo.f
6

В итоге для отображении в категории Gold рейтинга TopRef выбрана следующая информация:

  • название домена второго уровня в виде ссылки на него и одна из "тройных" IP-зон для данного домена;
  • число зарегистрированных запросов с данного домена, суммарный трафик и среднее его значение на каждый запрос (как в других рейтингах);
  • число разных IP-адресов, соответствующих одному и тому же домену.

Общий вид страницы рейтинга TopRef ничем, кроме зеленой цветовой гаммы, принципиально не отличается от страниц рейтингов TopXX или Top20:

  • так же работает сортировка по данным каждого из столбцов (нажатие на его заголовок);
  • возможен отбор зон (поисковая форма справа);
  • при нажатии на ссылку с конкретной двойной зоны происходит отбор соответствующих зон только "первого уровня";
  • сортировка в поле "IP-зона" выполняется по младшему ее разряду.
Обратите внимание, что объем данных рейтинга на момент выхода рассылки меньше, чем описано здесь: тестовая база данных была стерта, и теперь сбор информации ведется заново. Ничего страшного, потеряна информация всего за несколько дней...

Рейтинг Top20: файлы сайта

На страницах основной категории рейтинга, в которой участвуют все файлы сайта, расширена форма поиска файлов. Теперь можно с помощью одного списка выбора указывать папку на сервере, выделяя материалы определенной тематики. Второй список выбора позволяет независимо от первого производить отбор файлов определенного типа. Отдельное текстовое поле ввода позволяет найти конкретные файлы. Ссылка "весь список" работает так же, как и раньше: она отменяет как условие текстового поиска, так и выбор по обоим спискам. В таблицах 6А и 6Б представлены перечни папок нашего сервера с наибольшим количеством файлов в них и список лидирующих по количеству своих представителей типов файлов.

Таблица 6А

Папка
Число файлов
/guide
1184
/wstat
780
/hadpress
705
/private
478
/world
473
/cgi-bin
92
/fido
85
/media
62
/images
60
/modern
49

Таблица 6Б

Тип файлов
Число файлов
Html
2651
Gif
572
Jpg
367
Htm
255
Rar
91
Pl
83
Gz
35
Zip
19
php3
11
Ico
5

TopXX: сайты интернет

Аналогичные расширения поисковых форм внесены на страницы рейтинга сайтов TopXX и самого каталога ресурсов. На страницах рейтинга элементы выбора домена отображаются всегда, а в каталоге они включены в расширенный вариант формы в левом фрейме интерфейса. Это списки выбора доменов второго уровня, при указании конкретного домена происходит отбор только соответствующих ему ссылок. В списке выбора кроме названия указывается также примерное число ссылок, которое соответствует данному условию для конкретного домена. В таблице 7А приведен перечень лидирующих доменов второго уровня по данным каталога и рейтинга. Для сопоставления в таблице 7Б приводится список всех доменов каталога, отсортированный в порядке убывания числа повторов в базе каталога.

Таблица 7А

Домен второго уровня
Данные каталога
Данные TopXX
narod.ru
3393
817
by.ru
1030
158
com.ua
688
72
boom.ru
563
157
h1.ru
552
140
spb.ru
529
104
nm.ru
487
153
Chat.ru
402
135
da.ru
331
40
Hut.ru
303
41

Таблица 7Б

Доменное имя
Число повторов
allref.ru
221
chat.ru
138
geocities.com
97
zhurnal.lib.ru
85
chulkov.com
76
az.ru
54
info-net.com.ua
52
russianprovince.ru
49
ribca.net
47
Photo.anort.com
44

Второй список выбора, добавленный в формы рейтинга TopXX и каталога ресурсов, позволяет выбирать доменную зону, т.е. домен первого уровня, с указанием числа ее повторов. В таблице 8 приведен список лидирующих зон по данным рейтинга и каталога.

Таблица 8

Домен первого уровня
Данные каталога
Данные TopXX
RU
19690
4923
COM
3025
1921
UA
1143
167
NET
1029
441
ORG
212
73
BY
96
24
DE
81
120
EE
75
18
LV
73
30
SU
43
18

Разные обновления

  • Проведено обновление базы данных каталога: с сервера зеркала Levchenya.H1.Ru перенесены 50 ссылок, зарегистрированные там через систему 1PS.Ru за время бездействия основного каталога с 4 по 15 марта.
  • Планируется обновление аннотаций на 91 ссылку в каталоге, 12 ошибочных ссылок будут удалены.
  • Введена в строй система регулярной проверки доступности ссылок базы данных каталога. Как и раньше, вся база должна быть проверена за несколько месяцев - подождем результатов.
  • Исправлена ошибка подготовки данных рейтингов, из-за которой некоторые посещения засчитывались по два раза. Больше такого не будет, теперь все точно!

На сегодня это все, будем ждать следующих новостей.

      До встречи, Ваш Александр Левченя
            WWW: http://hotlinks.ru
            E-mail: webmaster@hotlinks.ru



http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться
Убрать рекламу

В избранное