Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


Здравствуйте!

Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1046.

Сегодняшний разговор будет посвящен в очередной раз анализу разных особенностей работы сервисов нашего каталога, от которых мы опять плавно перейдем к рассуждениям об особенностях Интернета в целом. Как говорится, стартуя со своей статистики, получим какие-то глобальные выводы.
      Началось все с того, что я решил проанализировать эффективность работы функции поиска в каталоге ресурсов. Не секрет, что, производя поиск по страницам каталога, можно использовать его фактически как поисковую систему - и стало интересно, кто именно так поступает (и поступает ли).
      Поскольку на самом деле, как ни обращайся к каталогу, работаешь с одним и тем же интерфейсом, из общего числа всех запросов к скрипту в первую очередь требовалось исключить все те, в которых включена опция отображения всех ссылок, то есть когда система работает действительно как каталог, а не на поиск. И уже первые 300 строго поисковых запросов 15 ноября (то есть выбраны из общего количества те из них, когда строка поиска не пуста и опция "все" выключена) показали странную тенденцию: только 5 штук (1,7%) являлись "словесными" запросами, а остальные - ввод некоторого URL, который пользователь пытался найти. Что ж, значит, мы - не поисковая система, и в каталоге ищут только конкретные ссылки, однако второй вопрос - кто это делает - остался открытым.
      На втором этапе, касаясь технических аспектов, анализ проводился уже не силами самого каталожного скрипта (средствами которого строка запроса сохранялась в отдельном файле), а уже по полноценному файлу-протоколу доступа к серверу (access_log). Для примера был взят лог от 22:47 23 ноября до 15:43 следующего дня. За это время было зарегистрировано 21899 запросов к серверу, 783 из которых (3,6%) - к интерфейсу каталога, точнее, к скрипту, отображающему страницу со списком ссылок (findsql.pl). Дальнейшие рассуждения коснутся 258 из них (треть "каталожных"), которые имеют право по нашей классификации считаться поисковыми запросами.
      По результатам рассмотрения полноценного лог-файла самым интересным аспектом оказалась информация о "браузере" (агенте - user-agent) - генераторе каждого запроса, то есть поле, показывающем, какого типа обращение зарегистрировано к странице. Оказалось, что подавляющее большинство "чисто поисковых" запросов генерируют так называемые роботы - автоматические браузеры "настоящих" (больших, всемирно известных) поисковых систем, осуществляющие регулярный обход Сети с целью индексации всей доступной информации. В нашем случае перечень лидеров по числу поисковых запросов оказался следующим (таблица 1), большинство оставшихся - разные Mozill'ы, упомянутые по одному-два раза. Кстати, если рассматривать лог-файл целиком, и анализировать "полную" статистику по агентам (за эти пол-дня, конечно), распределение получается, мягко говоря, совсем другое (таблица 2) - налицо особенности обращений именно к интерфейсу поиска, недаром это и вызвало вопросы.

Таблица 1: Запросы к странице поиска
Характеристика
Число запросов
Всего
258
Разных агентов
23
Yahoo! Slurp
165
Yandex
31
StackRambler
26

Справа - таблица 2: все запросы к серверу

Характеристика
Число запросов
Всего
21899
Разных агентов
1064
Yandex
2365
Yahoo! Slurp
779
Link valet
270
MsnBot
140
StackRambler
85
Obot
25
Googlebot
20

Еще немного поговорим об агентах. Наверное, это будет тема отдельного исследования - можно будет попробовать просто непрерывно собирать статистику по ним в стиле наших рейтингов TopXX/Top20/TopRef, чтобы иметь возможность отслеживать появление новых роботов и сравнивать активность их работы. Подготавливая почву для нового сервиса, отмечу, что разнообразие названий агентов (1000 разных на 22000 запросов) - это многовато для построения списка. Тем более, большинство названий - лишь модификации обозначений браузеров, и среди них попадаются достаточно кудрявые: самый длинный - 149-символьный Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; e-Family; Sgrunt|V10 9|932|S1080490041|dial; Sgrunt|V109|932|S1080490041|dialno; ds1080490041). В среднем (благодаря таким вот длинным названиям) размер названия составил 77 символов, поэтому простейший способ сократить список - обрезать названия, для ровного счета, на 60 символах. Тогда с учетом приписываемого к длинным названиям многоточия мы уложимся в текстовое поле размером 64 символа (и список агентов будет эффективнее размещаться в базе данных), а сам список сократится почти вдвое до 600 разных агентов.
      Здесь тоже кое-что видно. В лидерах, опережая Яндекс с почти двукратным отрывом - Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) с 4538 запросами: значит, живые люди все-таки более активные посетители сайта, чем роботы. Собственно, за исключением упомянутых роботов, большая часть списка - те же Мозиллы. Из остальных выделяются только Оперы (Opera), которых 87 разных (и многие из них тоже содержат в названии подзаголовок Mozilla), они обеспечивают в сумме 707 запросов. Есть несколько упоминаний браузера SonyEriccson, так что мобилизация докатилась уже и до нашего ресурса. Ну а звания самого оригинального достоин, несомненно, вариант названия Tormozilla/17.6.

*     *     *

Вернемся к анализу поисковых запросов на основе полноценного лог-файла, то есть с учетом распределения по агентам (таблица 1). Оказалось, что запросы роботов (Yahoo! Slurp, Yandex и StackRambler) - это указание в качестве параметра поиска просто URL, и только среди остальных 25 запросов от "живых" пользователей обнаружилось некоторое разнообразие. 16 запросов было получено через переходы со страниц поисковой системы Yandex (через заход с их сайта), 2 - аналогично через Rambler, и в обоих случаях критерием поиска опять являлся URL. И только 7 обращений с самого HotLinks.Ru содержали текстовые запросы! Так что вот она, доля эффективного использования поиска - 7/258, то есть менее 3%. Все-таки, выражаясь фамильярно, роботы забивают все - и это правильно, наверное. Пусть лучше они заранее все в мире проиндексируют, даже создав "лишние" 222 запроса, зато потом настоящие ищущие пользователи получат эффективный ответ на свои 27 запросов ко "взрослым" поисковым системам. А оставшиеся 7 - это внутренний поиск по нашему серверу, что ж, таких запросов немного, ну так и проект небольшой: Вот так!

С уважением, Ваш Александр Левченя
      Адрес сайта: http://hotlinks.ru
      Электронная почта: webmaster@hotlinks.ru


В избранное