Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости портала "Горячие ссылки"


Информационный Канал Subscribe.Ru

Здравствуйте!

Приветствую читателей новостей проекта "Горячие ссылки". В данный момент у рассылки следующее количество подписчиков: 1046.

Наш каталог ссылок все растет и растет, и вот уж не за горами рубеж в 60 тысяч ссылок. Хотелось бы что-то сделать непосредственно по этому поводу, и вот что пришло в голову. Давайте проанализируем все текстовое содержание накопленной информации - конечно, смешно делать какие-то далеко идущие выводы на основе собранного материала, но кое-какие интересные закономерности выявить уже можно. Итак, было сделано следующее:

15 ноября содержимое базы данных каталога ссылок (все имевшиеся на тот момент 59446 описаний) сохранены в виде отдельного списка, в который внесены только названия (заголовки) сайтов и их описания, из них после отбрасывания всех знаков препинания, цифр и специальных символов составлен перечень всех использованных в текстах слов. Изучением этого словаря мы и займемся.

Итак, будем считать словом любую комбинацию букв, хотя бы и одну - даже здесь кое-что есть. Тогда у нас получится (строка 1 таблицы 1) 1,5 миллиона слов, из которых 10% - англоязычные, а девять из десяти - русские, или претендующие на звание таковых (за исключением буквосочетания <яхцмюкхгюжхъ>, пожалуй). Причем с учетом неоднократного упоминания (числа <разных> слов, строка 2) получится, что каждое русскоязычное слово упоминается в среднем более 14 раз, а комбинация без символов кириллицы - только около 6, то есть иностранные термины получаются <разнообразнее> по сути. И если посмотреть, какая доля слов используется более одного раза (делим строку 2 на третью), независимо от алфавита повторяться будет около половины списка.

Таблица 1

  Русских Английских Общее число
(1) Всего слов 1400338 157223 1557561
(2) Разных 96359 24709 121068
(3) Повторяющихся 57219 13237 70456

Конечно, можно долго смотреть на длинные алфавитные списки (действительно, целый Интернет-словарь получается), но нам интереснее извлечь какие-то оценки из списка повторяющихся слов, чтобы понять, например, какие темы интереснее авторам ссылок каталога. Итак, отсортируем списки слов с учетом их повторения в порядке уменьшения числа этих повторов, и попробуем выявить <лидеров>, то есть наиболее часто употребляемые термины. Как и прежде, будем отделять символы кириллицы от латинского алфавита, здесь есть своя специфика, и смешивать их незачем.

Начало английского списка (таблица 2) идейно отличается от русского, здесь - ожидаемые сугубо <интернетовские> термины. Удивила пятая строка - это обрезок популярного обозначения формата музыкальных файлов mp3 - я же сказал, что цифры мы исключили из рассмотрения. Соответствующая часть списка (<самые важные слова>), как будет видно дальше, в русском языке оказывается не самой главной (таблица 2Б).

Таблица 2А

Ru

6652

Web

2410

Www

1865

Http

1559

Mp

1510

Com

1370

Таблица 2Б

Сайт

13101

Интернет

8001

Каталог

3994

Продажа

6024

Магазин

4339

Дизайн

3946

 

Вот продолжение - ожидаемо (таблица 3А), похоже на нее и начало русского списка (таблица 3Б). Можно было вообще исключить из рассмотрения слова-связки (предлоги и междометия), как мы поступили со знаками препинания.

Таблица 3А

The

1345

And

1317

Of

1133

C

1071

A

1046

E

1009

On

964

In

648

For

630

To

593

Таблица 3Б

И

69748

В

30786

На

19056

Для

18690

По

14089

С

9706

О

7497

Из

5027

От

5017

А

3265

И вот мы переходим к информативному рейтингу, так сказать, сравниваем ценности. Как говорится, без комментариев (таблицы 4А и 4Б). Естественно, если внимательно сравнивать числа между таблицами, видно, что я немножко передергиваю - списки иногда накладываются друг на друга. Зато так получается нагляднее.

Таблица 4А

Online

1409

Cd

1293

Dvd

1214

Flash

671

Design

611

Free

570

Java

560

Webmoney

494

Internet

493

Mail

490

Таблица 4Б

Компания

3939

Услуги

3554

Новости

3028

Информация

2973

Оборудование

2912

Форум

2806

Отдых

2751

Ремонт

2525

Заказ

2514

Цены

2510

Дальше списки продолжаются и продолжаются, но иногда можно объединить слова в группы и получать, например, свои рейтинги фирм-производителей (интересно, началось с электроники - таблица 5А, а потом друг за другом пошли автомобили - таблица 5Б).

Таблица 5А

Samsung

333

Siemens

274

Nokia

266

Sony

242

Lg

238

Panasonic

220

Motorola

182

Toshiba

121

Canon

110

Philips

103

Таблица 5Б

Bmw

175

Audi

154

Mitsubishi

134

Mercedes

130

Honda

114

Volkswagen

110

Nissan

105

Toyota

98

Volvo

98

Daewoo

68

С русским языком ситуация сложнее, здесь ведь важно не только слово само по себе, но и его склонение-спряжение. С учетом объединения не только по теме, но и по падежу, самым наглядным получается географически-<туристический> рейтинг (таблица 6). Вот вам еще одно подтверждение высокого уровня развития Интернета в Украине, если он даже здесь имеет такое значение!

Таблица 6

Регион Варианты упоминаний

Общее число

Россия 49

5293

Москва 23

4845

Петербург 50

2555

Украина 23

1497

Европа 84

1308

Италия 24

776

Турция 11

645

Испания 18

620

Германия 18

591

Чехия 17

551

С уважением, Ваш Александр Левченя
      Адрес сайта: http://hotlinks.ru
      Электронная почта: webmaster@hotlinks.ru


Subscribe.Ru
Поддержка подписчиков
Другие рассылки этой тематики
Другие рассылки этого автора
Подписан адрес:
Код этой рассылки: comp.inet.news.hotlinks2
Архив рассылки
Отписаться
Вспомнить пароль

В избранное