Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Бизнес-аналитика: от данных к знаниям Web Mining


Web Mining. Что это такое?
Выпуск №6 от 30.12.2010
СЕГОДНЯ В НОМЕРЕ:
Web Mining

Сейчас достаточно большое количество людей так или иначе пользуются Интернетом. Они получают информацию, а также сами могут создавать ее и распространять. В связи с этим в сети информация достаточно хаотично организованна, что создает определенные проблемы при решении задач поиска, структурирования и анализа. Иными словами, возникают проблемы

  • поиска нужной информации (пользователь не всегда сразу может найти необходимые ему электронные ресурсы);
  • обнаружения новых знаний (для пользователя извлечение полезных знаний из уже найденной информации является довольно трудоемкой и непростой задачей),
  • изучения потребителей, которые связаны с предоставлением пользователю информации, которая оказалась бы ему интересна (Это особенно актуально для электронных торговых порталов, которые могли бы "подсказывать" пользователю при выборе товара).

Для того чтобы добиться более эффективных результатов, применяется Web Mining. Web Mining – это новое направление в методологии анализа данных. В этом выпуске мы расскажем Вам, что это такое, о его основных принципах и категориях.

Web Mining – это применение методов и алгоритмов Data Mining для обнаружения и поиска зависимостей и знаний в сети Интернет.

Есть несколько общих шагов, которые необходимо пройти, чтобы провести анализ в Интернете:

  • входной этап (input stage) – получение "сырых" данных из источников (логи серверов, тексты электронных документов);
  • этап предобработки (preprocessing stage) – данные представляются в форме, необходимой для успешного построения той или иной модели;
  • этап моделирования (pattern discovery stage);
  • этап анализа модели (pattern analysis stage) – интерпретация полученных результатов.

Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим можно выделить различные категории Web Mining:

  • Анализ использования веб-ресурсов (Web Usage Mining). Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.
  • Извлечение веб-структур (Web Structure Mining). Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации веб-ресурсов, поиска схожих и распознавания авторских сайтов.
  • Извлечение веб-контента (Web Content Mining). Это направление Web Mining решает задачу поиска знаний в сети Интернет. Оно основано на сочетании возможностей информационного поиска, машинного обучения и Data Mining.

Общая взаимосвязь между категориями Web Mining и задачами Data Mining изображена на рисунке:

Категории Web Mining и задачи Data Mining

В бизнес-аналитике Web Mining решает следующие задачи:

  • узнать, кто посещает сайт
  • выяснить, какие типы людей являются покупателями
  • выявить типичные сессии и навигационные пути пользователей сайта
  • выделить группы и сегменты среди посетителей сайта
  • найти зависимости и правила в посещениях сайта.

Все эти задачи могут быть решены с помощью аналитической платформы Deductor. В презентации «Анализ веб-данных» рассказывается, что из себя представляют данные, которые надо импортировать в Deductor, для чего нужны предобработка и очистка данных, более подробно и с примерами описан самый простой метод анализа веб-данных – визуализация, а также и остальные методы анализа: кластеризация, сегментация, ассоциативные правила и как они реализованы в Deductor.

Категории Web Mining и задачи Data Mining


Полезные статьи

Web Mining: основные понятия

Рассмотрены основные понятия и элементарные принципы функционирования сети Интернет, которые необходимо знать, занимаясь анализом веб-данных. В статье дается общее представление о Web Mining: определение, этапы, категории. Подробнее.

Web Mining: анализ использования веб-ресурсов, обработка веб

Статья посвящена анализу использование веб-ресурсов. В этой части рассказано о том, как устроен веб-лог: какие поля он включает, и чем они могут быть полезны. Также в ней рассматривается предобработка веб-данных, описание которой сопровождено примером. Подробнее.

Web Mining: анализ использования веб-ресурсов, построение моделей

В статье рассмотрены дальнейшие действия анализа использования веб-ресурсов после предобработки веб-данных. На примере показано как можно в этой области использовать статистическую информацию, применить алгоритмы Data Mining: k-means, CLOPE, Apriori. Подробнее.


Задать вопрос

Все интересующие вас вопросы и пожелания присылайте по адресу info@basegroup.ru, а также можете их задать в нашем блоге. Ответы смотрите в ближайших выпусках рассылки или в блоге.



В избранное