Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Введение в анализ данных или что такое Data Mining


Введение в анализ данных или что такое Data Mining
Выпуск №1 от 18.08.2009
СЕГОДНЯ В НОМЕРЕ:
  • Введение в анализ данных или что такое Data Mining
  • Полезные статьи
  • О программе E-learning
  • Задать вопрос

  • Введение в анализ данных или что такое Data Mining

    Сегодня я с улыбкой вспоминаю школьный курс информатики, где самой невообразимой величиной измерения количества информации являлся мегабайт (106 байт). Цифра эта казалась колоссальной и недостижимой. Стоит ли говорить, что прошло не так много времени, а современная общественность оперирует такими понятиями как петабайт (1015) и эксабайт (1018), а классификатор ГОСТ расписан до йоттабайтов (1024).

    Спрос порождает предложение. Современные носители информации способны хранить терабайты, а то и петабайты данных. Такие объемы развязывают руки и позволяют не экономить дисковое пространство, а записывать всю имеющуюся информацию без предварительной очистки и предобработки в надежде когда-нибудь проанализировать все эти данные.

    Это привело к тому, что совокупный объем цифровой информации в 2006 году составил 161 миллион гигабайт (161 экзабайт). Возникает вопрос: что делать с этой информацией?

    Джон Ганц, директор по исследованиям компании IDC:

    "Невероятные темпы роста и общий объем информации различных типов, создаваемой в стольких различных источниках, говорят не только о всемирном информационном взрыве беспрецедентных масштабов. Это говорит о переходе информации из аналоговой, конечной формы в цифровую. С технической точки зрения организациям придется использовать все более сложные технологии для передачи, хранения, обеспечения безопасности и копирования дополнительной информации, которая создается каждый день".

    Появляется потребность в информационных технологиях, которые помогут справиться с этим потоком разнородной информации, найти в ней тенденции и закономерности, скрытые от поверхностного взгляда. Методы традиционной математической статистки уже не могут удовлетворить потребности современных аналитиков. Общество пришло к пониманию, что многогигабайтные архивы данных могут принести значительно больше знаний, чем среднее значение по показателю.

    В связи с этим широкое применение получила методика Knowledge Discovery in Databases – извлечение знаний из баз данных. KDD представляет собой последовательность действий, которые нужно выполнить для получения знаний. Ядром KDD является технология Data Mining в дословном переводе «раскопка данных».

    Data Mining применяется во всех отраслях, где есть данные. Но лидером являются коммерческие предприятия. В частности, в розничной торговле решают задачи прогнозирования спроса, анализа потребительской корзины, стимулирования продаж. Банки используют технологии Data Mining для сегментации клиентов с целью проведения кредитной политики. В телекоммуникациях решают задачи выявления лояльности клиентов с целью введения новых или изменения существующих тарифных планов.

    Алгоритмы Data Mining позволяют выявить из огромного количества разнородных данных специфичные знания, которые будут полезными в процессе принятия решений. Таким образом, применение современных технологий в бизнесе – это шаг вперед, это возможность повышения конкурентоспособности и эффективности вашей деятельности.


    Полезные статьи

    Анализ бизнес информации – основные принципы

    Об анализе информации в последнее время говорят так много и столько всего, что можно окончательно запутаться в проблеме. Это хорошо, что многие обращают внимание на такую актуальную тему. Плохо только то, что под этим термином каждый понимает то, что ему нужно, часто не имея общей картины по проблеме. Подробнее.

    Методика анализа данных

    При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают? Подробнее.

    Анализ больших объемов данных

    Обычно, когда говорят о серьезной аналитической обработке, особенно если используют термин Data Mining, подразумевают, что данных огромное количество. Необходимость поиска закономерностей в больших базах данных усложняет и без того нетривиальную задачу анализа. Подробнее.

    Онтология анализа данных

    Потоки текстовой и числовой информации ежедневно порождаются и оседают в хранилищах данных. Насколько полно на практике используются все те закономерности, которые кроются в этих данных и, возможно, представляют большую ценность? Подробнее.


    О программе E-learning

    На базе сайта компании организована программа бесплатного дистанционного обучения. Данная программа ориентирована на подготовку аналитиков. Удаленный доступ к веб-ресурсу позволит организовать учебный процесс в индивидуальном порядке, а также сэкономить время и деньги. С подробной информацией о процессе обучения и разделах курса можно ознакомиться в разделе E-learning.


    Задать вопрос

    Все интересующие вас вопросы и пожелания присылайте по адресу info@basegroup.ru. Ответы смотрите в ближайших выпусках рассылки.


    Выпуск подготовилa Розумеенко Марина
    "BaseGroupLabs"


    В избранное