Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Бизнес-аналитика: от данных к знаниям. Деревья решений


Деревья решений
Выпуск №4 от 15.06.2010
СЕГОДНЯ В НОМЕРЕ:
  • Деревья решений
  • Полезные статьи
  • О программе E-learning
  • Задать вопрос
    Деревья решений

    В одном из последних выпусков рассылки мы рассматривали классы задач, а также сказали несколько слов об алгоритмах их решения. Сегодня предлагаю остановиться более подробно на одном из самых популярных и мощных инструментов Data Mining – деревьях решений (decision trees).

    Деревья решений представляют собой способ отображения правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.

    Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".

    Можно выделить три основные класса задач, которые решаются с помощью данного аппарата: описание данных (есть возможность хранить информацию о данных в компактной форме), классификация (позволяют относить объекты к одному из заранее известных классов) и регрессия (позволяют устанавливать зависимость целевой переменной от независимых (входных) переменных).

    Также стоит рассказать и об алгоритмах, которые реализуют деревья решений. Их достаточно много: CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д., но наиболее распространенные и популярные следующие два:

    • CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.
    • C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.

    Деревья решений представляют собой прекрасный инструмент в системах поддержки принятия решений, интеллектуального анализа данных (data mining).

    В таких областях, как банковское дело (оценка кредитоспособности клиентов банка при выдаче кредитов), промышленность (контроль за качеством продукции (выявление дефектов), испытания без разрушений (например проверка качества сварки) и т.д.), медицина (диагностика различных заболеваний) и молекулярная биология (анализ строения аминокислот).

    Также хочется отметить основные преимущества при использовании деревьев решений:

    • быстрый процесс обучения;
    • генерация правил в областях, где эксперту трудно формализовать свои знания;
    • извлечение правил на естественном языке;
    • интуитивно понятная классификационная модель;
    • высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети);
    • построение непараметрических моделей.

     

    На рисунке (ниже) представлено, как дерево решений используется в аналитической платформе Deductor для оценки кредитоспособности заемщиков.

    Деревья решений в Deductor

    Пример показывает простоту и удобство применения деревьев решений в Deductor.


    Полезные статьи

    Деревья решений - C4.5 математический аппарат. Часть 1

    Описывается метод построения деревьев решений, который впервые был предложен Р. Куинленом (R. Quinlan). Этот метод используется в одном из лучших алгоритмов построения деревьев решений C4.5. Подробнее.

    Деревья решений - C4.5 математический аппарат. Часть 2

    Вторая часть математического аппарата построения деревьев решений - алгоритм C4.5. Рассмотрены вопросы улучшенния критерия разбиения, работы с пропущенными данными и классификации новых примеров. Подробнее.

    Деревья решений - CART математический аппарат. Часть 1

    В данной статье описывается одного из наиболее популярных алгоритмов построения деревьев решений - CART (Classification And Regression Tree). Алгоритм, предложенный Бриманом и др. в 1984 году, предназначен для решения задач классификации и регрессии. Результатом его работы является бинарное дерево решений. Подробнее.

    Деревья решений - CART математический аппарат. Часть 2

    Вторая часть описания матаппатара алгоритма CART. Описаны вопросы построения оптимального дерева, обработки пропущенных значений, отсечения ветвей, решения задачи регрессии. Подробнее.


    О программе E-learning

    В программе бесплатного дистанционного обучения, которая ориентирована на подготовку аналитиков, есть раздел «Data Mining – классификация и регрессия. Машинное обучение», там собрана подробная информация о деревьях решений, рассказано, как с их помощью можно решать задачи анализа данных вообще и в Deductor в частности, а также Вы сможете попробовать сделать это сами. Удаленный доступ к веб-ресурсу позволит организовать учебный процесс в индивидуальном порядке, а также сэкономить время и деньги. С подробной информацией о процессе обучения и разделах курса можно ознакомиться в разделе E-learning.

    Также достаточно подробно данная тема освещена в нашей книге «Бизнес-аналитика: от данных к знаниям» (подробности о приобретении данного издания смотрите на нашем сайте).


    Задать вопрос

    Все интересующие вас вопросы и пожелания присылайте по адресу info@basegroup.ru, а также можете их задать в нашем блоге.

     


  • В избранное