Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Немного о классах задач


Немного о классах задач
Выпуск №2 от 03.09.2009
СЕГОДНЯ В НОМЕРЕ:
Классы задач

Одним из самых сложных этапов при решении какой-либо задачи является поиск способа решения. Можно долго думать каким именно образом подойти к проблеме, перебрать различные методы и подходы, но так и не приблизиться к заветному решению. В таких случаях хорошо бы иметь готовый механизм, который пусть не привел бы к конкретному результату, но помог бы алгоритмизировать переход от задачи к решению.

Так в английском языке, для того чтобы перевести предложение, нужно сначала определить время (Past, Present, Future) и длительность (Simple, Perfect, Continuous), и затем на основе правила для получившейся комбинации времени и длительности выполнить перевод. В физических задачах перед началом решения определяют характер физического процесса, в математике – вид уравнения, т.е. определяется класс задачи.

В Data Mining нет ничего принципиально нового. Первым шагом в решении любой задачи является определение ее принадлежности к одному из классов задач. Все задачи, решаемые методами Data Mining, можно условно разбить на 5 классов:

  • классификация
  • регрессия
  • кластеризация
  • ассоциация
  • последовательные шаблоны

Отдельно рассматривают анализ связей – выявление систематических связей переменных (например, определение, как увеличение затрат на рекламу влияет на увеличение сбыта), анализ отклонений – выявление наиболее нехарактерных шаблонов (например, при анализе мошеннических схем) и анализ временных рядов – в частности прогнозирование будущих значений временного ряда (например, температура, курс валюты, объем продаж).

Проблемы бизнес анализа формулируются по-иному, но решение большинства из них сводится к той или иной задаче Data Mining’а или к их комбинации. Как только вы сумели перевести задачу с бизнес-языка на язык Data Mining-а, т.е. определили класс задач, сужается поле для поиска алгоритма решения.

В сегодняшнем разнообразии алгоритмов можно легко заблудиться. Это создает определенную сложность, какой алгоритм выбрать? В попытках разобраться во всех тонкостях существующих алгоритмов анализа можно провести немало времени, но так и не приблизиться к заветному решению.

Поэтому, когда мы говорим о решении задачи, надо оперировать не алгоритмами, а классами задач. Их мало, их круг известен. Оперирование классами задач позволяет структурировать знания.

Кроме того, аналитику тяжело сделать выбор в пользу конкретного алгоритма. Например, что для вас предпочтительнее: вейвлет-преобразование или преобразование Фурье? Ответить на такой вопрос сможет только технически хорошо подкованный аналитик.

Намного проще определиться с классом, к которому относится конкретная задача. Например, перед вами стоит задача скоринга. Требуется классифицировать заемщиков по группам риска в зависимости от некоторых социальных данных (наличие высшего образования, семейное положение и т.д.). Группы риска, то есть классы, известны. Таким образом, перед нами задача установления зависимости дискретной выходной переменной (группы риска) от входных переменных (социальных данных) - задача классификации.

Определившись с классом задачи необходимо выбрать алгоритм решения. В нашем случае для решения задачи классификации, как правило, используют три алгоритма: нейронные сети, деревья решений и логистическая регрессия. Далее можно сравнить результаты работы всех трех алгоритмов и выбрать наиболее походящий по заданному критерию алгоритм классификации.

Таким образом, классы задач являются хорошим подспорьем в выборе алгоритма решения, потому что классов задач ограниченное количество, они известны и понятны для аналитика.


Полезные статьи

Data Mining – добыча данных

Развитие методов записи и хранения данных привело к бурному росту объемов собираемой и анализируемой информации. Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно, хотя необходимость проведения такого анализа вполне очевидна, ведь в этих "сырых" данных заключены знания, которые могут быть использованы при принятии решений.Подробнее.

Применение логистической регрессии в медицине и скоринге

Логистическая регрессия – полезный классический инструмент для решения задачи регрессии и классификации. Без логистической регрессии и ROC-анализа – аппарата для анализа качества моделей – немыслимо построение моделей в медицине и проведение клинических исследований. В последние годы логистическая регрессия получила распространение в скоринге для расчета рейтинга заемщиков и управления кредитными рисками. Поэтому, несмотря на свое "происхождение" из статистики, логистическую регрессию и ROC-анализ почти всегда можно увидеть в наборе Data Mining алгоритмов.Подробнее.

Cегментация данных как метод сравнительного анализа

Рассмотрим простой пример, показывающий, как анализ, а в частности сегментирование, может помочь сократить финансовые потери. Я думаю, что Вы неоднократно слышали о различных мошенничествах, совершаемых партнерами, а возможно, и сами становились жертвами подобного мошенничества. Если бы мы могли спрогнозировать, как будет себя вести фирма-партнер, то могли бы минимизировать потери от нечистоплотной деятельности.Подробнее.

Применение ассоциативных правил для стимулирования продаж

При помощи алгоритма выявления ассоциативных правил можно решать достаточно большой спектр практических задач. В этой статье Вашему вниманию будет представлена типичная задача, решаемая при помощи нахождения ассоциативных зависимостей. Речь идет о механизмах стимулирования продаж, базирующихся на знаниях о наиболее типичном поведении покупателей при оформлении заказов. Применение ассоциативных правил позволяет предугадать, что, вероятнее всего, приобретет клиент, и предложить именно этот товар.Подробнее.


О программе E-learning

Более подробно о классах задач и алгоритмах их решения рассказано в разделе «Технологии анализа данных». Данный раздел представляет собой часть курса бесплатного дистанционного обучения на базе сайта компании.

Данный курс ориентирован на подготовку аналитиков. Удаленный доступ к веб-ресурсу позволит организовать учебный процесс в индивидуальном порядке, а также сэкономить время и деньги. С подробной информацией о процессе обучения и разделах курса можно ознакомиться в разделе E-learning.


Задать вопрос

Все интересующие вас вопросы и пожелания присылайте по адресу info@basegroup.ru. Ответы смотрите в ближайших выпусках рассылки.


Выпуск подготовилa Розумеенко Марина
"BaseGroup Labs"


В избранное