Отправляет email-рассылки с помощью сервиса Sendsay

Эконометрика

  Все выпуски  

Эконометрика - выпуск 990


"Эконометрика", 990 выпуск, 13 января 2020 года.

Электронная газета кафедры "Экономика и организация производства" научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им.Н.Э. Баумана. Выходит с 2000 г.

Здравствуйте, уважаемые подписчики!

*   *   *   *   *   *   *

Цель статьи А.И. Орлова "Отечественная научная школа в области организационно-экономического моделирования, эконометрики и статистики" - дать целостное представление об отечественной научной школе в рассматриваемой области, как говорят, "с птичьего полета".

Как показано в докладе А.И. Орлова " Статистика нечисловых данных как часть современной математической статистики", статистика в пространствах общей природы - центральная часть математической статистики, а включающая ее статистика нечисловых данных - основная область математической статистики.

Все вышедшие выпуски доступны в Архиве рассылки по адресу subscribe.ru/catalog/science.humanity.econometrika.

*   *   *   *   *   *   *

Отечественная научная школа в области организационно-экономического моделирования, эконометрики и статистики

Орлов Александр Иванович

профессор, доктор экон. наук, доктор техн. наук, канд. физ.-мат. наук, зав. лаб. экон.-мат. методов в контроллинге НОЦ "Контроллинг и управленческие инновации" МГТУ им. Н.Э. Баумана

В преподавании на факультете "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана выстроена триада дисциплин: "Прикладная статистика (вариант - статистика)" - "Эконометрика" - "Организационно-экономическое моделирование". Проведено сравнение старой и новой парадигм математических методов исследования. Рассказано о комплекте учебной литературы (около 20 монографий), разработанном нами на основе новой парадигмы. Отечественная научная школа в области организационно-экономического моделирования, эконометрики и статистики отличается от зарубежных аналогов опорой на отечественную вероятностно-статистическую научную школу и на высокие статистические технологии.

Ключевые слова: отечественная научная школа, организационно-экономическое моделирование, эконометрика, статистика, контроллинг, наука, преподавание, высокие статистические технологии

Orlov Alexander Ivanovich, professor, doctor of econ. sciences, doctor of techn. sciences, cand. of physical and mathematical sciences, head of Laboratory of economic and mathematical methods in controlling of research and education center "Controlling and managerial innovations", BMSTU

Russian scientific school in the field of organizational and economic modeling, econometrics and statistics

In teaching at the faculty of "Engineering Business and Management" BMSTU built a triad of disciplines: "Applied statistics (option - statistics)" - "Econometrics" - "Organizational and economic modeling". A comparison is made of the old and the new paradigms of mathematical research methods. It is told about a set of textbooks (about 20 monographs), developed by us on the basis of a new paradigm. The Russian scientific school in the field of organizational and economic modeling, econometrics and statistics differs from foreign analogues by reliance on the Russian probabilistic-statistical scientific school and on high statistical technologies.

Keywords: Russian scientific school, organizational and economic modeling, econometrics, statistics, controlling, science, teaching, high statistical technologies.

Введение

В 1929 г. в МВТУ-МГТУ создана кафедра "Экономика и организация производства". За 90 лет она прошла долгий и славный путь. В XXI веке, как сказано на официальном сайте кафедры, " ... на кафедре, наряду с традиционными школами организации производства, формируются новые школы в области эконометрики, под руководством профессора Орлова А.И., и в сфере контроллинга, под руководством профессора Фалько С.Г." (http://ibm2.ru/department/1.htm). Про научную школу в сфере контроллинга читателям журнала "Контроллинг" хорошо известно. В то же время о научной школе в области эконометрики распространена информация лишь об отдельных ее составляющих, поскольку обобщающих работ на эту тему не было. Цель этой статьи - дать целостное представление об отечественной научной школе в области эконометрики, как говорят, "с птичьего полета".

Основные термины

Под эконометрикой понимаем научную дисциплину, посвященную разработке, изучению и применению статистических методов в экономике и управлении. Термин составлен из двух слов: "эконо-" от "экономика" и "метрика" от "измерение". Экономику надо понимать по Аристотелю: наука о том, как управлять хозяйством.

Статистические методы основаны на теории вероятностей и математической статистике. Центральная часть статистических методов - прикладная статистика.

Организационно-экономическое моделирование (ОЭМ) - научная, практическая и учебная дисциплина, посвященная разработке, изучению и применению математических и статистических методов и моделей в экономике и управлении народным хозяйством, прежде всего промышленными предприятиями и их объединениями. Термин "экономико-математические методы и модели" (ЭММиМ) имеет близкое содержание. Отличаются эти термины акцентами. ОЭМ нацелено на решение задач организации (управления, менеджмента) и экономики с помощью моделирования. В ЭММиМ сильна математическая составляющая, не связанная непосредственно с проблемами реального мира. Содержание термина "теория принятия решений" близко к содержанию термина "организационно-экономическое моделирование".

В преподавании на факультете "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана выстроена триада тесно связанных между собой дисциплин: "Прикладная статистика (вариант - статистика)" - "Эконометрика" - "Организационно-экономическое моделирование". Этой триадой занимается секция кафедры ИБМ-2 "Организационно-экономическое моделирование, эконометрика и статистика" (http://ibm2.ru/department/3.html)

Высокие статистические технологии - из науки в преподавание

Высокие статистические технологии - наиболее наукоемкая инновационная часть современных методов анализа данных. За последние 40 лет научные исследования и прикладные проекты в области анализа данных привели к разработке ряда новых разделов теории и существенному развитию ранее сформированных областей статистических методов. Так, создана статистика нечисловых данных и статистика интервальных данных. Существенное развитие получила непараметрическая статистика.

Однако преподавание статистических методов в вузах зачастую заметно отстает от фронта научных исследований. Входящий в курс математики раздел "Теория вероятностей и математическая статистика" обычно заканчивается методами, разработанными в первой половине ХХ в. Специальные курсы часто используют подходы столь же далеких времен. Поэтому при создании Всесоюзной статистической ассоциации (учредительный съезд состоялся в октябре 1990 г.), а затем Российской ассоциации статистических методов и Российской академии статистических методов одной из наиболее актуальных задач было признано внедрение современных научных достижений в практику преподавания.

Эконометрика, т.е. статистический анализ конкретных статистических данных, преподается в российских вузах с 1997 г. На факультете "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана высокие статистические технологии внедрены в практику преподавания курсов "Эконометрика", "Статистика", "Прикладная статистика", "Методы принятия управленческих решений", "Организационно-экономическое моделирование" и др. Это внедрение опирается на вновь разработанные учебные программы и учебники. Тем самым в рассматриваемых областях удалось преодолеть разрыв между наукой и преподаванием.

Высокие статистические технологии, прежде всего ориентированные на экспертные и маркетинговые исследования, весьма эффективны, в частности, в инновационном менеджменте при осуществлении организационно-экономической и маркетинговой поддержки конкретных инновационных проектов в области наукоемких технологий, а также при прогнозировании спроса на научно-техническую продукцию высокотехнологичных отраслей промышленности.

Статистические исследования (с целью информационно-аналитической поддержки процесса принятия управленческих решений) проводятся с давних времен. Например, для принятия решений в военной области необходима информация о числе военнообязанных. О переписи военнообязанных рассказано в Ветхом Завете в Четвертой книге Моисеевой "Числа". Поэтому вполне естественно, что в программы высшего образования включают статистические дисциплины.

Если в высшей школе США число преподавателей и кафедр в области статистики вполне сопоставимо с числом преподавателей и кафедр в области математики, то в нашей стране - совсем другая ситуация. Официально признаны лишь две составляющие статистики: математическая статистика и ведомственная наука Росстата. Первая составляющая относится к математике, к научной специальности 01.01.05 "теория вероятностей и математическая статистика". Вторая составляющая относится к экономическим наукам, к научной специальности 08.00.12 "Бухгалтерский учет, статистика". Все остальные составляющие статистики, например, статистические методы в технике, медицине, химии, истории, социологии, психологии и т.п., проигнорированы. Впрочем, некоторые из этих "забытых" составляющих укрепились и получили собственные имена. Например, эконометрика - статистические методы в экономике и управлении (менеджменте).

В начале 1980-х годов мы выделили научную дисциплину "Прикладная статистика". Наш базовый учебник по этой дисциплине начинается словами: "Прикладная статистика - это наука о том, как обрабатывать данные" [11]. Методы прикладной статистики могут применяться в любой области науки, в любой отрасли научного хозяйства.

В 1980-х годах была создана попытка объединить статистиков различных научных направлений и ведомственной принадлежности. В 1990 г. был проведен Учредительный съезд Всесоюзной статистической ассоциации. Ассоциация состояла из четырех секций - специалистов по статистическим методам, специалистов по прикладным статистическим исследованиям (в нее входили в основном работников оборонных отраслей промышленности), преподавателей статистики в экономических вузах, работников официальной статистики. Автор настоящей статьи был избран вице-президентом (по секции статистических методов).

При подготовке к созданию Всесоюзной статистической ассоциации был проведен анализ ситуации в области статистики. В частности, было установлено [15], что в учебниках по "Общей теории статистики" обычно излагаются (с теми или иными математическими ошибками) основы прикладной статистики, к которым добавляется небольшая по объему информация о деятельности органов официальной статистики.

Наши работы, посвященные развитию статистических методов в нашей стране, суммированы в главе 2 (с.13 - 61) монографии [19]. Отметим, что подготовка адекватной истории отечественной статистики - дело будущего. Имеющиеся сочинения - удручающе односторонние. Так, в "учебном пособии" [20] даже не упомянут великий статистик ХХ в. член-корреспондент АН СССР Николай Васильевич Смирнов. Но и из имеющейся информации было ясно, что перестройка статистики назрела. Одним из наших предложений [4, 6] было создание Всесоюзной статистической ассоциации. Другим - организация Всесоюзного центра статистических методов и информатики, миссия которого - разработка и внедрение программных продуктов по статистическим методам.

Всесоюзная статистическая ассоциация - аналог Королевского статистического общества (1834) и Американской статистической ассоциации (1839). Однако вследствие развала СССР Всесоюзная статистическая ассоциация прекратила работу, как и другие союзные организации. С юридической точки зрения это незаконно, поскольку в ее Уставе была норма - ликвидация ассоциации возможна лишь по решению съезда. Такого съезда не было. Был лишь один съезд - Учредительный (1990). Поэтому юридически Всесоюзная статистическая ассоциация существует. На постсоветском пространстве наиболее активным является сообщество узбекских статистиков. В Ташкенте регулярно проводятся многочисленные международные конференции "Статистика и ее применения".

За 1990-е годы число участников статистических конференций и семинаров сократилось на порядок, поэтому мы сочли необходимым перейти к составлению учебников и монографий.

Новая парадигма математических методов исследования

В ходе организации Всесоюзной статистической ассоциации было проанализировано состояние и перспективы развития рассматриваемой области научно-прикладных исследований и осознаны основы уже сложившейся к концу 1980-х гг. новой парадигмы математических методов исследования, в более узкой терминологии - новой парадигмы статистики. В течение следующих лет новая парадигма развивалась и к настоящему времени оформлена в виде серии монографий и учебников для вузов, состоящей более чем из 10 книг. Проведем сравнение старой и новой парадигм математических методов исследования.

Типовые исходные данные в новой парадигме - объекты нечисловой природы (элементы нелинейных пространств, которые нельзя складывать и умножать на число, например, множества, бинарные отношения), а в старой - числа, конечномерные векторы, функции. Ранее (в старой парадигме) для расчетов использовались разнообразные суммы, однако объекты нечисловой природы нельзя складывать, поэтому в новой парадигме применяется другой математический аппарат, основанный на расстояниях между объектами нечисловой природы и решении задач оптимизации.

Изменились постановки задач анализа данных и экономико-математического моделирования. Так, старая парадигма математической статистики исходит из идей начала ХХ в., когда К. Пирсон предложил четырехпараметрическое семейство распределений для описания распределений реальных данных. В это семейство как частные случаи входят, в частности, подсемейства нормальных, экспоненциальных, Вейбулла-Гнеденко, гамма-распределений. Сразу было ясно, что распределения реальных данных, как правило, не входят в семейство распределений Пирсона (об этом говорил, например, академик С.Н. Бернштейн в 1927 г. в докладе на Всероссийском съезде математиков; подробнее см. [13]). Однако математическая теория параметрических семейств распределений (методы оценивание параметров и проверки гипотез) оказалась достаточно интересной с теоретической точки зрения (в ее рамках был доказан ряд трудных теорем), и именно на ней до сих пор основано преподавание во многих вузах. Итак, в старой парадигме основной подход к описанию данных - распределения из параметрических семейств, а оцениваемые величины - их параметры, в новой парадигме рассматривают произвольные распределения, а оценивают - характеристики и плотности распределений, зависимости, правила диагностики и др. Центральная часть теории - уже не статистика числовых случайных величин, а статистика в пространствах произвольной природы, т.е. нечисловая статистика [7], называемая также статистикой нечисловых данных.

В старой парадигме источники постановок новых задач - традиции, сформировавшиеся к середине ХХ века, а в новой - современные потребности математического моделирования и анализа данных (XXI век), т.е. запросы практики. Конкретизируем это общее различие. В старой парадигме типовые результаты - предельные теоремы, в новой - рекомендации для конкретных значений параметров, в частности, объемов выборок. Изменилась роль информационных технологий - ранее они использовались в основном для расчета таблиц (в частности, информатика находилась вне математической статистики), теперь же они - инструменты получения выводов (имитационное моделирование, датчики псевдослучайных чисел, методы размножение выборок, в т.ч. бутстреп, и др.). Вид постановок задач приблизился к потребностям практики - при анализе данных от отдельных задач оценивания и проверки гипотез перешли к статистическим технологиям (технологическим процессам анализа данных). Выявилась важность проблемы "стыковки алгоритмов" - влияния выполнения предыдущих алгоритмов в технологической цепочке на условия применимости последующих алгоритмов. В старой парадигме эта проблема не рассматривалась, для новой - весьма важна.

Если в старой парадигме вопросы методологии моделирования практически не обсуждались, достаточными признавались схемы начала ХХ в., то в новой парадигме роль методологии (учения об организации деятельности) является основополагающей. Резко повысилась роль моделирования - от отдельных систем аксиом произошел переход к системам моделей. Сама возможность применения вероятностного подхода теперь - не "наличие повторяющегося комплекса условий" (реликт физического определения вероятности, использовавшегося до аксиоматизации теории вероятностей А.Н. Колмогоровым в 1930-х гг.), а наличие обоснованной вероятностно-статистической модели. Если раньше данные считались полностью известными, то для новой парадигмы характерен учет свойств данных, в частности, интервальных и нечетких [18]. Изменилось отношение к вопросам устойчивости выводов - в старой парадигме практически отсутствовал интерес к этой тематике, в новой разработана развитая теория устойчивости (робастности) выводов по отношению к допустимым отклонениям исходных данных и предпосылок моделей [5].

Результаты сравнения парадигм удобно представить в виде табл. 1.

Таблица 1. Сравнение основных характеристик старой и новой парадигм

No.

Характеристика

Старая парадигма

Новая парадигма

1

Типовые исходные данные

Числа, конечномерные вектора, функции

Объекты нечисловой природы

2

Основной подход к моделированию данных

Распределения из параметрических семейств

Произвольные функции распределения

3

Основной математический аппарат

Суммы и функции от сумм

Расстояния и алгоритмы оптимизации

4

Источники постановок новых задач

Традиции, сформировавшиеся к середине ХХ века

Современные прикладные потребности анализа данных (XXI век)

5

Отношение к вопросам устойчивости выводов

Практически отсутствует интерес к устойчивости выводов

Развитая теория устойчивости (робастности) выводов

6

Оцениваемые величины

Параметры распределений

Характеристики, функции и плотности распределений, зависимости, правила диагностики и др.

7

Возможность применения

Наличие повторяющегося комплекса условий

Наличие обоснованной вероятностно-статистической модели

8

Центральная часть теории

Статистика числовых случайных величин

Нечисловая статистика

9

Роль информационных технологий

Только для расчета таблиц (информатика находится вне статистики)

Инструменты получения выводов (датчики псевдослучайных чисел, размножение выборок, в т.ч. бутстреп, и др.)

10

Точность данных

Данные полностью известны

Учет неопределенности данных, в частности, интервальности и нечеткости

11

Типовые результаты

Предельные теоремы (при росте объемов выборок)

Рекомендации для конкретных объемов выборок

12

Вид постановок задач

Отдельные задачи оценивания параметров и проверки гипотез

Высокие статистические технологии (технологические процессы анализа данных)

13

Стыковка алгоритмов

Не рассматривается

Весьма важна при разработке процессов анализа данных

14

Роль моделирования

Мала (отдельные системы аксиом)

Системы моделей - основа анализа данных

15

Анализ экспертных оценок

Отдельные алгоритмы

Прикладное "зеркало" общей теории

16

Роль методологии

Практически отсутствует

Основополагающая

Учебная литература, соответствующая новой парадигме

Как уже отмечалось, на рубеже тысячелетий нами было принято решение сосредоточить усилия на подготовке учебной литературы, соответствующей новой парадигме.

Первым был выпущенный в 2002 г. учебник по эконометрике [16], переизданный в 2003 г. и в 2004 г. Четвертое издание "Эконометрики" [17] существенно переработано. Оно соответствует первому семестру курса, в отличие от первых трех изданий, содержащих материалы для годового курса. В четвертое издание включены новые разделы, полностью обновлена глава про индекс инфляции, добавлено методическое обеспечение.

В нашем фундаментальном курсе 2006 г. по прикладной статистике [11] в рамках новой парадигмы рассмотрены как нечисловая статистика, так и классические разделы прикладной статистики, посвященные методам обработки элементов линейных пространств - чисел, векторов и функций (временных рядов).

В том же 2006-м году в рамках новой парадигмы был выпущен курс теории принятия решений [14]. Его сокращенный (в 1,5 раза) вариант вышел годом раньше [12]. А в 2018 г. появился учебник "Методы принятия управленческих решений" [3].

Магистранты научно-учебного комплекса "Инженерный бизнес и менеджмент" МГТУ им. Н.Э. Баумана изучают дисциплину "Организационно-экономическое моделирование". Одноименный учебник выпущен в трех частях (томах). Первая из них [7] посвящена сердцевине новой парадигмы - нечисловой статистике. Ее прикладное "зеркало" - вторая часть [8] - современный учебник по экспертным оценкам. В третьей части [9] наряду с основными постановками задач анализа данных (чисел, векторов, временных рядов) и конкретными статистическими методами анализа данных классических видов (чисел, векторов, временных рядов) рассмотрены вероятностно-статистические модели в технических и экономических исследованиях, медицине, социологии, истории, демографии, а также метод когнитивных карт (статистические модели динамики).

В названиях еще двух наших учебников есть термин "организационно-экономическое моделирование". Это вводная книга по менеджменту [2] и современный учебник по теории принятия решений [10], в которых содержание соответствует новой парадигме, в частности, подходам трехтомника по организационно-экономическому моделированию. В нем значительно большее внимание по сравнению с более ранними нашими книгами теории принятия решений уделено теории и практике экспертных оценок, в то время как общие проблемы менеджмента выделены для обсуждения в отдельное издание [2].

К рассмотренному выше корпусу учебников примыкают справочник по минимально необходимым для восприятия рассматриваемых курсов понятиям теории вероятностей и прикладной математической статистики [1].

На основе сказанного выше можно констатировать, что к настоящему моменту рекомендация Учредительного съезда Всесоюзной статистической ассоциации (1990) по созданию комплекта учебной литературы на основе новой парадигмы математических методов исследования выполнена. Предстоит большая работа по внедрению новой парадигмы организационно-экономического моделирования, эконометрики и статистики в научные исследования (теоретические и прикладные) и преподавание.

Предварительные итоги

Отечественная научная школа в области организационно-экономического моделирования, эконометрики и статистики создана на кафедре "Экономика и организация производства" МГТУ им. Н.Э. Баумана. От зарубежных аналогов она отличается опорой на отечественную вероятностно-статистическую научную школу, созданную А.Н. Колмогоровым, Б.В. Гнеденко, В.В. Налимовым и их сподвижниками, и на высокие статистические технологии XXI в., отраженные в перечисленных выше монографиях и учебных курсах.

Отечественная научная школа оказалась востребованной не только преподавателями, но и научными работниками. Так, в Российском индексе научного цитирования на состоянию на 21.07.2019 указано 806 цитирований "Прикладной статистики", 686 - "Эконометрики", 622 - "Теории принятия решений", а в поисковой системе "Академия Google" (Google Scholar) (https://scholar.google.ru/citations?hl=ru&view_op=list_works&email_for_op=prof-orlov%40mail.ru&invitation_id=3476051930665005820&user=ziqLP2cAAAAJ) - соответственно 948, 761, 969 цитирований. Востребованность этих работ в науке свидетельствует о том, что их можно воспринимать не только как учебники, но и как научные монографии, включающие недавние научные результаты.

Отметим большую роль информационно-коммуникационных технологий в распространении научных результатов отечественной научной школы в области организационно-экономического моделирования, эконометрики и статистики. В Российском индексе научного цитирования указано, что значительная часть авторов получила информацию с сайта "Высокие статистические технологии" (http://orlovs.pp.ru/). А именно, к этому каналу распространения информации относятся 400 цитирований "Прикладной статистики" (49,6% всех цитирований) и 328 цитирований "Теории принятия решений" (52,7% всех цитирований).

Ожидаем, что подходы и результаты отечественной научной школы в области организационно-экономического моделирования, эконометрики и статистики окажутся востребованными и в дальнейшем.

Литература

1. Орлов А.И. Вероятность и прикладная статистика: основные факты: справочник. - М.: КноРус, 2010. - 192 с.

2. Орлов А.И. Менеджмент: организационно-экономическое моделирование. - Ростов-на-Дону: Феникс, 2009. - 475 с.

3. Орлов А.И. Методы принятия управленческих решений. - М.: КНОРУС, 2018. - 286 с.

4. Орлов А.И. Необходимость перестройки в статистике // Статистика и перестройка. Ученые записки по статистике, т.55. - М.: Наука, 1991. - С. 153-159.

5. Орлов А.И. Новый подход к изучению устойчивости выводов в математических моделях // Научный журнал КубГАУ. 2014. No. 100. С. 146-176.

6. Орлов А.И. О перестройке статистической науки и её применений // Вестник статистики. 1990. No. 1. С. 65-71.

7. Орлов А.И. Организационно-экономическое моделирование. Ч.1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. - 541 с.

8. Орлов А.И. Организационно-экономическое моделирование. Ч.2. Экспертные оценки. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. - 486 с.

9. Орлов А.И. Организационно-экономическое моделирование. Ч.3. Статистические методы анализа данных. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2012. - 624 с.

10. Орлов А.И. Организационно-экономическое моделирование: теория принятия решений. - М. : КноРус, 2011. - 568 с.

11. Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006. - 671 с.

12. Орлов А.И. Принятие решений. Теория и методы разработки управленческих решений. - М.: ИКЦ "МарТ"; Ростов н/Д: Издательский центр "МарТ", 2005. - 496 с.

13. Орлов А.И. Распределения реальных статистических данных не являются нормальными // Научный журнал КубГАУ. 2016. No. 117. С. 71-90.

14. Орлов А.И. Теория принятия решений. - М.: Экзамен, 2006. - 574 с.

15. Орлов А.И. Что дает прикладная статистика народному хозяйству? // Вестник статистики. 1986. No. 8. С. 52-56.

16. Орлов А.И. Эконометрика. - М.: Экзамен, 2002 (1-е изд.), 2003 (2-е изд.), 2004 (3-е изд.). - 576 с.

17. Орлов А.И. Эконометрика. Изд. 4-е, доп. и перераб. - Ростов-на-Дону: Феникс, 2009. - 572 с.

18. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.

19. Орлов А.И., Луценко Е.В., Лойко В.И. Организационно-экономическое, математическое и программное обеспечение контроллинга, инноваций и менеджмента: монография / под общ. ред. С. Г. Фалько. - Краснодар : КубГАУ, 2016. - 600 с.

20. Плошко Б.Г., Елисеева И.И. История статистики. - М.: Финансы и статистика, 1990. - 295 с.

Публикация:

Орлов А.И. Отечественная научная школа в области организационно-экономического моделирования, эконометрики и статистики // Контроллинг. 2019. No. 3 (73).

*   *   *   *   *   *   *

Статистика нечисловых данных как часть современной математической статистики

А.И. Орлов

Институт высоких статистических технологий и эконометрики

Московского государственного технического университета им. Н.Э. Баумана; e-mail: prof-orlov@mail.ru.

История, современное состояние и перспективы развития математической статистики как научной, практической и учебной дисциплины заслуживают обсуждения. В книге [1] выделено четыре этапа развития этой дисциплины: до 1900 г. - описательная статистика, с 1900 по 1933 гг. - параметрическая статистика, с 1933 по 1979 гг. - непараметрическая статистика, с 1979 г. по настоящее время - статистика нечисловых данных. Названия этапам даны по наиболее ярким новым явлениям в развитии математической статистики. Согласно [2] публикации по статистике нечисловых данных составляют 63% от всех публикаций по математической статистике (в разделе "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов"). Вместе с тем распространенные учебники по математической статистике основное внимание продолжают уделять параметрической статистике, т.е. отстают от передовых научных исследований на столетие. Этот естественный консерватизм делает необходимым обсуждение статистики нечисловых данных как части современной математической статистики.

Сорок лет развития статистики нечисловых данных

В настоящее время статистика нечисловых данных - одна из четырех основных областей математической статистики, выделенных по виду данных (наряду со статистикой чисел, многомерным статистическим анализом, статистикой временных рядов и случайных процессов). Статистика нечисловых данных делится на статистику в пространствах общей природы и разделы, посвященные конкретным типам нечисловых данных (статистика интервальных данных, статистика нечетких множеств, статистика бинарных отношений и др.). Научные результаты, полученные в рамках статистики в пространствах общей природы, могут быть использованы для конкретных видов данных (например, непараметрические оценки плотности). Следовательно, статистика в пространствах общей природы - центральная часть математической статистики, а включающая ее статистика нечисловых данных - основная область математической статистики.

Первоначально использовался термин "статистика объектов нечисловой природы". Он впервые появился в 1979 г. в нашей монографии [3] для обозначения совокупности некоторых полученных в ней научных результатов. В том же году в статье [4] нами была развернута программа построения этой новой области статистических методов, приведены первоначальные формулировки ряда основных теорем. К тридцатилетию новой области вышел и первый учебник по нечисловой статистике [5]. Здесь использован термин "нечисловая статистика". Он представляется слишком кратким, в то время как исходный термин "статистика объектов нечисловой природы" - слишком тяжеловесным. В настоящей статье будем называть рассматриваемую область прикладной статистики "статистикой нечисловых данных". Такое название в наилучшей степени отражает ее содержание. Все три термина (статистика объектов нечисловой природы, статистика нечисловых данных, нечисловая статистика) - синонимы.

Новая парадигма математических методов исследования

Появление и развитие статистики нечисловых данных знаменует переход к новой парадигме математической статистики [6].

Парадигма научная (от греч. paradeigma - пример, образец) - совокупность научных достижений, признаваемых всем научным сообществом в тот или иной период времени и служащих основой и образцом новых научных исследований. Понятие парадигмы получило широкое распространение после выхода в свет книги американского историка науки Т. Куна "Структура научных революций" (1962).

Математические методы исследования используются для решения практических задач с давних времен. В Ветхом Завете рассказано о весьма квалифицированно проведенной переписи военнообязанных (Четвертая книга Моисеева "Числа"). В первой половине ХХ в. была разработана классическая парадигма методов обработки данных, полученных в результате измерений (наблюдений, испытаний, анализов, опытов). Математические методы исследования, соответствующие классической парадигме, широко используются. Со стороны может показаться, что в этой области основное давно сделано, современные работы направлены на мелкие усовершенствования. Однако это совсем не так. Новая парадигма математических методов исследования принципиально меняет прежние представления. Она зародилась в 1980-х гг., но была развита в серии наших монографий и учебников уже в XXI в.

Типовые исходные данные в новой парадигме - объекты нечисловой природы (элементы нелинейных пространств, которые нельзя складывать и умножать на число, например, множества, бинарные отношения), а в старой - числа, конечномерные векторы, функции [6]. Ранее (в классической старой парадигме) для расчетов использовались разнообразные суммы, однако объекты нечисловой природы нельзя складывать, поэтому в новой парадигме применяется другой математический аппарат, основанный на расстояниях между объектами нечисловой природы и решении задач оптимизации.

Изменились постановки задач анализа данных. Старая парадигма исходит из идей начала ХХ в., когда К. Пирсон предложил использовать четырехпараметрическое семейство распределений для описания распределений реальных данных. В это семейство как частные случаи входят, в частности, подсемейства нормальных, экспоненциальных, Вейбулла-Гнеденко, гамма-распределений. Сразу было ясно, что распределения реальных данных, как правило, не входят в семейство распределений Пирсона (об этом говорил, например, академик С.Н. Бернштейн в 1927 г. в докладе на Всероссийском съезде математиков). Однако математическая теория параметрических семейств распределений (методы оценивание параметров и проверки гипотез) оказалась достаточно интересной, и именно на ней до сих пор основано преподавание во многих вузах. Итак, в старой парадигме основной подход к описанию данных - распределения из параметрических семейств, а оцениваемые величины - их параметры, в новой парадигме рассматривают произвольные распределения, а оценивают - характеристики и плотности распределений, зависимости, правила диагностики и др. Центральная часть теории - уже не статистика числовых случайных величин, а статистика в пространствах произвольной природы.

В старой парадигме источники постановок новых задач - традиции, сформировавшиеся к середине ХХ века, а в новой - современные потребности математического моделирования и анализа данных (XXI век), т.е. запросы практики. Конкретизируем это общее различие. В старой парадигме типовые результаты - предельные теоремы, в новой - рекомендации для конкретных значений параметров, в частности, объемов выборок (см., например, [7]). Изменилась роль информационных технологий - ранее они использовались в основном для расчета таблиц (в частности, информатика находилась вне математической статистики), теперь же они - инструменты получения выводов (имитационное моделирование, датчики псевдослучайных чисел, методы размножение выборок, в т.ч. бутстреп, и др.). Вид постановок задач приблизился к потребностям практики - при анализе данных от отдельных задач оценивания и проверки гипотез перешли к статистическим технологиям (технологическим процессам анализа данных). Выявилась важность проблемы "стыковки алгоритмов" - влияния выполнения предыдущих алгоритмов в технологической цепочке на условия применимости последующих алгоритмов. В старой парадигме эта проблема не рассматривалась, для новой - весьма важна.

Если в старой парадигме вопросы методологии моделирования практически не обсуждались, достаточными признавались схемы начала ХХ в., то в новой парадигме роль методологии (учения об организации деятельности) является основополагающей. Резко повысилась роль моделирования - от отдельных систем аксиом произошел переход к системам моделей. Сама возможность применения вероятностного подхода теперь - не "наличие повторяющегося комплекса условий" (реликт физического определения вероятности, использовавшегося до аксиоматизации теории вероятностей А.Н. Колмогоровым в 1930-х гг.), а наличие обоснованной вероятностно-статистической модели. Если раньше данные считались полностью известными, то для новой парадигмы характерен учет свойств данных, в частности, интервальных и нечетких. Изменилось отношение к вопросам устойчивости выводов - в старой парадигме практически отсутствовал интерес к этой тематике, в новой разработана развитая теория устойчивости (робастности) выводов по отношению к допустимым отклонениям исходных данных и предпосылок моделей.

Статистика нечисловых данных развивается в соответствии с новой парадигмой математических методов исследования.

Различные виды нечисловых данных

Типичный исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в статистике нечисловых данных элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной (линейной) структуры.

Примерами объектов нечисловой природы являются:

- значения качественных признаков, в том числе результаты кодировки объектов с помощью заданного перечня категорий (градаций);

- упорядочения (ранжировки) экспертами объектов экспертизы - образцов продукции (при оценке её технического уровня, качества и конкурентоспособности)), ее характеристик, заявок на проведение научных работ (при проведении конкурсов на выделение грантов) и т.п.;

- классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);

- толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;

- результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;

- множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;

- слова, предложения, тексты;

- графы;

- вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности организации или анкета эксперта, в которой ответы на часть вопросов носят качественный характер, а на часть - количественный;

- ответы на вопросы экспертной, медицинской, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.

Все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. Только с конца 1970-х годов начала развиваться статистика интервальных данных, в которой предполагается, что исходные данные - это не числа, а интервалы. Статистику интервальных данных можно рассматривать как часть интервальной математики. Выводы в ней часто принципиально отличны от классических.

Интервальные данные можно рассматривать как частный случай нечетких множеств. Если характеристическая функция нечеткого множества равна 1 на некотором интервале и равна 0 вне этого интервала, то задание такого нечеткого множества эквивалентно заданию интервала. С методологической точки зрения важно, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств. Цикл соответствующих теорем приведен, например, в монографии [5].

Исторический путь статистической науки

Развитие статистических методов проанализировано в [1, 2]. Дадим здесь краткую сводку, позволяющую выявить роль статистики нечисловых данных.

К 60-м годам ХХ в. в нашей стране сформировалась научно-практическая дисциплина, которую называем классической математической статистикой. Новое поколение училось теории по фундаментальной монографии шведского математика Г. Крамера, написанной в военные годы и впервые изданной на русском языке в 1948 г. Затем внимание многих специалистов сосредоточилось на изучении математических конструкций, используемых в статистике. Как реакция на уход в математику выделилась новая научная дисциплина - прикладная статистика. В базовом учебнике по прикладной статистике [8] в качестве рубежа, когда это стало очевидным, указан 1981 г. С этого времени линии развития математической статистики и прикладной статистики разошлись. Первая из этих дисциплин полностью ушла в математику, перестав интересоваться практическими делами. Вторая [8] позиционировала себя в качестве науки об обработке данных - результатов наблюдений, измерений, испытаний, анализов, опытов, обследований.

Вполне естественно, что в прикладной статистике стали развиваться новые математические методы и модели. Необходимость их развития вытекает из потребностей конкретных прикладных исследований. Это математизированное ядро прикладной статистики назовем теоретической статистикой. Тогда под собственно прикладной статистикой следует понимать обширную промежуточную область между теоретической статистикой и применением статистических методов в конкретных областях. В нее входят, в частности, вопросы формирования вероятностно-статистических моделей и выбора конкретных методов анализа данных (т.е. методология прикладной статистики и других статистических методов), проблемы разработки и применения информационных статистических технологий, организации сбора и анализа данных, т.е. разработки статистических технологий.

Таким образом, общая схема современной статистической науки выглядит следующим образом (от абстрактного к конкретному):

1. Математическая статистика - часть математики, изучающая статистические структуры. Сама по себе не дает рецептов анализа статистических данных, однако разрабатывает методы, полезные для использования в теоретической статистике.

2. Теоретическая статистика - наука, посвященная моделям и методам анализа конкретных статистических данных.

3. Прикладная статистика (в узком смысле) посвящена статистическим технологиям сбора и обработки данных. Она включает в себя методологию статистических методов, вопросы организации выборочных исследований, разработки статистических технологий, создания и использования статистических программных продуктов.

4. Применение статистических методов в конкретных областях (в экономике и менеджменте - эконометрика, в биологии - биометрика, в химии - хемометрия, в технических исследованиях - технометрика, в геологии, демографии, социологии, медицине, истории, и т.д.).

Часто позиции 2 и 3 вместе называют прикладной статистикой. Иногда позицию 1 именуют теоретической статистикой. Эти терминологические расхождения связаны с тем, что описанное выше развитие рассматриваемой научно-прикладной области не сразу, не полностью и не всегда адекватно отражается в сознании специалистов. Так, до сих пор выпускают учебники, соответствующие старой парадигме - уровню представлений середины ХХ века.

Отметим, что математическая статистика, как и теоретическая с прикладной, заметно отличается от ведомственной науки органов официальной государственной статистики. ЦСУ, Госкомстат, Росстат применяли и применяют лишь проверенные временем приемы XIX века. Возможно, следовало бы от этого ведомства полностью отмежеваться и сменить название научной дисциплины, например, на "Анализ данных". В настоящее время компромиссным самоназванием является термин "статистические методы".

Во второй половине 80-х годов развернулось общественное движение, имеющее целью создание профессионального объединения статистиков. Аналогами являются британское Королевское статистическое общество (основано в 1834 г.) и Американская статистическая ассоциация (создана в 1839 г.). К сожалению, деятельность учрежденной в 1990 г. Всесоюзной статистической ассоциации оказалась парализованной в результате развала СССР. Среди стран СНГ наибольшую активность в настоящее время проявляют узбекские исследователи, регулярно проводящие представительные конференции по статистике и ее применениям.

Статистика в пространствах произвольного вида

В чем принципиальная новизна статистики нечисловых данных? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. Принципиально важно, что в статистике нечисловых данных нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.

Следует отметить, что в статистике нечисловых данных одна и та же математическая схема может с успехом применяться во многих прикладных областях, для анализа данных различных типов, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.

Кратко рассмотрим несколько идей, развиваемых в статистике нечисловых данных для элементов выборок, лежащих в пространствах произвольного вида. Они нацелены на решение классических задач описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.

Первой обсудим проблему определения средних величин [9]. В рамках теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения. Теория измерений [5], в середине ХХ в. рассматривавшаяся как часть математического обеспечения психологии, к настоящему времени признана общенаучной дисциплиной.

В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Теоретическое среднее определяется как решение задачи минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для получения эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке (примером является медиана Кемени [5, 9]). При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственными элементами рассматриваемого пространства, а являться некоторыми множествами таких элементов. Они могут оказаться и пустыми. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость (в специально определенном смысле) эмпирических средних к теоретическим [5, 9].

Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить [5] асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в статистике интервальных данных.

В статистике в пространствах произвольного вида большую роль играют непараметрические оценки плотности распределения вероятностей, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В статистике нечисловых данных предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в том числе в дискретных пространствах [5]. В частности, доказана их состоятельность, изучена скорость сходимости и установлен (для ядерных оценок плотности) примечательный факт совпадения наилучшей скорости сходимости в произвольном пространстве с той, которая имеет быть в классической теории для числовых случайных величин.

Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.

Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации [5]. Интересно движение мысли в обратном направлении - наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, именно в рамках статистики объектов нечисловой природы (а не, скажем, многомерного статистического анализа). Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Аналогичным образом задачи многомерного шкалирования, т.е. визуализации данных, также естественно отнести к статистике объектов нечисловой природы. Важны методы оценки истинной размерности признакового пространства.

Отметим несколько конкретных научных результатов математической теории классификации. В задачах диагностики (дискриминантного анализа), как следует из леммы Неймана-Пирсона, целесообразно строить алгоритмы на основе отношения непараметрических оценок плотностей распределения вероятностей, соответствующих классам. Установлено, что наилучшим показателем качества алгоритма диагностики является прогностическая сила [5]. Устойчивость классификации относительно выбора метода кластер-анализа обосновывает вывод о реальности кластеров [5].

Для проверки гипотез в пространствах нечисловой природы могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Отметим, что предельная теория таких статистик, построенная первоначально в классической постановке, приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [5], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.

Литература

1. Лойко В.И., Луценко Е.В., Орлов А.И. Высокие статистические технологии и системно-когнитивное моделирование в экологии. - Краснодар: КубГАУ, 2019. - 258 с.

2. Орлов А.И. Развитие прикладной статистики и математических методов исследования в России (2006 - 2015) // Материалы республиканской научно-практической конференции "Статистика и ее применения - 2017". Под ред. проф. А.А. Абдушукурова. - Ташкент: НУУз, 2017. - С. 13-32.

3. Орлов А.И. Устойчивость в социально-экономических моделях. - М. : Наука, 1979. - 296 с.

4. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки / Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. С. 17-33.

5. Орлов А.И. Организационно-экономическое моделирование. Часть 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. - 544 с.

6. Орлов А.И. Новая парадигма математической статистики // Материалы республиканской научно-практической конференции "Статистика и её применения - 2012". Под редакцией профессора А.А. Абдушукурова. - Ташкент: НУУз, 2012. - С.21-36.

7. Орлов А.И. О развитии асимптотических методов статистического контроля // Материалы республиканской научно-практической конференции "Статистика и ее применения - 2015". Под редакцией профессора А.А. Абдушукурова. - Ташкент: НУУз, 2015. - С. 30-40.

8. Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006. - 671 с.

9. Орлов А.И. Средние величины и законы больших чисел в топологических пространствах с показателями различия // Статистика и её применения. Материалы республиканской научно-практической конференции (Ташкент, 17-18 октября 2013 г.). - Ташкент: Изд-во "Университет", 2013. - С.30-37.

Публикация:

Орлов А.И. Статистика нечисловых данных как часть современной математической статистики // Материалы республиканской научно-практической конференции "Статистика и ее применения - 2019". Под ред. проф. А.А. Абдушукурова. - Ташкент: Филиал МГУ им. М.В. Ломоносова, 2019.

*   *   *   *   *   *   *

На сайте "Высокие статистические технологии", расположенном по адресу http://orlovs.pp.ru, представлены:

На сайте есть форум, в котором вы можете задать вопросы профессору А.И.Орлову и получить на них ответ.

*   *   *   *   *   *   *

Удачи вам и счастья!


В избранное