Прикладная статистика – наука о методах обработки статистических данных. Методы прикладной статистики активно применяются в технических исследованиях, экономике менеджменте, социологии, медицине, геологии, истории и т.д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во многих областях теоретической и практической деятельности.
Типовые образцы раннего этапа внедрения статистических способов описаны в Ветхом Завете. С точки зрения математики, они сводились к подсчетам числа попаданий значений наблюдаемых признаков в определенные градации. Далее результаты стали изображать в виде таблиц и диаграмм, как это и сейчас делает Госкомстат РФ. Однако по сравнению с Ветхим Заветом есть прогресс – в Библии не было таблиц. Но нет продвижения по сравнению с работами отечественных статистиков конца девятнадцатого – начала двадцатого века.
Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Известно довольно много публикаций по истории теории вероятностей, однако в некоторых из них имеются неточные тезисы.
Более современный ход развития прикладной статистики можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались способы, которые былиоснованына анализе данных из параметрических семейств распределений, которые были описаны кривыми семейства Пирсона. Наиболее популярным было нормальное (Гауссово) распределение. Для проверки гипотез применялись критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы главные идеи планирования эксперимента.
Разработанную в первой трети ХХ в. концепцию называют параметрической статистикой, потому что ее главный предмет изучения – это выборки из распределений, описываемых одним или небольшим числом характеристик. Более общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать какие-либо веские причины, по которым определенное распределение итогов наблюдений должно входить в то или иное параметрическое семейство. Исключения известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Но в большинстве настоящих случаев данных моделей нет, и приближение реального распределения при помощи кривых из семейства Пирсона или его подсемейств – формальная операция.
Именно из таких соображений осуждал параметрическую статистику академик С.Н. Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков. Несколько лет назад при описании современного этапа развития статистических методов были выделены пять актуальных направлений, в которых развивается современная прикладная статистика: непараметрика, робастность, бутстреп, интервальная статистика, статистика объектов нечисловой природы.
После второй мировой войны формирование непараметрической статистики пошло быстрее. Большую роль сыграли работы Вилкоксона и его школы. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических.
Если в параметрических постановках на данных накладываются очень жесткие требования – их функции распределения должны принадлежать определенному параметрическому семейству, то в непараметрических, наоборот, излишне слабые – требуется лишь, чтобы функции распределения были непрерывны. При этом игнорируется априорная информация о том, каков «примерный вид» распределения. Априори можно ожидать, что учет этого «примерного вида» улучшит показатели качества статистических процедур.
Иное из упомянутых выше направлений – бутстреп – связано с интенсивным использованием возможностей вычислительной техники. Главная идея состоит в том, чтобы абстрактное исследование заменить вычислительным экспериментом. Вместо описания выборки распределением из параметрического семейства строим большое число «похожих» выборок, т.е. «размножаем» выборку. После чего вместо оценивания характеристик и параметров и испытания гипотез на основе характеристик теоретического распределения решаем эти задачи вычислительным методом, рассчитывая интересующие нас статистики по каждой из «похожих» выборок и анализируя полученные при этом распределения.
Перспективное и активно развивающееся направление последних лет – математическая статистика интервальных данных. В данном случае речь идет о развитии методов математической статистики в случае, когда статистические данные – не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин.
Рассмотрим иное направление в статистике интервальных данных, также представляющееся многообещающим. В нем развиваются асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом – уменьшаются до нуля погрешности.
Статистика объектов нечисловой природы как часть прикладной статистики подлежит следующей классификации:
– статистика (числовых) случайных величин;
– многомерный статистический анализ;
– статистика временных рядов и случайных процессов;
– статистика объектов нечисловой природы.
Три первые области являются классическими. Остановимся на четвертой, которая только еще входит в массовое сознание специалистов. Ее называют также статистикой нечисловых данных либо просто нечисловой статистикой.
Исходный объект в математической статистике – это выборка. В вероятностной теории статистики выборка – это совокупность независимых идентично распределенных случайных элементов. В классической математической статистике (которую обычно преподают студентам) элементы выборки – это числа. В многомерном статистическом анализе – вектора. А в нечисловой статистике элементы выборки – это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.
Образцами объектов нечисловой природы являются:
– значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);
– упорядочения (ранжировки) экспертами образцов продукции (при оценке ее технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);
– классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);
– толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;
– результаты парных сравнений или контроля качества продукции по альтернативному признаку («годен» – «брак»), т.е. последовательности из 0 и 1;
– множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;
– слова, предложения, тексты;
– вектора, координаты которых – совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть – количественный;
– ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.
Интервальные данные тоже можно рассматривать как пример объектов нечисловой природы, то есть, как частный случай нечетких множеств.
Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путём доказательства теорем. Большую роль играет методологическая составляющая – как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Хотя статистические данные собираются и анализируются с незапамятных времён, современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно – в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутри математическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина – прикладная статистика. В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов.
Библиографическая ссылка
Селькина М.С. СОВРЕМЕННЫЕ НАПРАВЛЕНИЯ ПРИКЛАДНОЙ СТАТИСТКИ // Современные наукоемкие технологии. – 2013. – № 6. – С. 88-89;URL: https://top-technologies.ru/ru/article/view?id=31996 (дата обращения: 21.11.2024).