25506-1 (Структура статистики объектов нечисловой природы)
Описание файла
Документ из архива "Структура статистики объектов нечисловой природы", который расположен в категории "". Всё это находится в предмете "математика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "математика" в общих файлах.
Онлайн просмотр документа "25506-1"
Текст из документа "25506-1"
СТРУКТУРА СТАТИСТИКИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
Рассматривается структура основополагающего для разработки АРМ "МАТЭК" направления научно-практических исследований, известного под названием "статистика объектов нечисловой природы".
Введение
Термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [1]. В том же году в статье [2] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована (см. обзоры [3-5]).
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в СССР. В 80-е годы существенно возрос интерес к этой тематике и у зарубежных исследователей. Это отражено в отчетах [6-7] о Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации (ГОСТ 24660-81 и другие стандарты по статистическому приемочному контролю по альтернативному признаку, рекомендации [8] и др.). Ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [9]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта отчета - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи, результаты и публикации.
Объектами нечисловой природы (см. также пункты 2. 3 и 2. 4 настоящего отчета) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности [10]), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистики (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить [4, 8] на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов; статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А. Н. Колмогорова [11], Б. В. Гнеденко [12], Ю. К. Беляева [13], Я. П. Лумельского [14] и многих других.
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю. Н. Тюриным и другими специалистами вокруг семинара "Математические методы в экспертных оценках", развивала в основном вероятностную статистику нечисловых данных [15]. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены, в частности, сборники [16 - 22] и обзоры [23, 24]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок, в особенности при разработке АРМ "МАТЭК".
Новосибирская группа (Б. Г. Миркин [25-28], Г. С. Лобов [29] и др.), как правило, не использовала вероятностные модели, т. е. вела исследования в рамках анализа данных (в том смысле, как этот термин разъясняется в работах [4, 8]). В московской группе в рамках анализа данных также велись работы, в частности, Б. Г. Литваком [30]. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других центрах, некоторые из них будут упомянуты ниже (см. также материалы конференций по анализу нечисловых данных [31, 32]).
. Внутреннее деление статистики объектов нечисловой природы
Внутри рассматриваемого направления прикладной статистики выделим следующие области:
1. Статистика конкретных видов объектов нечисловой природы;
2. Статистика в пространствах общей (произвольной) природы;
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим [33]:
1. 1) теорию измерений;
1. 2) статистику бинарных отношений;
1. 3) теорию люсианов (бернуллиевских векторов);
1. 4) статистику случайных множеств;
1. 5) статистику нечетких множеств;
1. 6) многомерное шкалирование;
1. 7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [1, 4, 24]. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю [11-14], таблицам сопряженности [34], а также по анализу текстов [35, 36] и некоторые другие [25-29]. Таким образом, рассмотрим постановки 1970-90 гг. вероятностной статистики объектов нечисловой природы.
. Статистика в пространствах общей природы
Пусть -элементы пространства
, не являющегося линейным. Как определить среднее значение для
? Поскольку нельзя складывать элементы
, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В работе [37] предложено использовать показатель различия
(содержательный смысл: чем больше
, тем больше различаются
и
) и определять среднее как решение экстремальной задачи
. (1)
Таким образом - это совокупность всех тех
, для которых функция
достигает минимума на .
Для классического случая при
имеем:
, а при
среднее
совпадает с выборочной медианой (при нечетном объеме выборки; а при четном -
является отрезком с концами в двух средних элементах вариационного ряда).
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. Джини и Гальвани [38] применили такой подход для усреднения точек на плоскости и в пространстве (см. также [39]). Кемени [40-42] решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок. При моделировании лесных пожаров, согласно выражению (1), было введено "среднеуклоняемое множество" [43]. Общее определение среднего (1) рассмотрено нами в работах [2, 37].
Основной результат, связанный со средними (1) - аналог закона больших чисел. Пусть. - независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы
(определения здесь и далее - согласно Математической Энциклопедии [44]). Теоретическим средним, или математическим ожиданием, назовем [37]
. (3)
Закон больших чисел состоит в сходимости. к
. при
. Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений таково [46]: для функции
(4)
введем понятие " -пятки" (
>0)
. (5)
Очевидно, -пятка
- это окрестность
(если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве
(позже подобная идея была использована в работе [45]). Тогда при некоторых условиях регулярности для любого
>0 вероятность события
(6)
стремится к 1 при. , т. е. справедлив закон больших чисел [46].
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно [47], большинство задач прикладной статистики может быть представлено в качестве оптимизационных. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле Тьюки-Хьюбера [1, 48-50]), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии [51] и т. д.
Обычно легко устанавливается, что для некоторых пространств и последовательности случайных функций.
при.