25506-1 (675595)
Текст из файла
СТРУКТУРА СТАТИСТИКИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
Рассматривается структура основополагающего для разработки АРМ "МАТЭК" направления научно-практических исследований, известного под названием "статистика объектов нечисловой природы".
Введение
Термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [1]. В том же году в статье [2] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована (см. обзоры [3-5]).
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в СССР. В 80-е годы существенно возрос интерес к этой тематике и у зарубежных исследователей. Это отражено в отчетах [6-7] о Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации (ГОСТ 24660-81 и другие стандарты по статистическому приемочному контролю по альтернативному признаку, рекомендации [8] и др.). Ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [9]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта отчета - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи, результаты и публикации.
Объектами нечисловой природы (см. также пункты 2. 3 и 2. 4 настоящего отчета) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности [10]), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистики (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить [4, 8] на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов; статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А. Н. Колмогорова [11], Б. В. Гнеденко [12], Ю. К. Беляева [13], Я. П. Лумельского [14] и многих других.
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю. Н. Тюриным и другими специалистами вокруг семинара "Математические методы в экспертных оценках", развивала в основном вероятностную статистику нечисловых данных [15]. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены, в частности, сборники [16 - 22] и обзоры [23, 24]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок, в особенности при разработке АРМ "МАТЭК".
Новосибирская группа (Б. Г. Миркин [25-28], Г. С. Лобов [29] и др.), как правило, не использовала вероятностные модели, т. е. вела исследования в рамках анализа данных (в том смысле, как этот термин разъясняется в работах [4, 8]). В московской группе в рамках анализа данных также велись работы, в частности, Б. Г. Литваком [30]. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других центрах, некоторые из них будут упомянуты ниже (см. также материалы конференций по анализу нечисловых данных [31, 32]).
. Внутреннее деление статистики объектов нечисловой природы
Внутри рассматриваемого направления прикладной статистики выделим следующие области:
1. Статистика конкретных видов объектов нечисловой природы;
2. Статистика в пространствах общей (произвольной) природы;
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим [33]:
1. 1) теорию измерений;
1. 2) статистику бинарных отношений;
1. 3) теорию люсианов (бернуллиевских векторов);
1. 4) статистику случайных множеств;
1. 5) статистику нечетких множеств;
1. 6) многомерное шкалирование;
1. 7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [1, 4, 24]. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю [11-14], таблицам сопряженности [34], а также по анализу текстов [35, 36] и некоторые другие [25-29]. Таким образом, рассмотрим постановки 1970-90 гг. вероятностной статистики объектов нечисловой природы.
. Статистика в пространствах общей природы
Пусть
-элементы пространства
, не являющегося линейным. Как определить среднее значение для
? Поскольку нельзя складывать элементы
, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В работе [37] предложено использовать показатель различия
(содержательный смысл: чем больше
, тем больше различаются
и
) и определять среднее как решение экстремальной задачи
. (1)
Таким образом
- это совокупность всех тех
, для которых функция
достигает минимума на
.
Для классического случая
при
имеем:
, а при
среднее
совпадает с выборочной медианой (при нечетном объеме выборки; а при четном -
является отрезком с концами в двух средних элементах вариационного ряда).
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. Джини и Гальвани [38] применили такой подход для усреднения точек на плоскости и в пространстве (см. также [39]). Кемени [40-42] решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок. При моделировании лесных пожаров, согласно выражению (1), было введено "среднеуклоняемое множество" [43]. Общее определение среднего (1) рассмотрено нами в работах [2, 37].
Основной результат, связанный со средними (1) - аналог закона больших чисел. Пусть.
- независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы
(определения здесь и далее - согласно Математической Энциклопедии [44]). Теоретическим средним, или математическим ожиданием, назовем [37]
. (3)
Закон больших чисел состоит в сходимости.
к
. при
. Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений таково [46]: для функции
(4)
введем понятие "
-пятки" (
>0)
. (5)
Очевидно,
-пятка
- это окрестность
(если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве
(позже подобная идея была использована в работе [45]). Тогда при некоторых условиях регулярности для любого
>0 вероятность события
(6)
стремится к 1 при.
, т. е. справедлив закон больших чисел [46].
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно [47], большинство задач прикладной статистики может быть представлено в качестве оптимизационных. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле Тьюки-Хьюбера [1, 48-50]), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии [51] и т. д.
Обычно легко устанавливается, что для некоторых пространств
и последовательности случайных функций.
при.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.















