Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 36

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 36 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 362017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 36)

Гогда задача поиска наилучшего разбиения 5* сводится к решению оптимизационной задачи вида (3.34) (((5) — ех(г, век где А — множество всех допустимых разбиений. 3. В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечных прикладных целей исследователь обращается к одной из трех основных составных частей математического аппарата классификации в условиях отсутствия обучающих выборок 1) мепюдам расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически заданная одномодальная генеральная совокупность при неизвестном значении определяющего ее параметра, а классифицируемые наблюдения — как выборка из смеси таких генеральных совокупностей), 2) методам собственно автоматической классификации или кластер-анализу (исследователь не имеет оснований для параметризации модели, а иногда и для интерпретации последовательности классифицируемых наблюдений в качестве выборки из генеральной совокупности); 3) классификационным процедурам иерархического типа (главная цель — получение наглядного представления о стратификационной структуре всей классифицируемой совокупности, например в виде дендрограммы).

4. Выбор метрики (или меры близости) между объектами, каждый из которых представлен значениями характеризующего его многомерного признака, является узловыммоментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения.

В каждой конкретной задаче этот выбор должен производиться по-своему, в зависимости от главных целей исследования, физической и статистической природы анализируемого многомерного признака, априорных сведений о его вероятностной природе н т.п. В этом смысле схемы, основанные на анализе смесей распределений, а также класси- фикация по исходным данным, уже представленным в виде матрацы попарных расстояний (близостеи), находятся в выгодном положении, поскольку не требуют решения вопроса о выборе метрики. 5 Важное место в построении классификационных процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножествами объектов Изящное обобщение большинства используемых в статистической практике вариантов вычисления расстояний межц двумя группами объектов дает расстояние, подсчитываемое как обобщенное степенное среднее всевозможных попарных расстояний между представителями рассматриваемых двух групп (см.

(5.8)). 6. В статистической практике выбор функционала качества разбиения Я (5) обычно осуществляется весьма произвольно, опирается скорее на эмпирические и профессионально- интуитивные соображения, чем на какую-либо точную формализованную схему (см„например, способ вывода функционала качества (5.2!)). Однако ряд распространенных в статистической практике функционалов качества удается постфактум обосновать и осмыслить в рамках строгих математических моделей.

Возможность этого появляется при наличии дополнительных априорных сведений о классах, позволяющих, например, представлять каждый класс в качестве параметрически заданной одномодальной генеральной совокупности (см. основанный на смеси нормальных совокупностей математико-статистический анализ функционалов Я, (5), Я, (5) и 9«(5) в п. 5.4.6) 7.

Еще один подход к осмыслению и обоснованию методов автоматическои классификации представлен аппроксимационнымн моделями, когда искомая классификация характеризуется матрицей определенной структуры (например, ультраметрической матрицей близости или аддитнвными кластерами (5 28)), а задача состоит в том, чтобы оценить параметры этой структуры таким образом, чтобы она минимально отличалась от матрицы исходных данных. В такой постановке проблема классификации сближается с проблемами факторного анализа (см., в частности, модель главных кластеров (5.30), которая является реализацией для данного случая соотношений линейной модели факторного анализа †- см.

гл. 14). Поэтому данный подход в определенной мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исходных данных на «вклады» отдельных кластеров н других элементов решения). 181 Глава 6. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ (ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ). РАСЩЕПЛЕНИЕ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ Понятие смеси вероятностных распределений 6.1.1. Примеры.

Начнем пояснение понятия смеси распределений с рассмотрения ряда конкретных примеров. П р н м е р 6.1. Контроль (по количественному признаку) изделий (пол)фабрикатов) совокупности, составленной из продукции двух разных станков. В отдел технического контроля (ОТК) поступают партии изделий, составленные с помощью случайного извлечения из объединенной продукции двух станков (станка А и станка В). Изделия контролируются по некоторому количественному параметру (линейному размеру) с мм, так что результатом контроля 1-го изделия партии является число х; мм (изделия на станках не маркируются, так что в ОТК не известно, на каком именно станке произведено каждое из них). Производительность станка А в 1,5 раза выше производительности станка В.

Задано номинальное значение контролируемого параметра а — — 65 мм и известно, что точность работы станков характеризуется одинаковой величиной среднеквадратических отклонений а„= — )г 0йл и он = )/05л, равной 1,0 мм'. Позже выяснилось, что станок А был настроен правильно (производил изделие со средним значением Е$л = 65 мм, равным номиналу), в то время как настройка станка В была сбита в направлении завышения номинала (а именно Ейв= = 67 мм). Известно также, что распределение размеров изделий, произведенных на каком-то определенном станке, описывается нормальным законом с параметрами ат =- Е$т и а' = = 0$т (у = А или у В). Очевидно, анализируемая в ОТК по наблюдениям х„ х„..., хн ...

генеральная совокупность будет состоять из смеси двух нормальных генепальных совокулностеи, одна из г Случайная величина 5 будет снабжаться нижним индексом (А нлн В) в тех случаях', когда речь идет о ародукннн какого-то определенного станка (соответственно станка А нлн станка В). 182 которых представляет продукцию станка А и описывается в соответствии с вышесказанным плотностью — (к — ад)е аоа )д(х) = гр(х; ад, од) = — е У2ннде а другая — продукцию станка В и описывается плотностью (х --на) а аав ув(х)=гр(х; ав, ав')= е Ф2 в ОбозначаЯ О„=- (а, от!), а УДельный вес изДелий станка у через Р (у = А, В), можем записать уравнение функции плотности ) (х), описывающей закон распределения анализируемого признака $ во всей (объединенной) генеральной совокупности, в виде: г (х)=р гр(х; Од)+ радар(х; Ов).

(6.1) Учитывая, что в объединенной генеральной совокупности продукции станка А в 1,5 раза больше, чем продукции станка В (поскольку производительность станка А в 1,5 раза выше), а также то, что ад = 65 мм, ав = — 67 мм, од = =- о„' = ! мм"", имеем: (х — пан <а — вт> ° 7(х) =-0,6 е з +0,4 = е х . (6,1') 1/2п ')/2н Правыми частями уравнений (6.1) и (6.!') и представлен частный случай того, что принято называть смесью вероятностных распределений '.

На рис, 6.1 представлены графики функций плотности 7д (х), Гг, (х) и 7" (х). В соотношениях (6.1) и (6.!') величины рд = 0,6 и рв= =+ 0,4 представляют удельные веса соответствующих компонентов смеси (их еще называют алриорнадги вероятностями появления наблюдений именно нз данного компонента смеси), а Од = (ад, од) и Ов = (ав, ов) — векторные параметры, от значений которых зависят законы распределения компонентов смеси. х Речь идет о частном случае, поскольку в общей модели смеси распределений, во-первых, могут участвовать более чем два (н даже континуум) составляющих смесь распределения, а во-вторых, анализируемые распределения могут быть многомерными н не обязаны быть одиотнпнымн (в данном примере оба компонента — нор мальиые), )аз Если сотрудники ОТК или потребители изделий-полуфабрикатов захотят по наблюдениям х,, х„...

определить, на каком именно стпанке произведено каждое из них, то как раз и возникает одна из типичных задач классификации наблюдений в условиях отсутствия обучающих выборок (конечно, в данном примере можно представить себе специально организованное производство этих изделий, в результате т (к) ела Од ол к,мм Рис. бп, Графики функции плотности отдельных компонентов н самой смеси иа примера бн — — — — дли /(к) которого можно получить отдельно изделия от станка А н отдельно — от станка В и использовать нх в дальнейшем в качестве обучающих выборок).

П р и м е р 6.2. Выявление и анализ типов потребительского поведения по данным обследований семейных бюджетов (154, с. 47 — 48, 68 — 69). Здесь представлен один из фрагментов исследования, проведенного с целью изучения (на базе семейных бюджетов) дифференциации потребностей, выявления основных типов потребительского поведения и определения главных типообразующих признаков (социально-демографической, региональной, экономической природы).Исследуемым многомерным признаком является вектор )к показателей у<а~, у~а>, ..., ум> потребительского поведения семьи, т. е.

каждой (1-й) обследованной семье ставится н соответствие многомерное наблюдение где у~„> — удельное (т.е. рассчитанное в среднем на одного члена семьи) количество лт-го вида благ (товаров или услуг, включая сбережения), потребляемое (-й обследованной семьей в базовый период (за год) и выраженное в натуральных или денежных единицах. В соответствии с одним из принятых в исследовании базовых исходных допущений постулируется существование в анализируемом пространстве Пр(У) (У с Пе(У)) сравнительно небольшого (и неизвестного) числа я типов потребительского поведения, таких, что различия в структуре потребления У семей одного типа носят случайный характер (т.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее